导图社区 卫生统计学——数据分布的描述
卫生统计学数据分布的描述,具体有频数表、直方图、分布类型、箱式图、离群值、统计图、集中趋势 central tendency、离散趋势,快来看。
编辑于2023-04-21 20:56:26 辽宁数据分布的描述
频数表
由两个列组成,其中一列是观察单位的数值或组距,另一列是对应的频数
步骤
⒈找出最大值和最小值; ⒉计算全距; ⒊确定组距(组距取决于全距和组段数,组段数一般为8~12组); ⒋确定组段的上下限; ⒌列表整理
直方图
横轴——组段,纵轴——频数
分布类型
对称分布
越靠近两端频数越小,高峰两侧的频数分布基本对称 正态分布是对称分布,但对称分布不一定是正态分布
正偏态分布 positive skewness
又称右偏态分布(right skewness),有小部分数据偏大,直方图呈现右侧拖尾的非对称分布
负偏态分布 negative skewness
又称左偏态分布(left skewness),有小部分数据偏小,直方图呈现左侧拖尾的非对称分布
箱式图
上四分位数,下四分位数,中位数,最大值,最小值
离群值
以1.5倍的IQR为标准,出现离群值不能立即删掉,除了确认是录入错误、不满足纳入标准或有其他充分剔除理由,否则不能随意剔除
统计图
饼图
反映数据构成比
条图
反映分类数据中每一类的频数或频率
类型
单式条图
复式条图
热图
用不同颜色或深浅表示观测值大小
用途
表示疾病的时间与空间分布
百分条图
用途
反映数据的构成比,可以将多组数据放在一起
集中趋势 central tendency
指一组数据向某一中心值靠拢的趋势,反映了一组数据中心点的位置,是频数分布表和直方图中高峰所在位置,即频数最大的组段
常用指标
几何均数(G)
定义
所有n个观测值乘积的n次方根
适用条件
⒈原始数据呈正偏态分布但经对数转换后呈对称分布的数据 ⒉含少数极端值的正偏态分布 ⒊原始数据呈倍数关系
公式
算术均数(X拔,μ)
定义
一个变量所有观测值的和除以观测值的个数,反映一个变量所有观测值的平均水平
适用条件
不含极端值的正态分布
公式
中位数(M)
定义
是一组数据中位于正中位置的数。将所有观测值从小到大顺序排列,中位数将其一分为二,所有数据一半比它大,一半比它小,中位数是一个位置指标 右偏态:均数>中位数 左偏态:均数<中位数
适用条件
⒈适用于各种分布,尤其是偏态分布 ⒉尤其是含极端值 ⒊含不确定值的 ⒋数据呈偏态分布 ⒌分布类型未知的数据
公式
区别: ⒈中位数没有考虑大部分观测值的实际大小,而均数充分利用了所有数据 ⒉两组数据合并时,合并后中位数不能用原来两组的中位数表达,而均数可基于两组的均数和例数求得 ⒊均数可通过如估计截尾均数等方法进行修正,而中位数无法进行类似修正
离散趋势
极差 range,R
定义
也称全距,为所有观测值中最大值与最小值的差值。 极差越大,说明数据变异程度越大
适用条件
适用于任何分布,尤其是偏态分布
公式
R=最大值-最小值
优点
简单明了,概念清晰
缺点
⒈仅用到最大值和最小值,不能反映组内其他数据的变异情况 ⒉极差与样本例数有关,样本量越大,得到的极差可能就越大
四分位数间距 inter-quartile range,IQR
定义
数据从小到大排列,中位数将数据一分为二,P₂₅(下四分位数,lower quartile,QL),是较小一半数据的中位数,P₇₅(上四分位数,upper quartile,Qu)是较大一半数据的中位数
适用条件
适用于任何分布类型,尤其是偏态分布,主要和中位数一起描述偏态分布的资料
公式
IQR=Qu-QL
优点
比极差更稳定
缺点
仍未考虑全部数据的变异程度
方差 S²/σ²
定义
一组数据中每个数据与均数的离均差平方和的平均数
适用条件
正态分布
公式
标准差 S/σ
适用条件
正态分布
常与均数结合起来描述正态分布数据的集中和离散情况
变异系数 CV
定义
一组数据变异东大小(s)相对其平均水平的百分比
适用条件
⒈单位相同但均数相差悬殊的变量之间的变异程度 ⒉单位不同的几个变量的变异程度
公式
数据分布的描述
频数表
由两个列组成,其中一列是观察单位的数值或组距,另一列是对应的频数
步骤
⒈找出最大值和最小值; ⒉计算全距; ⒊确定组距(组距取决于全距和组段数,组段数一般为8~12组); ⒋确定组段的上下限; ⒌列表整理
直方图
横轴——组段,纵轴——频数
分布类型
对称分布
越靠近两端频数越小,高峰两侧的频数分布基本对称 正态分布是对称分布,但对称分布不一定是正态分布
正偏态分布 positive skewness
又称右偏态分布(right skewness),有小部分数据偏大,直方图呈现右侧拖尾的非对称分布
负偏态分布 negative skewness
又称左偏态分布(left skewness),有小部分数据偏小,直方图呈现左侧拖尾的非对称分布
箱式图
上四分位数,下四分位数,中位数,最大值,最小值
离群值
以1.5倍的IQR为标准,出现离群值不能立即删掉,除了确认是录入错误、不满足纳入标准或有其他充分剔除理由,否则不能随意剔除
统计图
饼图
反映数据构成比
条图
反映分类数据中每一类的频数或频率
类型
单式条图
复式条图
热图
用不同颜色或深浅表示观测值大小
用途
表示疾病的时间与空间分布
百分条图
用途
反映数据的构成比,可以将多组数据放在一起
集中趋势 central tendency
指一组数据向某一中心值靠拢的趋势,反映了一组数据中心点的位置,是频数分布表和直方图中高峰所在位置,即频数最大的组段
常用指标
几何均数(G)
定义
所有n个观测值乘积的n次方根
适用条件
⒈原始数据呈正偏态分布但经对数转换后呈对称分布的数据 ⒉含少数极端值的正偏态分布 ⒊原始数据呈倍数关系
公式
算术均数(X拔,μ)
定义
一个变量所有观测值的和除以观测值的个数,反映一个变量所有观测值的平均水平
适用条件
不含极端值的正态分布
公式
中位数(M)
定义
是一组数据中位于正中位置的数。将所有观测值从小到大顺序排列,中位数将其一分为二,所有数据一半比它大,一半比它小,中位数是一个位置指标 右偏态:均数>中位数 左偏态:均数<中位数
适用条件
⒈适用于各种分布,尤其是偏态分布 ⒉尤其是含极端值 ⒊含不确定值的 ⒋数据呈偏态分布 ⒌分布类型未知的数据
公式
区别: ⒈中位数没有考虑大部分观测值的实际大小,而均数充分利用了所有数据 ⒉两组数据合并时,合并后中位数不能用原来两组的中位数表达,而均数可基于两组的均数和例数求得 ⒊均数可通过如估计截尾均数等方法进行修正,而中位数无法进行类似修正
离散趋势
极差 range,R
定义
也称全距,为所有观测值中最大值与最小值的差值。 极差越大,说明数据变异程度越大
适用条件
适用于任何分布,尤其是偏态分布
公式
R=最大值-最小值
优点
简单明了,概念清晰
缺点
⒈仅用到最大值和最小值,不能反映组内其他数据的变异情况 ⒉极差与样本例数有关,样本量越大,得到的极差可能就越大
四分位数间距 inter-quartile range,IQR
定义
数据从小到大排列,中位数将数据一分为二,P₂₅(下四分位数,lower quartile,QL),是较小一半数据的中位数,P₇₅(上四分位数,upper quartile,Qu)是较大一半数据的中位数
适用条件
适用于任何分布类型,尤其是偏态分布,主要和中位数一起描述偏态分布的资料
公式
IQR=Qu-QL
优点
比极差更稳定
缺点
仍未考虑全部数据的变异程度
方差 S²/σ²
定义
一组数据中每个数据与均数的离均差平方和的平均数
适用条件
正态分布
公式
标准差 S/σ
适用条件
正态分布
常与均数结合起来描述正态分布数据的集中和离散情况
变异系数 CV
定义
一组数据变异东大小(s)相对其平均水平的百分比
适用条件
⒈单位相同但均数相差悬殊的变量之间的变异程度 ⒉单位不同的几个变量的变异程度
公式