导图社区 人卫第8版《卫生统计学》——第一章 《数据分布的描述》
本章的主要学习重点是:1、集中为位置的描述指标,以及各自的适用条件“2、变异程度的描述指标,以及各自的适用条件”3、分类变量的常用统计图及其适用条件和绘制方法
编辑于2022-08-13 11:33:08 广东社区模板帮助中心,点此进入>>
第一章 数据分布的描述
频数分布表和直方图的编制原则和方法
认识原始数据的分布的方法
频数分布表步骤
找出最大值和最小值
排序
计算全距(R)
极差
确定组距
组距=全距/组段数
通常组段数取8~12组
确定组段的上、下限
上限:每个组段的终点
下限:每个组段的起点
第一组应包括最小值,最后一组应包括最大值
除了最后一组,每个组段都是半闭半开区间(下限值为闭区间,上限值为开区间)
列表整理
组段
频数
频率
累积频数
累积频率
直方图步骤
横轴上标出各组段
用直条的高度表示各组段的频数/频率,频数/频率越大则直条越高
两个核心问题
频数分布应该如何分组?
等距分组
非等距分组
看图时警惕!
往往不具有可比性
分多少组?
组段数太少过于笼统,会掩盖数据分布的规律
组段数过多,会使每个组段的频数都很少,失去了制作频数分布表和直方图的意义
数据的分布特征
分布形态
考虑
是否对称
偏离的方向
分类
对称分布
偏态分布
右偏态、正偏态:有小部分数据偏大,直方图呈现右侧拖尾(即越大越矮)
常见:大多数重金属和微量元素在体内含量,个人经济收入(经对数转换,往往呈对称分布)
左偏态、负偏态:有小部分数据偏小,直方图呈现左侧拖尾(即越小越矮)
常见:冠心病患者的年龄分布
集中趋势和离散趋势的描述
集中趋势:指一组数据向某一中心值靠拢的趋势,反映了一组数据中心点的位置,是频数分布表和直方图中高峰所在位置,即频数最大的组段
离散趋势:部分数据偏离中心位置,从各个组段的频数分布可以大致了解观测值偏离中心的程度
集中位置的描述指标,以及各自的适用条件
位置测量指标(可以理解为等差、等比、等秩数列对应的中间值)
均数
算术均数
定义:一个变量所有观测值的和除以观测值的个数
计算
可测得的每个个体观测值
x(均数)=1/n *Σxi(n,i=1)
只有汇总的频数分布表数据(可求近似值)
(频数×对应组段的组中值之和)÷观测值个数
反映一个变量所有观测值的平均水平
适用条件
描述不含极端值的对称分布变量的平均水平,这时均数位于分布的中心位置
几何均数(G)
几何均数就是算术均数在对数(指数)层面的体现形式,因此算术均数具有的性质,几何均数也会有对应的体现
定义
所有n个观测值乘积的n次方根
计算
可测得的每个个体观测值
可先求G的倒数,再求G
只有汇总的频数分布表数据(可求近似值)
用组中值估计对应组段各个观测值的大小
适用条件
观测值>0
存在少数偏大的极端值的正偏态分布的数据但对数转换后呈近似对称分布
观测值之间呈倍数关系或近似倍数关系的数据
eg.抗体滴度、血清凝集效价等
中位数(M)
定义
是一组数据中居中位于正中位置的数
第50百分位数(P50)
计算
将所有观测值从小到大顺序排列,中位数将数据一分为二,所有数据中有一半数据比它大,一半数据比它小
n为奇数时,最中间那个数
n为偶数时,最中间的两个观测值的均数
缺点
与均数比
没有考虑大部分观测值的实际大小,均数充分利用了全部数据
两组数据合并时,合并后的中位数不能用原来两组的的中位数表达,而均数可以
均数可通过如估计截尾均数等方法进行修正,而中位数无法进行这样的修正
见第五节
均数更常用于较为复杂的统计分析
优点
不易受两端极端值的影响
适用条件
对称分布和偏态分布数据平均水平的描述
当数据中有极端值、不确定值、数据呈偏态分布或分布形式未知时
百分位数(Px)
是指将所有n个观测值从小到大顺序排列后,对应于x%位的数值
计算
实际情况中,往往找不到一个值正好有x%≤它
可先排序,计算n✖️x%=j
若j=整数,则Px=第j个和第j+n个观测值的平均值
若j≠整数,则Px=往后取与j毗邻的整数位上的观测值
频数分布表
百分位数所在组段的下限+下限到百分位所在的一点点
变异程度的描述指标,以及各自的适用条件
变异:个体值之间的差异 离散度测量指标
极差(R)
定义:全距,所有观测值中最大值和最小值的差值
反映
一组数据的整个变化范围
越大说明变异程度越大,数据越离散
适用条件
传染病、食物中毒的最短和最长潜伏期等
样本例数较少时
局限
仅用到最大值和最小值的信息,不能反映组内其他数据的变异情况
极差与样本例数有关,样本量相差较大时,不宜用极差进行比较
四分位数间距(IQR)
定义:位于中间一半数据的极差。
不受两端极大或极小数据的影响,四分位数间距比极差更为稳定
计算
第25和第75百分位数之差
适用
两端的极值不稳定导致极差的结果不够可靠时
实际应用中,四分位数间距和中位数一起使用,综合反映数据的平均水平和变异程度,写成M(P25,P75)
基于百分位数间距
方差与标准差
方差(s2)
定义:所有观测值的离均差平方和的平均值
描述所有观测值与均数的平均偏离程度
计算
方差的分母常常采用(n-1)而不是n
第五章有解释
总体方差的无偏估计
与自由度有关
在n较大时,两种方法的计算结果相似
意义:方差越大说明数据越离散,变异程度越大
标准差(SD)
定义:方差的平方根
标准差的单位与原始观测值的单位一致,更多使用标准差而非方差来反映数据的离散程度
局限
标准差比均数更容易受到离群值的影响,个别离群值就能使它明显增大
适用
一般与均数相结合使用,描述不含离群值的对称分布的分布特征
变异系数(CV)
定义:是一个度量相对离散程度的指标,是变异大小(s)相对于其平均水平(x-)的百分比
计算
CV=(s/x)×100%
意义:无单位的相对指标,变异系数越大,表示变量的变异程度越大
适用
了解单位相同但均数相差悬殊的变量之间的变异程度
比较几个不同单位的变量的变异程度
eg 成年男性体重的标准差在数值上低于0~3岁婴幼儿体重的变异,但由常识可知其情况恰恰相反,造成这种相反情况的原因在于成年男性的体重级远大于婴幼儿。
基于均数和方差
描述数据分布的指标
箱式图与箱式百分位数图
用适当的图形来呈现描述数据的 集中位置和变异程度的统计指标
箱式图/箱线图
信息包括:最小值、下四分位数、中位数、上四分位数、最大值
都是从小到大排列后的位置数
箱体高度表是四分位数间距,越高,变异程度越大
对于偏态分布数据,中位数左右两边数据的离散程度不一样,用四分位数间距这一指标总结整个数据的离散程度有失全面,可通过比较Q1和Q3偏离中位数的情况了解数据的偏度
1⃣️中位数的横线在箱体的中间位置则表示数据呈对称分布、 2⃣️中位数横线靠下端则提示右偏态 3⃣️中位数横线靠上端则提示左偏态
适用
探索性分析常用的图形工具
简洁地呈现数据平均水平和变异程度的一系列关键指标值
实际应用中往往将几组数据的箱式图绘在一起,便于组间的比较
改进的箱式图
加入了均数和离群值
竖线最下端和最上端表示的是排除了极端值和离群值以外的其他所有观测值中的最大值和最小值
箱式百分位数图
结合箱式图和直方图
制作
通过原始数据确定图形纵坐标的位置,再将n个观测值从小到大排列
假设中位数的宽度为w,则将数据从小到大排列后第k个观测值所在位置的箱体的宽度为:k=[w/(n+1)]×k(xk<M),(n+1-k)×k=[w/(n+1)](xk>M)
为什么n+1?
箱式图对离群值进行了定义,并对这些离群的个体值单独描点,而箱式百分位数图并没有特别标出离群值
基本思想:根据数据百分位数信息,对箱体的宽度赋予权重,其中箱体中间位置权重大,箱体最宽,越往两端权重减小,箱体变窄
特点
若箱式百分位数图关于中位数上下对称则提示资料呈对称分布
箱式图对离群点进行了定义,并对这些离群的个体值单独描点,箱式百分位数图并没有特别标出离群值,但可以从图上直观判断(对应上下延出的一条又长又细的线)
箱式百分位数图对所有数据进行了描述
离群值定义及判定方法
运用统计方法发现其他一些异常值
定义:一组数据中如果个别观测值与其他数据相比差异较大,远远偏离大多数数据的平均水平,这样的观测值称为离群值
判定方法
通过频数分布表或直方图初步判断
连续几个组段的频数均为0,之后出现特别大或特别小的数据
利用箱式图判断
离群值:距离箱式图底线或顶线为箱体高度的1.5倍以上
极端离群值:超过3倍以上箱体高度
可疑离群值:1~1.5倍箱体高度
当数据近似正态分布且样本量较大(n>50),也可用x±3s判断离群值
通过统计检验判断
检验偏离程度是否超出随机误差所能解释的上限
方法:Nair检验法(已知标准差时),Grubbs检验法、Dixon检验法和峰度-偏度检验法(未知标准差时)
结合其他变量信息判断
一些自然规律或检测标准
处理方法
不能简单地剔除,需要结合专业知识和统计学方法,设法了解造成偏离的原因
因测量或记录出现错误,或存在明显的逻辑问题,可剔除
无明确理由剔除离群值,则在剔除前后各做一次分析,分析结果矛盾时,谨慎下结论
采用一些稳健分析
截尾均数:将数据按从小到大顺序排列后,两端截掉一定比例的数据后计算余下数据的均数
分类变量的常用统计图
常见的分类变量统计指标及卫生统计其他常见指标详见十六章
饼图
定义:圆图,是将圆形分割成若干个扇形,扇形面积的大小表示同一事物内部各部分的构成比
适用
描述分类变量的构成比,说明事物内部各组成部分所占比重
绘制
各扇形通常从时钟12点处开始,按大小或自然顺序顺时针方向排列
简要著名各扇形所代表的类别和百分比
条图和百分条图
条图
定义:用直条的高度反映分类数据中每一类的频数或频率
分类
单式条图
复式条图
注意:绘制时纵轴必须从0开始且等距,否则相对比例会发生改变,有夸大差异的之嫌
百分条图
将多组数据放在一起比较其构成比
热图
定义:用不同的颜色(或者深浅)表示观测值的大小
适用
表示疾病的时间与空间分布
生物学信息中描述基因表达谱
补充(不是重点)
逻辑核查
关乎数据质量,可以发现一些异常值
检查变量类型和性质
类型
数值型变量
数字、小数点、负号
字符型变量
核查变量值范围
变量的大致范围我们视线是知晓的
有效值检查
检查观测值是否为视线定义的数值之一
一致性检查
有无前后矛盾,相关问题的逻辑是否一致
唯一性检查
每个观察单位都有一个唯一的标识号
完整性检查
检查每一个观测单位的完整性和这个数据库的完整性
交叉检查
不同来源的两个数据库中同一内容的信息应该一致