导图社区 数据分布的描述
这是一篇关于卫生统计第一章数据分布的描述思维导图,从频数分布表与直方图的编制原则与方法、集中位置与变异程度的常用指标以及使用条件等方面展开,内容十分详细。
编辑于2021-06-28 14:14:53数据分布的描述
频数分布表与直方图的编制原则与方法
频数分布表
编制方法
找出最大值最小值
计算全距
最大值-最小值
确定组距
相邻两组之间的距离,组距=全距/组段数,一般为8~12组
确定组段的上下限
起点为下限,终点为上限,每个组段包含组段的下限值,最后一组的组段写出上限值
列表整理
计算频数、频率、累计频数、累计频率
直方图
慢性鼻窦炎患者生命质量评估总分的直方图
数据的分布特征
分布形态的分类
对称分布
偏态分布分正偏态(右偏态)、负偏态(左偏态)
集中趋势和离散趋势的描述
集中趋势
指一组数据向某一中心值靠拢的趋势,反映了一组数据中心点的位置,是频数分布表和直方图中高峰所在位置,即频数最大的组段。
离散趋势
部分数据偏离中心位置的变异特征。
主要用途
揭示是资料的分布类型
描述分布的集中趋势和离散趋势发现特大值与特小值
当样本含量较大时,可用各组段的频率作为概率的估计值
代替繁杂的原始资料,以便进一步分析
集中位置与变异程度的常用指标以及使用条件
集中位置
定义:反映一组观察值的平均水平或中心位置。
常见指标
算数均数 X
定义:反应一个变量所有观测值的平均水平
应用条件:最适合用于不含极端值的对称分布资料,尤其是正态分布
性质:Y的算术均数是X的算数均数加上常数C
优缺点:容易理解,结果比较稳定,应用广泛 对极端值太敏感在极端情形下,有时可出现只有一个观察值是在均数的一边。
几何均数,G
应用:几何均数常用于数据呈倍数变化或对数正态分布资料的平均水平,计算几何均数时,观察值中不能有零且不能同时有正数和负数。
例如:抗体滴度
中位数,M
中位数定义:将全部观察值从小到大按顺序排列,位次居中的数值有一半数据比它大,一半数据比它小
百分位数 Px:表示第X百分位数,Px将原始数据分成两部分有x%的观测值小于等于它,(100-x)%的观测值大于它。中位数又称为第50百分位数P50
特点:仅用了中间1~2个数据
计算方法
直接法-基于原始数据
频率表法-基于频率表资料,近似计算
L为欲求百分位数所在组段的下限,l为该组段的组距,fx为该组段的频数, n为总频数,fl为该组段之前的累计频数
应用
对任何资料都适用。偏态分布,分布不明,末端开口数据
不足:1)中位数未考虑大部分观测值的实际大小2)两组数据合并时,合并后的中位数不能用原来两组的中位数来表达,均数可以。3)均数可通过如估计截尾均数等方法进行修正,而中位数不可以
众数(mode)
定义:样本中出现次数最多的数值
三者关系
正态分布时: 均数=中位数=众数 正偏态分布时:均数>中位数>众数 负偏态分布时:均数<中位数<众数
变异程度
定义:变异(variation) 一组数据中个体值之间的差异。
常见指标
1极差
又称全距,所有观测值中最大值与最小值之差
可用来反映传染病、食物中毒最短和最长潜伏期
不足: (1)仅用到最大值和最小值的信息,不能反映组内其他数据的变异情况。(2)极差与样本例数有关。一般地,样本量越大,得到较大或较小变量值的可能 性越大,极差就可能越大,故样本量相差较大时,不宜采用极差进行比较
应用:偏态分布
2 四分位数间距(IQR)
IQR=P75-P25
应用:适用于偏态分布或分布位置资料不明
优点:不收两端极大或极小数据的影响,四分位数比较差更稳定
但未考虑每个观测值的变异,常与中位数一起使用。
3 方差、4标准差
方差:所有观测值的离均差平方和的平均值,描述所有观测值与均数的平均偏离程度
标准差:方差的平方根
标准差的意义
反映一组数据平均的离散水平,单位相同时, S越小,表示数据的变异程度越小,同时表示 该组均数的代表性越大。
应用
度量对称分布的离散程度,单位与均数相同
结合均数描述资料的分布特征 x+-s
结合均数计算变异系数
结合样本含量计算标准误
标准差比均数更容易受离群值的影响
性质:y=X+c,Sy=Sx,Y=cX则Sy=cSx
5 变异系数
定义:度量相对离散程度的指标是变异大小(s)相对于其平均水平(x)的百分比,是一个相对指标
公式
应用
描述单位相同但均数相差悬殊的几组数据的变异程度。不同年龄组男童的身高
比较几个不同单位的变量的变异程度。如身高和体重的变异
基本箱式图和箱式百分数图的绘制和作用
箱式图
1. 表示中位数的横线在箱体中间位置则表明数据呈对称分布。 2. 中间横线靠下端则提示右偏态分布。 3. 中间横线靠上端则提示左偏态分布。
箱式百分位数图
定义:箱式百分位数图(box-percentile plot)结合了箱式图和直方图的功能,不仅给出了几个关键的百分位数,还描述了整个数据的分布形态。箱体中间部分最宽,越往两端越窄。
慢性鼻窦炎患者精力评分呈左偏态分布。 箱式图显示该组数据有两个数值特别小的离群点。 箱式百分位数图从箱体往下延伸出一条又长又细的线——离群点
常用的逻辑核查方法
常用策略
检查变量的类型和性质
数值型 字符型
检查变量值范围
变量取值范围
有效值检查
观测值是否为事先定义的数值之一
一致性检查
有无前后矛盾,相关问题的逻辑是否一致
完整性检查
观察单位与数据库的完整性
交叉检查
不同来源的两个数据库里的同一内容应该一致
离群值的探索和处理方法
离群值:与其他数值差异较大,远偏离大多数数据的平均水平的观测值
核查离群值的统计手段
1)频数分布表或直方图初步判断,连续几个组段的频数为0,之后出现特别大或者特别小的数据。
2)利用箱式图,观测值距箱式图底线(P25)或顶线(P75)的距离为箱体高度(IQR)的1.5倍或以上,1~1.5为可以离群值。
3)通过平均数和标准差判断,当数据近似正态分布且样本量含量较大时(n>50),如观测值在x+-3s之外可视为离群值
4)通过统计检验判断:检验偏离程度是否超出随机误差所能解释的上限。已知标准差可用Nair检验法,未知标准差时,可用Grubbs法,Dixon检验法和峰度-偏度检验法。
5)结合其他变量信息判断
离群值的处理
1、测量或者记录过程中出现错误而导致离群值,或者存在明显的逻辑错误,应予以剔除。例如细胞培养时出现了污染或者操作失误。
2、无明确理由剔除离群值
1)对离群值删除前后各做一次统计分析,若前后分析结果矛盾则下结论需谨慎
2)采取稳健分析
中位数
对数变换,观测值>0
截尾均数(trimmed mean),切尾均数:将数据按从小大大顺序排列后,两端截掉一定比例的数据后计算余下数据的均数。
各种图形的使用条件
饼图
饼图(pie chart)又称圆图,是将圆形分割成若干个扇形,扇形面积的大小表示同一个事物内部中各部分的构成比。。
应用,饼图主要用来描述分类变量的构成比,用于说明事物内部各组成部分所占比重
注意:各扇形通常从时钟12时处开始,按大小或自然顺序顺时针方向排列; 简要注明各扇形所代表的类别和百分比。
条图和百分位图
条图(bar chart),可用直条的高度反映分类数据中每一类的频数或者频率。条图又分为单式条图和复式条图。
百分条图(percent bar graph)的功能与饼图相同,可以将多组数据放在一起比较其构成比。对于等级数据需按照等级顺序排列,如果没有明显的逻辑关系,也可按照百分比由大到小排列。
热图
用不同的颜色(或者深浅)表示观测值的大小,常用来表示疾病的时间与空间分布,生物信息学中也常用热图描述基因表达谱