导图社区 第一章:数据分布的描述
《卫生统计学》第一章——数据分布的描述
生理篇思维导图:包含生命活动的基本特征,机体的内环境、稳态和生物节律,机体生理功能的调节,定义:机体内许多生理功能是由神经系统的活动调节完成的。等等
我等以禅悦为食,活在真的快乐里——一位致力于用佛教知识改善生活方法的东大名僧,为现代人抒写的"佛系“快乐思考法
社区模板帮助中心,点此进入>>
数据关联的探索
实验性研究设计
实验性研究设计2
医学统计学基础绪论
病因及其发现和推断
公共卫生监测
传染病防治法
食品安全法
突发公共卫生事件应急法律制度
行政处罚法
数据分布的描述
频数分布表与直方图
频数分布表
全距(Range):最大值与最小值之差,也称极差
确定距组:组距是指相邻两组之间的距离。-------组距=全距/组段数
确定组段的上下限:每个组段的起点称为下限,终点称为上限。
列表整理:计算各组段的例数,即频数
直方图
制作步骤
横轴上标出各组段
用直线的高度表示各组段的频数,频数越大,直线越高
问题?
1.频数分布应如何分组
等距分组
非等距分组
2.分多少组
不宜过多或过少
数据分布特征
(一)分布形态
偏态分布
正偏态/右偏态:小部分数据偏大,直方图呈现右侧拖尾的非对称分布
比如:个人经济收入
负偏态/左偏态:小部分数据偏小,直方图呈现左侧拖尾的非对称分布
比如:冠心病患者年龄分布
(二)集中趋势和离散趋势的描述
集中趋势:一组数据向某一中心值靠拢的趋势,即频数的最大组段
离散趋势:部分数据偏离中心的程度
集中位置
算术均数
平均数指标()
公式--书13页
主要适用于不含极端值的对称分布变量的平均水平
几何均数(G)
公式-----书14.15页
适用于原始数据呈正偏态分布但对数转换后呈近似对称分布的数据
抗体滴度、血清凝集效价
中位数(M)
位于正中位置的数,又称第50百分位数(P50)
适用于对称分布和偏态分布数据平均水平的描述,尤其是数据中有极端值,不确定值,呈偏态分布时。
变异程度:个体之间的差异
极差(R)也叫全距
描述数据变异程度的大小
反映传染病,食物中毒的最短和最长潜伏期
局限性:
1.仅仅用到最大值和最小值的信息,不能反应组内其他数据的变异情况
2.极差和样本例数有关
四分位数间距(IQR)
IQR越大说明数据变异程度越大=P75-P25。也可写为M(P25,P75)
方差与标准差
方差(S2):所有观测值平均的离均差平方和
描述所有观测值与均数的平均偏离程度
方差越大说明数据越离散,变异程度越大
标准差(SD):方差的算术平方根
标准差越大说明数据越离散,变异程度越大
变异系数(CV)
标准差/均数·----度量相对离散程度的指标
箱式图
箱式百分位数图
数据核查与离群值
逻辑核查
检查变量类型和性质
核查变量范围
有效值核查
一致性核查
唯一性核查
完整性核查
交叉核查
离群值核查
通过频数分布图和直方图初步判断
利用箱式图判断
通过统计检验判断
结合其他变量信息判断
处理方法:不能轻易删除,需结合专业知识和统计学方法
分类变量的常用统计图
饼图
条图和百分条图
热图