导图社区 卫生统计学
这是一篇关于预防医学专业卫生统计学课程的思维导图,主要内容包括:统计表、统计图、参数估计、假设检验。
编辑于2025-02-08 14:42:59卫生统计学
研究设计
根据研究的目的(why),从统计学的角度(how)对各步提前(when)做出周密的计划和安排(what)
原则:对照、重复、随机、盲法
设计
调查设计
实验设计
临床试验设计
数据收集
准确可靠,根据资料来源
经常性资料
原始记录
专门报告卡
统计报表
一时性资料
现场调查
实验室做实验
数据整理
原始资料清理
录入
检查
统计分析
统计描述
资料(变量/数据)分类
定量资料(计量资料)
连续定量资料
离散定量资料
定性资料(无计量单位)
有序分类变量(等级资料,如学历、治疗效果)
无序分类变量(计数资料,按照性质或类别)
二项分类变量:如性别
多项分类变量:如血型
统计表
统计表的结构
表号
标题
标目:横标目、纵标目
线条:顶线、底线、纵标目下横线
数字
备注:标*在下方说明
表格类型
简单表:只按一个特征或标志分组即横标目或纵标目只有一层
复合表:按两个或两个以上特征或标志分组,超过三个一般会拆分多个表
计量资料—频数分布表(频数表)
频数表的制作
最大值、最小值、全距(极差)
确定组数k、组段i和组段值(组段的上下限):小样本5-8组,大样本9-15组
列表,计频数
频数分布的用途
揭示资料的分布类型(正态分布、正偏态分布、负偏态分布)和分布特征(集中趋势、离散趋势)
便于发现某些特大或特小的可疑值—离群值
根据频数表的分组数据,进一步进行计算和分析
分类资料频数表——交叉表(列联表)
制表:分组变量作为横标目,结局变量作为纵标目,构建行乘列表
病例对照研究中肺癌、正常人为纵标目,吸烟、不吸烟横标目
队列研究、随机对照试验研究中暴露/非暴露、干预/对照为纵标目,发病、不发病为纵标目
统计图
统计图的基本结构 :标题、标目、尺度、图线、图例、图形(纵横比例5:7/7:5)
常用统计图
直条图:用等宽直条的长短表示各个相互独立的指标大小的图形
绘制要点
坐标轴:横轴为观察项目,纵轴为数值,纵轴坐标一定从0开始;
直条的宽度:各直条等宽、等间距,间距宽度和直条相等或为其一半
复式直条图在同一观察项目的各组之间没有间距
分类
单式条图:一个统计指标,一个分组因素
复式条图:一个统计指标,两个分组因素
分段条图:两个有隶属关系的统计指标,一个分组因素
构成图
圆图(饼图)
圆面积100%,圆內各扇形面积为各部分所占的百分比,表示总体各组成部分的构成比,1%相当于3.6°
百分条图:长条面积100%
直方图
又称频数分布图:以直方条面积代表频数(频率),横轴代表频数分布数列的变量值,等宽线段代表组段,纵轴代表各变量值相应的频数或频率(组距不为1时为频率密度=频率/组距)。注各直方条间不留空隙。
累计频率分布图
线图
概念:以线段的上升或下降表示事物在时间上的发展变化或一种现象随另一种现象变迁的情况
绘制要点:横轴表示时间或者组段,纵轴表示频数(率),纵轴坐标可不从0开始
分类
普通线图:说明事物因时间、条件推移而变迁的趋势。多用于流行病学调查或病情的时间动态分析
半对数线图:表示事物发展速度(相对比)。其纵轴为对数尺度,横轴为算数尺度。
散点图
概念:以点的密集程度和趋势来表示两种现象的相关关系。
绘制要点:横轴代表一个变量,纵轴代表另一个变量。纵横轴的坐标起点不一定要从0开始,根据资料的情况而定。
图例
箱式图
含5个统计量:最小值、下四分位数、中位数、上四分位数、最大值。表示数据的分布及波动范围
绘制要点:两端分别是上四分位数和下四分位数,中间横线或点是中位数,两端连线是最大值和最小值。另外标记可能的异常值。箱子越长,数据变异程度越大。中间横线在箱子中点表明分布对称。
图例
统计地图(热图)
绘制要点:不同纹线和颜色代表指标高低,说明某事物或现象在地域的分布特征
适用于:地区性资料,如对于传染病的调查
定量资料
离散型定量资料
直条图:直条高度表示数量大小
单式条图:组内数量对比
复式条图:组间数量对比
连续性定量资料
直方图
直方图:直条的面积表示个组段的频率或频数分布
累计频率分布图
线图
定量资料数值变化,常用于描述事物变化趋势(数量随时间的变迁或者某种现象随另一种现象而变迁)
半对数线图
常用于描述事物变化速度,特别是对不同指标或相同指标不同组别的变化速度的比较
散点图
双定量指标的变化趋势,点的密集程度和形成的趋势,表示两现象间的相关关系
箱式图
适用于定量资料取值范围,描述定量资料的平均值/变异水平、离群值/极端值
箱式百分位数图
结合箱式图和直方图的功能,利用数据所占百分位数信息,描述整个数据的分布形态
定性资料
直条图
单式条图:组内数量对比
复式条图:组间数量对比
百分条图
适用于构成比资料,多个构成比的比较
圆图
适用于构成比资料,用于表示事物内部个构成部分所占比重
热图
用不同的颜色(或者深浅)表示观测值的大小,常用来表示疾病的时间与空间分布,生物信息学中也常用热图描述基因表达谱
统计指标
定量资料
集中趋势
直接法:
频数表法:
适用于描述不含极端值的正/似正态分布变量的平均水平
直接法:
频数表法:
常用于描述原始数据呈正偏态分布(峰左)但对数转换后近似对称分布的数据(对数处理的似正态分布),尤其是医学研究中遇到的呈现等比例变化的数据,如抗体滴度、血清凝集效价等
M 中位数
直接法:
频数表法:
常用于有极端值、不确定值、呈偏态分布或分布形态未知的数据
离散趋势
R 极差
也称全距,R=最大值-最小值
稳定性差,一般只用于描述数据分布范围
Q 四分位数间距
常与中位数一起综合反映数据的集中和离散趋势,用于有极端值、不确定值、呈偏态分布或分布形态未知的数据
方差
离均差平方和
S 标准差
与均数结合描述不含极端值的正/似正态分布
CV 变异系数
单位相同,均数相差悬殊
比较几个不同单位的变量的变异程度
补充:右偏态分布数据的均数大于中位数,左偏态分布数据的均数小于中位数
定性资料
相对数
率
某一时间段内某现象或事件发生的频率或强度
描述频率的率
某时期某现象发生的频率
频率:分母中无时间因素
或
患病率、治愈率、有效率、死亡率、病死率等
描述强度的率
某时期某个现象发生的强度,发病密度
速率:分母包含时间因素
速率
发病率、肿瘤患者5年生存率、感染率等
注意:率的分子为阳性数,分母为阳性+阴性数,当计算具有终生免疫力的传染病发病率时,分母不应该包括已具有免疫力的那部分人
构成比
又称百分比、比例proportion,描述某个事物内部各构成部分所占的比重
=
如入院诊断符合率、知晓率、检出率等,可以用卡方等方法分析
相对比Ratio
定义:任何两个相关量的变量A与B之比
对比指标:性别比、某两年发病率比
关系指标:卫生服务领域,描述卫生资源配备,人均床位数、医护比
计划完成指标: 如 决算/预算
相对危险度RR
队列研究
暴露组发病风险/非暴露组发病风险
随机对照试验
干预组发病风险/对照组发病风险
前瞻性研究
比数比/优势比OR
回顾性研究—病例对照研究
(肺癌组吸烟/肺癌组不吸烟)/(正常人组吸烟/正常人组不吸烟)
标准化率或调整率
消除年龄、性别、疾病强度等混杂因素,反应各资料相对水平,不代表实际率
直接法:被标化组有**组别**率
任选一组人口数或者两组各部分人口之和作为标准
间接法:被标化组缺乏**组别**率,已知各年龄别标准率,
标化死亡比SMR=实际死亡/预期死亡
动态数列
定义:是按时间顺序将一系列统计指标(可以是绝对数、相对数或平均数)排列起来,用以观察和比较该事物在时间上的变化和发展趋势。
按指标性质分为绝对数动态数列、相对数动态数列和平均数动态数列
常用指标:绝对增长量、发展速度、增长速度、平均发展速度和平均增长速度
线图描述动态数列发展趋势,半对数线图描述相对发展速度
统计推断
参数估计
样本推断总体
样本均数抽样分布
n>30服从正态分布
样本频率抽样分布
t分布
样本均数
点估计
用样本统计量直接作为总体参数的估计值
区间估计
中心极限定理:总体不论正态分布还是偏态分布,n足够大(n>30),样本均数近似正态分布,且样本均数等于原分布均数。
假设检验
概率分布
二项分布
poisson分布
π很小的二项分布
正态分布
正态分布应用
确定医学参考值范围
正态近似法
适用于正态分布或近似正态分布的资料
百分位数法
适用于偏态分布资料
质量控制图
附加:正态分布检验
后期确切概率法和拟合优度检验也可检验正态性
检验
差异性
假设检验的基本步骤
3.确定P值,做出推断
定量资料
Z检验/μ检验
单样本Z检验
适用于n>100
两样本Z检验
适用于两样本n均大于100
t检验
基本概念
主要用于两组均数的比较,它能够判断进行比较的两个均数的差别是由于抽样误差引起,还是来自不同总体。
资料符合条件
资料是数值资料
在样本量较少时资料服从正态分布
两样本均数比较时还需要检验方差齐性
方法分类
单样本t检验
样本均数与总体均数比较
配对t检验
配对资料常见类型
配对资料,常将条件基本相同的受试对象配成对子,每对中的两个受试对象分别给予不同的处理,比较不同处理的差别
同一批对象试验前后对比资料
对同一批样本中的每一个样本分别用不同方法处理,比较不同方法有无差别
差值的样本均数与总体均数比较,检验差值的总体均数是否为0
检验公式
完全随机设计两独立样本t检验
方差齐
方差不齐,经过正态性检验
近似t检验(Satterthwaite近似法)
方差分析 /F检验
基本概念
适用于对多个平均值进行总体的假设检验,以检验实验所得的多个平均值是否来自相同总体
基本思想
将出现在测量值上的总变异按照其变异来源分解为多个部分,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义
离均差平方和,各观察值与总体均数差值的平方和
组内各观测值与所在组的均数的差值的平方和
各组均数与总均数的离均差平方和
随机误差(包括个体变异和测量误差)
处理因素
方法分类
完全随机设计的单因素方差分析
随机区组/配伍组设计两因素方差分析
两个样本均数间的多重比较
定性变量资料
卡方检验
概念
是一种对分类资料进行假设检验的重要方法之一。它常用于两个或多个率(或构成比)的比较、列联表资料的相关分析及频数分布拟合优度检验
基本思想
观察实际频数与理论频数的吻合程度
基本公式
分类
独立样本四格表资料
基本步骤:
四格表专用公式:
因为数据不属于连续性资料(比如人员间隔为1),需要校正:
多个独立样本R*C列表资料
专用公式:
4.用专用公式或基本公式做出来的总体卡方,只能说明n组率不完全相同,在拆分四格表做两两比较时,P值要与α/n比较。 5.R´C表资料形式:多样本率的比较;两组构成比的比较;多组构成比的比较
配对设计资料
配对四格表
当b+c³40时,配对四格表专用公式:
当b+c<40时,校正公式:
配对R´R交叉表
独立性检验
基本思想:在实际工作中,研究者有时需了解两个或多个分类变量的关联性及其强度,此时则需采用关联性检验,作为其反面也可称为独立性检验。
2×2交叉表
2×2配对数据
R×C交叉表
检验使用卡方基本公式。 分类变量的关联性分析与率(构成比)的差异性分析,在检验过程和方式上完全一致。需强调的是,这两大类分析在研究目的、设计方案、数据结构与结果解释方面有着本质的区别。关联性分析主要针对同一随机样本的两个不同属性变量所形成的交叉表,侧重于推断两个不同属性变量之间的存在关联性与否;而率(构成比)的比较,则主要针对两个或多个独立随机样本所形成的交叉表,侧重于推断其分别所代表的总体率之间是否存在差异性。
拟合优度检验
概念:拟合优度检验即用于判断实际样本的观察频数分布是否服从某一理论期望频数分布。通常用以判断某一变量观察值是否服从某一既定的理论分布,如正态分布,二项分布,泊松分布等等。
列联表资料的确切概率法
基本思想:保持周边合计不变,计算交叉表中各个实际频数变动的所有可能组合所对应的概率,再将获得现有样本的概率以及比它更极端的所有概率求和,直接求出单侧或者双侧的累计概率进行推断。
使用情况:当2×2交叉表出现以下情况:一样本含量n<40;有一个格子的理论频数T<1;χ2检验后所得概率P接近检验水准α。
R´C交叉表
一般通过软件计算
非参数统计
秩和检验
参数检验/非参数检验定义
定义:
配对样本秩和检验
单样本数据的符号秩和检验
其研究目的是推断观测值的总体中位数与某给定数值(如标准值、目标值等)是否相等。(类似单样本t检验)
配对设计数据的符号秩和检验
两组独立样本比较
连续型变量资料
有序变量资料
多组样本比较
定量变量
等级资料
多独立样本两两比较
公式:
总结
预测数据
相关性
相关性分析
线性相关
描述
检验
适用于双变量正态分布资料
秩相关
子主题
回归分析
线性回归
logistic
Cox回归
生存分析
Meta分析
合理解释统计分析结果,阐明结果与研究背景的关系