导图社区 【全书计算题总结】人卫第8版《卫生统计学》
另一个超级大干货也来啦!卫生统计学课本里的所有检验方法都在这里了!会系统地讲解检验方法如何选择,计算题、大题的解题思路也可以从中获得!!非常非常实用!!
编辑于2023-03-10 11:55:22 广东社区模板帮助中心,点此进入>>
卫统计算题总结
横向归纳(按分析方法)
二项分布与Poisson分布
单样本率与已知总体率的比较
两独立样本率比较
样本与总体平均时间发生数的比较
两独立样本平均计数检验
中位数和百分位数的比较
卡方检验
两独立样本率或构成比比较(2×2列联表)
多个样本率或构成比比较(R×C列联表)
配对设计样本率比较
四个表的Fisher确切概率法
率的线性趋势卡方检验
拟合优度检验
纵向归纳(按资料类型)
单样本定量资料
单样本t检验
z检验
多组独立样本定量资料
完全随机设计资料的方差分析
成组设计多个样本比较的Kruskal-Wallis H秩和检验
配对区组设计资料
配对设计均数比较
随机区组设计资料的方差分析
配对设计样本率的比较
配对设计资料的Wilcoxon符号秩和检验
随机区组设计的Frideman秩和检验
假设检验步骤
1、建立检验假设,确定检验水准
2、检验统计量的选择与计算
3、计算P值,作出统计推断
确定假设检验方法的思维步骤
1、资料类型
定量资料
定性资料
无序分类资料
有序分类资料
2、检验目的
差异性检验
独立性分析
拟合优度检验
3、对比组数
定量资料
单样本
样本所代表的总体μ与已知总体μ0的比较
两组
两个独立样本所代表的总体是否相同
三组及以上
三组及以上独立样本所代表的的总体是否相同
定性资料
单样本
分类资料(2×2)
分类资料(R×C)
4、研究设计类型
完全随机设计
配对设计
随机区组设计
5、数据特征及样本量
定量资料
独立性
正态/样本量大小
方差
定性资料
样本量大小
理论频数,实际频数
属性情况
参数检验or非参数检验
定量资料
差异性检验
单样本与总体比较 (k=1)
主要关注正态性
正态性
单样本t检验【样本来自正态总体且n<50】
单样本
v=n-1
Z检验【样本量很大(n>50/100)或总体标准差σ已知】
单样本
(总体标准差已知)
(样本量很大)
不满足正态性
Wilcoxon符号秩和检验
用途
单个样本中位数和总体中位数的比较
单样本符号秩和检验是推断样本所代表的总体的中位数M与给定已知总体的中位数M0是否相同
基本思想
差值:计算样本中的所有数值与给定的总体中位数M0的差值
编秩:对所有差值的绝对值进行编秩
若差值为0时,舍去不计,n随之减少,当差值的绝对值相等时,取平均秩,称为相同秩
遇到绝对值相等的差数,符号相同可以顺次编秩,符号相反则要取平均秩次
统计量:若H0成立,理论上,R+与R-的总体均数应该相等,总体标准差也相等。若R+与R-相差悬殊,均远离μR,则有理由拒绝H0
检验统计量T/W:分别求正、负秩次秩和,以较小者作为检验统计量T
确定P值
查表法(n≤50)
1、先确定n
2、确定单侧还是双侧
3、判断
若T值在上、下界值范围内,则P值大于相应的概率
若T值恰好等于界值,其P值一般等于相应的概率
若T值在上、下界值范围外,其P值小于相应概率
此时右移一列,再做比较,直至较好地估计出P值
内大外小原则
正态近似法(n>50)
连续性校正的统计量Z
T统计量的分布逐渐逼近均数为n(n+1)/4,方差为n(n+1)(2m+1)/24的正态分布
相持的情形较少时
标准正态统计量
0.5为连续性校正数
相持的情况较多时 (如个体数超过25%)
校正的统计量Zc
tj为第j个相同秩次(即平均秩次)的个数
两样本比较 (k=2)
完全随机设计
主要关注正态性和方差齐
正态性
方差齐
成组t检验(n较小)
=合并样本方差
v=n1+n2-2
Z检验【样本量很大(n>50/100)】
两独立样本
(样本量很大)
方差不齐
成组t'检验
Wilcoxon秩和检验
不满足正态性/偏态分布
Wilcoxon秩和检验
基本思想
将两样本(N=n1+n2),从小到大编秩,分别求出R1、R2,统计量T(或W)为样本量较小一组的秩和(或任一样本的秩和)
编秩、求秩和
遇到相同数据时,如果在同一组可顺次编秩,如果在不同组必须取平均秩次
无论两组样本例数相等还是不等,都可以用任意一组的秩和作为Wilcoxon秩和检验的统计量W
一般选较小者
若H0成立,则两样本的总体分布相同,则统计量T(或W)的均数和标准差为
确定P值
查表法(n1、n2较小时)
1、先确定n
2、确定单侧还是双侧
3、判断
若T值在上、下界值范围内,则P值大于相应的概率
若T值恰好等于界值,其P值一般等于相应的概率
若T值在上、下界值范围外,其P值小于相应概率
此时右移一列,再做比较,直至较好地估计出P值
内大外小原则
正态近似法(n1、n2比较大时)
连续性校正的统计量Z
相持的情形较少时
标准正态统计量
0.5为连续性校正数
相持的情况较多时 (如个体数超过25%)
校正的统计量Zc
tj为第j个相同秩次(即平均秩次)的个数
配对设计
主要关注正态性
对子间独立、差值服从正态分布 (或近似正态即对子数n足够大)
配对t检验
两配对样本
v=n-1
差值不服从正态分布
变量变换使之符合正态性检验
Wilconxon符号秩和检验
用途
配对样本差值的中位数和0比较
配对设计资料通过检验配对样本的差值是否来自中位为0的总体,来推断两个总体中位数有无差别,即推断两种处理的效应是否不同
基本思想
差值:计算两配对样本中所有数值的差值
编秩:对所有差值的绝对值进行编秩
若差值为0时,舍去不计,n(总的对子数)随之减少,当差值的绝对值相等时,取平均秩,称为相同秩
遇到绝对值相等的差数,符号相同可以顺次编秩,符号相反则要取平均秩次
统计量:若H0成立,理论上,R+与R-的总体均数应该相等,总体标准差也相等。若R+与R-相差悬殊,均远离μR,则有理由拒绝H0
检验统计量T/W:分别求正、负秩次秩和,以较小者作为检验统计量T
确定P值
查T界值表法(n≤50)
1、先确定n
2、确定单侧还是双侧
3、判断
若T值在上、下界值范围内,则P值大于相应的概率
若T值恰好等于界值,其P值一般等于相应的概率
若T值在上、下界值范围外,其P值小于相应概率
此时右移一列,再做比较,直至较好地估计出P值
内大外小原则
正态近似法(n>50)
连续性校正的统计量Z
T统计量的分布逐渐逼近均数为n(n+1)/4,方差为n(n+1)(2m+1)/24的正态分布
相持的情形较少时
标准正态统计量
0.5为连续性校正数
相持的情况较多时 (如个体数超过25%)
校正的统计量Zc
tj为第j个相同秩次(即平均秩次)的个数
多样本比较 (k≥2)
完全随机设计
服从正态、满足方差齐性
完全随机设计的方差分析(单因素)
建立检验假设,确定检验水准
计算检验统计量
确定P值,作出推断
多个均数的两辆比较
SNK-q检验
Dunnett-t检验
非正态和(或)方差不齐
Kruskal-Wallis H秩和检验
基本思想
将各组数据从小到大同一编秩,分别求出各组秩和,若H0成立,则M1=M2=M3,各组的总体分布相同,各组秩和应相差不大,若相差悬殊,有理由拒绝H0,认为各组总体分布不全相同
Kruskal-Wallis 检验是一种类似于Wilcoxon秩和检验的方法,可看作Wilcoxon秩和检验的推广
编秩:遇到相同数值时,在同一组内可顺序编秩;在不同组时,必须求平均秩次
计算检验统计量
H统计量
相持的情形较少时
ni为各组例数,Ri为各处理组秩和
相持的情况较多时 (如个体数超过25%)
校正的统计量Hc
tj为第j个相同秩次(即平均秩次)的个数
确定P值
查H界值表:当组数k=3,且各组例数ni≤5时,可查H界值表得P值
查卡方界值表:当组数k>3或各组例数ni>5,超出H界值表时,由于在H0成立时,当n比较大时,H近似服从自由度为k-1(k为组数)的卡方分布,此时可由卡方界值表得到P值
随机区组设计
处理组间、区组间数据 满足正态性、方差齐性
随机区组设计的方差分析(两因素)
建立检验假设,确定检验水准
针对处理组
H0:k个处理组所对应的总体均数相等 H1:~~不全相等 α=0.05
针对区组
H0:b个区组所代表的总体均数相同 H1:~~~不全相同 α:0.05
计算检验统计量
区组变异本质是从原来的组内变异分解出来的
确定P值,作出推断
对于处理组
对于区组
不满足正态性、方差齐性
数据转换方法
Friedman M 秩和检验
了解
基本思想
K个处理组和b个区组,通过在区组内编秩,在H0成立的条件下,各区组观测值取秩为1,2,…,k的概率相等,则各处理组的秩和应接近R=b(k+1)/2,M=∑(Ri-R)²,而M值反映了实际获得的k个处理组的秩和以及R偏离的程度。
M值越大,就越有理由怀疑各处理组的总体分布不同
随着b和k的增大,M值近似服从自由度为k-1的卡方分布
由于随机区组设计的随机化实在区组内而非区组间进行,所以Friedman检验的编秩在每个区组内进行。通过在区组内的编秩,可以发现不同区组的秩和相等,即各区组平均秩次与总秩次相等,说明区组间的变异易被忽略,Friedman检验是对处理效应进行检验
方差分析即可对处理组进行检验,也可以对区组进行检验
M统计量
确定P值
当n≤15和g≤15时,查M界值表
当n>15或g>15时,超出M界值表得范围,可用卡方近似法,计算卡方值
定性资料
按比较的率的个数分
单样本率
样本率与总体率的比较,本质是二项分布的应用
当样本量n≤50时,根据二项分布概率函数直接求出累计概率,即P值,再与检验水准比较
当nπ>5且n(1-π)>5时,选择单样本率的Z检验
两样本率
Z检验

n1p1、n1(1-p1)、n2p2、n2(1-p2)均大于5时
其中,为样本的合并率
2×2四格表卡方检验
四格表资料,可采用两样本率比较的卡方检验
两样本率比较的双侧检验根据条件选择Z检验或卡方检验
单侧检验时,不能选择卡方检验,卡方检验只能做双侧检验
多样本率
R×C列联表得卡方检验
按统计推断方法分类
卡方检验
最常考
成组卡方检验
配对卡方检验
行列表资料的卡方检验
Fisher确切概率法
万能的,就是麻烦
基于秩的非参数检验
等级资料!
Wilcoxon秩和检验
Kruskal-Wallis H秩和检验
差异性检验
无序二分类资料 (2×2)
完全随机设计
结合样本量和理论频数来选择公式
n≥40且各个格子理论频数T≥5
成组卡方检验
(基本公式)
(四格表专用)
n≥40,但出现一个格子1≤T<5
卡方检验公式需校正
(基本公式)
(四格表专用)
n<40或任意一个格子的理论频数T<1
Fisher确切概率法
凡是能用Z检验做两个率比较的资料,都可用四格表卡方检验
配对设计
eg.用两种不同的方法对同一患者进行检测
(b+c)≥40
配对卡方公式
(b+c)<40
配对卡方校正公式
双向无序分类 (R×C)
完全随机设计
不宜有1/5以上格子的1<T<5,或任一格子T<1
行×列表资料的卡方检验
建立检验假设,确定检验水准
H0:各组总体率(或构成比)相同 H1:~~~~不全相同 α=0.05
总体率:分组变量是多组,结局变量是两组 构成比:分组变量是多组,结局变量也是多组
计算检验统计量
二选一
v=(R-1)×(C-1)
确定P值,作出判断
当P≤0.05时,按α=0.05的检验水准,拒绝H0,可以认为各组总体率(或构成比)不全相同
仅表示总的来说多组之间是有差别的,即至少有两组的总体率或频率分布是不同的,但并不意味着任意两组之间有差别
若需明确究竟哪两组之间存在差别,可做率的多重比较
卡方分割
如原有检验水准α=0.05,若进行组数k为3的两辆比较,需比较
将R×C表分割为若干个小的四格表进行检验
在具体分割过程中,尚需根据比较的次数合理地修正检验水准α,否则将人为地增大犯第Ⅰ类错误的概率
如原有检验水准α=0.05,若进行组数k为3的两辆比较,需比较次,故调整后的水准α'=0.05/3=0.0167;若设置一个共同对照组进行3组比较,则只需(k-1)=2次,调整后α'=0.05/2=0.025
有1/5以上格子的T<5,或任一格子T<1
补救处理措施
若理论频数过小,或有1/5以上格子的理论频数<5时,应考虑增加样本量
结合专业知识对行或列进行合并
若出现一个格子的理论频数小于1,应采用Fisher确切概率法
Fisher确切概率法
当1<T<5格子数超过总格子数的1/5时
①可增加样本含量(最常用)
②删除理论数太小的行和列
③合理合并理论数太小的行或列
单向有序分类 (R×C)
主要关注哪个变量是有序的
完全随机设计
分组变量有序,指标变量无序
相当于:分析不同组间的构成比
行列表资料的卡方检验
研究目的:比较分组变量不同水平下某指标变量的发生率
均可以看作是多个样本率比较问题
如利用有序的检验指标判断患者是否患病,其实质是对该检验指标不同水平下患者患病率的比较
如对不同年龄段某指标的阳性率的比较
统计分析方法:行列表资料的卡方检验
分组变量两分类无序,指标变量多分类有序
相等于:两个独立样本等级强度的差异
Wilcoxon秩和检验
研究目的:比较分组变量两个不同水平下某指标变量的平均水平是否有差异
如:两种药物疗效(治愈、好转、有效、无效)之间的比较
统计分析方法:虽然为分类资料,但此时为等级资料(有程度的变化),不再适用于卡方检验,因为它无法考虑分组变量不同水平下疗效取值的等级关系(即没有考虑程度的变化),应采用Wilcoxon秩和检验
假设检验步骤
建立假设检验,确定检验水准
H0:两种治疗方法的疗效无显著差别 H1:~~~~有显著差别 α=0.05
编秩,求秩和
确定统计量
选择样本量较小组的秩和作为统计量
样本量较大时
连续性校正的统计量Z
标准正态统计量
0.5为连续性校正数
相持的情况较多时 (如个体数超过25%)
等级资料相持的情况一般很多,必须校正
校正的统计量Zc
tj为第j个相同秩次(即平均秩次)的个数
分组变量多分类无序,指标变量多分类有序
相当于:多组独立样本等级强度的差异
Kruskal-Wallis H 秩和检验
研究目的:比较多组变量多个水平下某指标的平均水平是否有差异
如:多种药物或治疗方案的疗效的比较
统计分析方法:Kruskal-Wallis H 秩和检验
假设检验步骤
建立假设检验,确定检验水准
H0:N组的指标变量无显著差别 H1:~~~~有显著差别 α=0.05
编秩,求秩和
按照等级进行编秩
计算H统计量
相持的情形较少时
ni为各组例数,Ri为各处理组秩和
相持的情况较多时 (如个体数超过25%)
等级资料相持的情况一般很多,必须校正
校正的统计量Hc
tj为第j个相同秩次(即平均秩次)的个数
确定P值
查H界值表:当组数k=3,且各组例数ni≤5时,可查H界值表得P值
查卡方界值表:当组数k>3或各组例数ni>5,超出H界值表时,由于在H0成立时,当n比较大时,H近似服从自由度为k-1(k为组数)的卡方分布,此时可由卡方界值表得到P值
双向有序分类 (R×C)(属性不同)
完全随机设计
两个有序分类变量间有无差别
可视指标变量为单向有序R×C表资料,选用Kruskal-Wallis H秩和检验
如分析不同年龄组患者疗效间有无差别时 (差异性检验)
两个有序分类间是否有相关关系
Gamma系数/等级相关分析
相当于独立性分析
两个有序分类变量间是否有线性变化趋势 (如剂量-反应关系)
有序分组资料的卡方线性趋势检验
卡方趋势检验
双向有序分类 (R×C)(属性相同)
实质是2×2配对设计的扩展,即水平数≥3的诊断试验配伍设计
完全随机设计
一致性检验:分析两个有序分类变量的一致性
一致性检验或Kappa检验
eg.评价筛检试验的可靠性;两种检测方法对同一批样本的测定结果
拟合优度检验
分类资料(k=1)
推断单样本的k组频数的分布于某一理论分布是否相同
卡方检验
独立性分析
两分类资料 (2×2)
完全随机设计
两个独立分类变量是否独立
配对设计
两个配对分类变量是否独立
eg.用两种方法对同一人群进行检查, 问两种检查结果之间有无差别(但建 立假设时需要说结果之间有无关联性)
双向无序分类 (R×C)
完全随机设计
分类变量是否独立
卡方检验+列联系数
此处的卡方检验与前面所述的卡方检验计算方法是一致的,只是检验的目的不同,在建立检验假设时的描述是不一样的
卡方检验:是否有关联
检验目的:研究想要了解两个或多个分类变量的关联性及其强度,此时则需采用关联性检验,作为其反面也可称独立性检验。
一般地,变量X和变量Y互相独立是指变量X的概率分布于变量Y的概率分布互不相关,即称其为独立随机样本
反之,若分类变量的概率分布彼此相关,则称其为交叉分类
常见于一份随机样本同时按两种不同属性分类
假设检验步骤
建立检验假设,确定检验水准
H0:甲变量与乙变量之间无关联(相互独立) H1:~~~~存在关联 α=0.05
计算检验统计量
2×2四格表
当进行的是独立性检验时,完全随机设计和配对设计均用这些公式,而不能使用差异性检验中配对设计的2×2四格表的公式
n≥40且各个格子理论频数T≥5
(基本公式)
(四格表专用)
n≥40,但出现一个格子1≤T<5
(基本公式)
(四格表专用)
R×C列联表
二选一
v=(R-1)×(C-1)
Pearson列联系数:关联强度的大小
与相关系数类似,但相关系数的取值范围为[-1,1],列联系数的取值范围[0,1)
双向有序分类 (R×C)(属性相同)
Gamma系数
常用的卡方界值
当v=1,P=0.05时,卡方界值为3.84
医学参考值范围计算
S是样本的标准差 (计算置信区间用的是样本的标准误)
定量资料
正态分布
单侧检验
(上限)
(下限)
单侧检验的Z界值
90%:Z=1.28
95%:Z=1.64
99%:Z=2.33
双侧检验
双侧检验的Z界值
90%:Z=1.64
95%:Z=1.96
99%:Z=2.68
3σ法则
68.3%:μ±σ
95.4%:μ±2σ
99.7%:μ±3σ
偏态分布
单侧检验
(上限)
90%:P90
95%:P95
99%:P99
(下限)
90%:P10
95%:P5
99%:P1
双侧检验
90%:P5~P95
95%:P2.5~P97.5
99%:P0.5~P99.5
制定方法
1、选定足够例数的同质正常人作为研究对象
2、控制监测误差(选择统一、准确的测定方法)
3、判断是否分组(性别、年龄组)
4、确定取单侧or双侧参考值范围
太高或太低均不正常——双侧界值(如白细胞计数、血清总胆固醇)
太高不正常,越小越好——单侧上限(如转氨酶、尿铅、发汞……)
太低不正常,越大越好——单侧下限(如肺活量、IQ……)
5、选定适当的百分界限
如需兼顾假阳性和假阴性,取95%
如主要目的是减少假阳性(用于确诊病人或选定科研病例),取99%
如主要目的是减少假阴性(用于初筛病人),取80%或90%
6、选择制定医学参考值范围的方法
正态分布法
百分位数法
置信区间估计
本质:统计量估计值±界值×标准误
做题步骤
1、审题、锁定题眼——给出什么?
直接条件+隐含条件
2、分析、匹配所学——想要什么?
统计量均值±界值×标准误
3、作答、简要清晰——精准答案?
有理有据,分析+计算公式+结论(带单位)
单样本总体均数
总体标准差σ已知
Z分布
总体标准差σ未知且样本量比较大时(如n>50)
Z分布代替t分布
总体标准差σ未知且样本量比较小时(如n<50)
t分布
两总体均数之差
样本量足够大,n1>50,n2>50
Z分布
样本量不够大
方差齐
=合并样本方差
v=n1+n2-2
方差不齐
总体率
n很小时
查表法
np≥5且n(1-p)≥5
Z分布
两个总体率之差
n1p1、n1(1-p1)、n2p2、n2(1-p2)均大于5时
近似正态法
n1p1、n1(1-p1)、n2p2、n2(1-p2)不太大时
统计量p1-p2不再服从正态分布
校正正态检验法
Poisson总体平均计数μ
当样本较小时,如X≤30
查表
样本较大时,如X>30时
Z分布
置信区间与医学参考值范围的区别
含义
总体均数的置信区间:按预先给定的概率,确定的包含未知参数μ(总体均数)的可能范围
医学参考值:指特定的“正常“人群内(排除了对所研究指标有影响的疾病和有关因素的人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围
用途
置信区间:总体均数的区间估计(估计未知的总体均数所在范围)
医学参考值
个体值的波动范围
绝大多数(如95%)观察对象某项指标的分布范围
医学诊断时判断个体某项指标是否正常
意义不同
95%的置信区间中的95%是可信度,即所求置信区间包含总体参数的可信程度为95%
95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人
计算公式不同
置信区间:用标准误计算
参考值范围:用标准差计算
应用条件
t检验的应用条件
独立?
资料的独立性是由抽样方式决定的
资料服从正态分布?
服从正态性是指样本来自正态分布的总体
根据文献报道
如文献中报道中学生的体重服从正态分布
根据经验或专业知识判断
如健康成人的红细胞数,正常成人的血铅含量近似对数正态分布
可以借助统计软件对资料作正态性检验
Shapiro-Wilk正态性检验(=W检验)
D检验
矩阵(即对分布偏度和峰度作检验)
拟合优度检验
方差齐?
F检验
两样本方差齐性检验,要求数据服从正态分布
Levene检验
两个或多个样本方差齐性检验,不依赖总体分布的具体形式
Bartlett检验
两个或多个样本方差齐性检验,要求数据服从正态分布
单因素方差分析的应用条件
独立:K个处理组是相互独立的随机样本
正态:K个处理组分别来自正态分布的总体
方差齐:K个处理组的总体方差相等
随机区组设计的方差分析
独立:各区组之间是相互独立的随机样本
对于不同处理组之间不是独立的
正态:各处理组、各区组服从正态分布
方差齐:各处理组、各区组总体方差相等
直线相关:要求x和y均为随机变量且服从双变量正态分布
直线回归:要求反应变量y在给定x值时服从正态分布,x可以时精确测量和严格控制的变量
简单线性相关与简单直线回归
单个影响因素对结局的影响
线性相关和线性回归的区别与联系
区别
资料要求
线性相关要求X、Y服从双变量正态分布,对这种资料进行回归分析称为Ⅱ型回归,即可以把X当做自变量,也可以当因变量,反之亦然
线性回归要求Y在给定X值时服从正态分布,X可以是精确测量和严格控制的变量,这时的回归称为Ⅰ型回归,即不可以把X当做因变量,Y当做自变量进行回归分析
应用
线性相关用来表达两个变量间的互依关系,两个变量的研究地位是相等的,谁做X,谁做Y都可以
线性回归用来表达两个变量间的依存变化的数量关系,即一个变量(为因变量Y)如何依存于另一个变量(为自变量X)而变化,两个变量的研究地位是不相等的
意义
相关系数r 说明具有线性关系的两个变量之间的密切程度和相关方向
回归系数b表示X每变化一个单位所导致Y的平均变化量
r和b的取值范围
r没有单位,取值范围为:-1≤r≤1
b有单位(其单位是:Y的单位/X的单位),取值范围:-∞<b<+∞
r和b的计算公式不同
联系
符号
对于既可做相关又可做回归的同一组资料,计算出的r与b正负号相同
假设检验
对于同一组资料,相关系数和回归系数的假设检验等价,即有
相互换算
对于同一组资料,相关系数和回归系数可通过公式换算,式中Sx,Sy分别为X、Y数据的标准差
用回归解释相关
由决定系数R²=SS回/SS总可知,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,则R²越接近1,相关的效果越好,说明回归效果越好,相关的密切程度也越高
线性相关系数的统计推断
t检验
建立假设检验,确定检验水准
H0:ρ=0,两个变量间无线性相关关系 H1:ρ≠0,~~~有线性相关关系 α=0.05
计算检验统计量
t检验
确定P值,作出统计推断
直线回归系数的统计推断
t检验
建立假设检验,确定检验水准
H0:β=0,两个变量间无直线回归关系 H1:β≠0,~~~有直线回归关系 α=0.05
计算检验统计量
确定P值,作出统计推断
方差分析
建立假设检验,确定检验水准
H0:β=0,两个变量间无直线回归关系 H1:β≠0,~~~有直线回归关系 α=0.05
计算检验统计量
确定P值,作出统计推断
三种相关系数分析
主要是资料类型(适用条件)和计算公式不同
Pearson直线相关系数
作用
用于双变量正态分布的资料,其相关系数称为直线相关系数、简单相关系数、积矩相关系数、积差相关系数。当进行相关分析前,我们一般先对两变量绘制散点图,从散点图可以更直观地看出两变量之间有无线性关系。当散点图有线性趋势时,才进行相关分析
资料要求
要求两变量是随机变量且为双变量正态分布的资料
注意事项
直线相关系数适用于线性相关的情形,直线相关系数的大小衡量的是线性相关关系的强弱,并不代表其他相关关系,如曲线关系
样本中存在的极端值对Pearson直线相关系数的影响极大,因此要慎重考虑和处理,必要时可以对其进行剔除,或者加以变量变换,以避免受异常值的影响而出现错误的结论
用样本资料计算出来的相关系数是一个样本统计量,存在抽样误差,还需要对此进行假设检验,需注意的是检验统计量的P值并不意味着相关性的强弱
Pearson列联系数
作用
用于反映分类变量相关性的指标,适用于至少一个变量为无序分类变量的两分类变量关联性分析。通常是先根据交叉分类计数所得的列联表进行两种属性独立性的卡方检验,然后再计算关联系数
独立性检验
资料要求
两个分类变量中至少一个变量为无序分类变量的资料
公式及取值范围
[0,1)
Spearman秩相关系数
与非参数检验的方法比较相似
定义
又称秩相关系数,是利用两变量的秩次作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围比直线相关系数要广
资料类型
rs主要用来描述存在等级变量时或无法用均数和标准差描述其分布特征时两个变量间关联程度与方向
两个变量都为等级变量
一个变量为等级变量,一个变量为定量变量
两个变量都为定量变量,其中一个或两个不服从正态分布
计算公式
取值范围
[-1,1]
rs界值表得查询不依靠自由度,而是直接根据样本量n进行查询
注意事项
对于服从Pearson直线相关系数的数据亦可计算Spearman秩相关系数,但统计效能会降低
Spearman秩相关系数的计算公式完全可以套用Pearson直线相关系数计算公式,将公式中的x和y用相应的秩次代替即可
应用条件
x、y不服从双变量正态分布、分布类型未知、用等级表示的资料、分布端点无确定数值等情况
多重线性回归
多个影响因素对结局的影响
多重线性回归
定义:是研究一个连续型反应变量和多个解释变量间线性关系的统计学分析方法
可以解决的问题
某个解释变量对反应变量是否有作用及每个解释变量对反应变量作用的大小
反应变量与所有解释变量之间的关系有多强
结合专业知识确定某个解释变量是否为混杂因素等
偏回归系数βj
βj为解释变量xj的偏回归系数,当方程中其他解释变量保持不变时,解释变量xj变化一个观测单位,反应变量y平均变换βj个单位,βj的符号也可以用于判断解释变量xj对反应变量影响的方向
标准化偏回归系数
类似变异系数
由于各变量量纲可能不一致,多重线性回归模型的各偏回归系数不能直接用来比较其对反应变量y的影响的大小。标准化偏回归系数消除了变量的量纲及其离散程度的影响,其绝对值可用来比较各解释变量对反应变量y的影响大小
多重线性回归模型的假设检验方法
模型的方差分析
与简单直线回归相似
(p为解释变量个数)
决定系数的拟合优度检验
基于决定系数对回归方程进行拟合优度的假设检验等价于对回归方程的方差分析
从回归方程中剔除Xj后引起的回归平方和的减少量,其值越大,说明相应地自变量越重要
偏回归系数t检验
前提:在回归方程具有统计学意义的情况下,检验某个总体偏回归系数是否等于零,以判断某个解释变量在数据中是否有作用
Logistic回归
广义的线性回归
概念:研究二分类或者多分类观察结果与某些影响因素之间关系的一种多重回归分析方法,是概率非线性回归模型
回归模型结构
(β0为常数项,β1~βp为logistic回归系数)
logistic回归系数的流行病学意义
解释:其他解释变量不变时,暴露于某影响因素Xi相对于非暴露与该因素的OR值的自然对数;或者控制(调整)其他解释变量的影响后,解释变量Xi每增加一个单位,得到的优势比的自然对数
关联性
当β=0时,OR=1,暴露与结局间不存在关联。
当β≠0,OR≠1,暴露与结局间存在关联。
研究中
当解释变量xi的回归系数βi>0时,ORi>1,提示xi为危险因素(增加结局发生的风险)
βi<0时,ORi<1,提示xi为保护因素(降低结局发生的风险。)
与多重线性回归的偏回归系数的解释是一样的
假设检验
了解
logistic回归模型的假设检验
1、检验模型中所有解释变量的线性组合是否与logit(π)或所研究事件的对数优势比存在线性关系。
2、检验的方法有似然比检验,计分检验(score检验)和Wald检验,所有的检验结果均可利用统计软件获得。
3、(这里介绍常用的似然比检验)检验假设为:H0:β1=β2=……=βp=0,即所有解释变量的偏回归系数均为0。似然比检验统计量G为:
【L1为包含所有解释变量的似然函数。L0为仅包含常数项的似然函数,G统计量服从自由度为m(解释变量的个数)的卡方分布。】
logistic回归系数的假设检验
1、除了对logistic回归模型整体的检验外,还须对模型中的每一个解释变量的回归系数进行检验,判断每一个解释变量是否对模型有贡献。
2、常用的检验方法为Wald检验,检验统计量Wald服从自由度为1的卡方分布,计算公式为:
Cox回归
生存分析的拓展
概念:分析多个因素对生存时间的影响,而且允许有删失数据的存在,这是生存分析中最重要的多因素分析方法
模型结构
h(t,x)表示具有协变量x的个体在t时刻的风险率,又称为瞬时死亡率。
协变量与解释变量(自变量)类似
h0(t)为基准风险率,即xp均为0时的风险率
时间的影响
回归模型又称为半参数模型。
Cox回归系数的解释
解释:在其他解释变量固定不变的情况下,变量Xj的暴露水平每增加一个测量单位引起风险比的自然对数
βj越大,表示该因素的作用越强
βj的值
当βj>0时,RRj>1,说明xj增加时,风险函数增加,即xi为危险因素
当βj<0时,RRj<1,说明xj增加时,风险函数下降,即xi为保护因素
当βj=0时,RRj=1,说明xj增加时,风险函数不变,即xi为无关因素
参数估计及假设检验
参数估计
1、Cox回归模型中,回归系数的估计需借助偏似然理论。用极大似然估计方法得到的。
2、该估计的最大优点是:
不需要确定基准风险函数h0(t)的形式就能估计回归系数。
另一特性是估计结果仅与生存时间的排序有关,而不是生存时间的数值大小,这意味着生存时间的单调变换,如对生存时间加一个常数、乘以一个常数或取对数,都不会改变回归系数的估计值。
3、回归系数的估计值bj,相应的标准差Sbj,某一解释变量的RR的95%置信区间估计公式:
4、若解释变量的度量衡单位或数量级不同,可通过标准化回归系数比较各变量的作用大小。
假设检验
回归系数的假设检验方法类似于logistics回归,有似然比检验、Wald检验和score检验,检验统计量均服从卡方分布,自由度为模型中待检验的参数个数(p),上述三种假设检验方法均可用于对总模型的检验。
单个回归系数的检验常采用Wald检验。
生存分析
统计描述指标
死亡概率q
生存概率p
生存率/生存函数/累积生存率
表示观察对象活过t时刻的概率是某个时间段(由一个或多个单位时间组成的时间段)生存的可能性,即数个单位时间生存概率的累积结果
中位生存时间
中位生存时间:生存函数取值为0.5时对应的生存时间称为中位生存时间。又称中位生存期或半数生存期。本书记为T50,即S(T50)=0.5。它表示50%的个体可以存活到比T50更长时间,通常用于描述生存期的平均水平。
对应的是中位数的概念,数据非正态因此不能用均数来描述
生存曲线
生存曲线:除了计算各时间点的生存率之外,我们还可以使用图示法更为直观地描述生存率随生存时间而变化的过程。以ti为横坐标,各时间点S(ti)为纵坐标,将各个时间点的生存率连接在一起绘制成的连续曲线,称为生存曲线
是用样本画出来的曲线
估计生存率的两种方法
两种方法的计算表格
K-M法
当遇到数值相同的完全数据与截尾数据时,将截尾数据排在完全数据之后
寿命表法
计算校正期初例数nc时,需注意由于生存分析中常存在失访情况,一般可以假定发生失访的时间点在对应的区间内呈均匀分布,因此取其中位数作为该时间去电内的平均观察例数,亦称为校正观察例数nc=n-c/2
生存曲线的比较
对数秩检验
非参数检验方法
基本思想:假定进行比较的不同总体生存函数无差别,根据不同生存时间的期初观察人数和理论死亡概率,计算两个(或多个)比较组的理论死亡数,并与实际观察到的死亡数进行比较
衡量观察数与理论数差别大小的统计量为卡方值,服从自由度为(组数-1)的卡方分布
假设检验步骤
建立检验假设,确定检验水准
H0:两个总体生存曲线相同 H1:两个总体生存曲线不同 α=0.05
计算检验统计量
确定p值,作出统计推断
标准化
率的标准化
基本思想:采用统一的标准,以消除因组间内部构成不同对总率的影响,使算得的标准化率具有可比性
控制混杂因素的一种方法
方法
直接标准化
标准化之后的两率可以直接比较大小
条件
已知各组的率Pij(如已知各年龄组死亡率)
一般设有一个重要的分类变量(病情或性别或年龄),他们在两组个体(j=1,2)中的分布不同
需要利用标准组各年龄组人数或构成比(Ni或Ni/N)对率进行标准化
计算
选择一个标准人口构成直接计算标准化率
已知标准组人口数时
Pij是已知的两地各组死亡率
Ni是标准人口各年龄组的人数
标准人口预期的死亡人数
N标准人口的总人数
已知标准组年龄别人口构成时
间接标准化
标准化后的两率,不能直接比较大小,因为间接标准化的方法并没有消除内部构成的影响,只能与标准年龄别死亡率进行比较
条件
已知实际死亡总人数和年龄别人口数(Ni),但缺乏年龄别死亡率
需要利用标准组各年龄组死亡率(Pi)及标准组死亡率(P)对率进行标化
计算
选择一个标准年龄别死亡率,先计算SMR
再用SMR乘以标准总死亡率得标化死亡率
rj为实际的总的死亡人数
nij为实际各年龄组的人数
Pi为标准组各年龄组死亡率
理论的预期的死亡人数
SMR为标化死亡比
表明实际死亡的水平是标准水平的多少倍
P标准组死亡率
两样本标准化率为样本值,若了解两样本标准化率之间的差别是否有统计学意义,应该进行假设检验
单双侧检验问题
样本含量估计
相关因素
单纯随机抽样
总体率
1、第一类错误α
2、允许误差δ
3、总体率π