导图社区 人卫第8版《卫生统计学》第八章《多个均数比较的方差分析》
正式开始学习具体的统计分析方法啦~这一章的内容比较多,而且对于初学者来说比较难,但是不要着急,可以学完后面的其他统计方法再回头看看!温故而知新哦!
编辑于2023-01-30 12:28:42 广东社区模板帮助中心,点此进入>>
第八章 多个均数比较的方差分析
概述
本章逻辑
整体比较
是否全部相等
不考虑混杂因素(单因素):完全随机设计,对应单个F值
考虑混杂因素(双因素):随机区组设计,对应两个F值
多重比较
两两是否相等
SNK法、Dunnctt-t法、Bonfcrroni法
注意区分适用情形
应用条件: 独立、正态、方差齐
需解决的问题:两个总体均数间的比较我们可以使用t检验,而实际研究中经常遇到多个均数的比较问题
1、多次t检验进行多个均数的比较会增大发生发生第Ⅰ类错误的概率,因此,t检验不能直接用于多个均数的比较
2、多于对个均数比较的常用方法是方差分析,也称F检验。其目的是推断多个样本所代表的总体均数是否不等
3、完全随机设计的方差分析是将研究对象通过完全随机化方法,分配至多个不同的处理组,比较多组的效应指标是否存在差异,亦称为单向方差分析
完全随机设计的方差分析
基本思想
1、方差是反映数据变异程度的统计指标→利用方差的概念对变异度进行分解→方差分析=变异度分析
2、基本思想:根据研究目的和设计类型,将全部观察值的总变异分解为两个或多个部分,各部分的变异可由不同处理因素的影响效应或误差的效应解释,将各影响因素产生的变异与随机误差变异进行比较,以推断该因素是否存在影响效应
3、方差≠均方(MS)
方差分析的基本思想推导
观察数据基本特征
观察各组数据的分散程度以及总均数的分散程度
箱式图→数据是否对称,中位数与均数的相对位置,各组数据差异
总变异的分解
随机误差效应
1、同一组内的效应存在差异,归因于个体差异与测量差异,即随机误差
2、若处理因素对实验对象无影响,即各组的总体均数相等,则组间的变异和组内的变异相当,均反映的是随机误差效应
变异的分解
1、对于每一个个体观察值均有 (个体的全部变异=组间变异+组内变异),
2、代数计算可以证明:  (即总变异=组间变异+组内变异)
(1)总变异:表示所有个体总的离均差平方和,即为,反映每个个体观测值与总均数之间的差异,该变异既包含:处理因素的效应+随机误差的效应
(2)组间变异:表示每组均数与总均数的离均差平方和,,即为。,反映:不同处理(组间)效应+随机误差的效应
表示第i组所有个体的组间变异之和
ni指的是第i组的个数
为各组样本均数与总均数间的差异
(3)组内变异:表示组内每个个体与组内均数的离均差平方和,即为,反映:随机误差效应
总变异可以分解为两个部分:组间变异和组内变异
方差分析的F统计量
1、变异的分解只考虑了变异的总和,而未考虑组数与组内个体对变异的影响。例如组内个体数目增加,SS组内必然增加,为了校正组数与组内个体数对变异的影响,我们在比较不同类型变异大小时,须考虑每种类型的平均变异。
2、此处将SS组间除以自由度(k-1),从而得到组间的平均效应MS(组间),k为组数: 
3、同理,随机误差的平均效应MS组内,表示: 
4、总自由度v总=n-1,n为观测总例数,其中,自由度是指有效的变异个数(保证样本方差的无偏性)
5、若H0成立,那么MS组间与MS组内的比值理论上应该非常接近1。判断比值是否极端可采用第七章学习的F统计量。
6、数理统计理论表明MS组间(较大)/MS组内(较小)服从自由度为v组间和v组内的F分布 
6、对于F分布,F值越大,对应的P值就越小
补充
一个正态分布可以由两个参数(均值和方差)完全确定,单向方差分析假设所有总体方差相同(即形态相同)。所以要检验所有总体均数是否相等,也就是要检验所有样本是否来自一个总体
进行方差分析的前提是:各个样本对应的总体方差相等(说明了各组内变异水平相当)
方差分析的零假设为:各个样本对应的总体均数相等
若零假设为真,样本均数是总体均数的无偏估计,则抽样数据得到的F值应该接近于1;如果零假设不真,则F值会显著大于1
这样就可以通过F检验的方式来检验各总体均数是否相等(样本是否来自同一总体)
假设检验
1、建立检验假设,确定检验水准 H0: H1: α= 2、计算检验统计量——F统计量的计算 变异来源 离均差平方和SS 自由度 均方MS F值 P值 总变异 SS总 v总=n-1 组间变异 SS组间 v组间=k-1 MS组间=SS组间/v组间 F=MS组间/MS组内 组内变异 SS组内 v组内=n-k MS组内=SS组内/v组内 3、确定P值,作出判断
1、建立检验假设,确定检验水准 H0: H1:不全相等(只能进行双侧检验) α=
2、计算检验统计量——F统计量的计算
分母是组内变异
3、确定P值,作出判断
方差分析进行的是双侧检验,但查得是单侧界值,因为组间一般大于组内,所以不太可能小于1
总体均数不全相等,即至少有两个总体均数不等
应用条件
完全随机设计的方差分析只涉及一个研究因素,因此,除了用于随机分组的实验性研究外,也常用于基于随机抽样的观察性研究多个均数的比较
独立性
各样本是相互独立的随机样本,个体观测值间相互独立
正态性
1、各样本均来自于正态分布总体
2、当样本含量较小时,对数据是否来自正态分布总体难以进行直观判断和检验,常常凭借经验和数据来源判断
3、当样本含量较大时,根据中心极限定理,样本均数的抽样分布往往服从或近似服从正态分布,此时只要满足方差齐性,方差分析的结果就具有稳健性
4、但当数据严重偏离正态分布时,则应考虑做数据转换改善其正态性
方差齐性
1、各样本所对应的总体方差相等
我们运用方差分析时,分析的是方差,但推断的是均值
因为如果方差不齐,就不能确定它们均值的不同是因为形状(σ)的不同还是位置(μ)的不同
2、方差分析中对方差齐性要求较严格,通常采用方差齐性检验
方差齐性检验时α通常设置为0.1
3、方法
F检验(第七章)
仅用于两总体方差对比
Bartlett卡方检验(通常要求数据满足正态性)
Levene检验——两个或多个总体方差齐性检验
不依赖数据的分布类型
基本原理:将原始观测值转换为相应的离差值
离差值一般采用公式计算
也可采用公式计算
然后对离差值进行单因素方差分析
若各组总体方差相等,则组间变异与组内变异接近,F值接近于1.
残差图——图示法检验正态性和方差齐性
1、残差图可以同时考察正态性和方差齐性是否满足,是最为简单、直观和有效的可视化图形判断
2、对于完全随机设计,假定方差分析模型为,即每个观察值可以表示为处理的平均效应+不能由处理所解释的效应(残差或剩余)。
3、通常用各组的样本均数作为总体均数的估计值,每个个体的残差估计值为: 
4、若数据满足正态性和方差齐性,则各组残差值服从正态分布且方差齐,标准化的残差值服从标准正态分布,其残差值应该在±2之间随机波动,不具有特殊的分布结构
随机区组设计的方差分析
基本思想
1、随机区组设计:通常是将受试对象按影响实验效应的混杂因素特征(如动物的窝别、性别、体重等)相同或相近者组成b个区组(配伍组),每个区组中包含k个个体,再将其完全随机分配至k个不同的处理组,以保证混杂因素影响的组间均衡可比性,从而比较k个处理组效应的差异
2、随机区组设计是按区组和处理组两个方向分析
3、处理组与区组的各水平交叉格子没有重复例数,即总例数n=kb。因此随机区组设计的方差分析也成为无重复数据的双向方差分析(two-way ANOVA)
双因素:处理因素+混杂因素
应用情形
将n个研究对象按照影响研究效应的混杂因素特征配成区组,再将每个区组的k个个体随机分配至k个处理组。
1、不仅可以用于实验研究,还可以用于观察研究
2、如比较不同卫生服务人员(社区医生、社区护士以及公共卫生人员)的期望收入指数是否存在差别
将三类人群按社区中心、性别以及年龄先匹配为一个区组
再调查其期望收入指数情况
可控制地域、性别、年龄对收入期望不同的影响
并按照随机区组设计的方法分析进行比较
将同一个样品分成k份,分别采用k中不同的处理
如将每个离体儿童龋牙,切割成四份,分别放置在4中酸蚀液中,比较不同腐蚀液的龋齿脱矿能力指数
同一研究对象k个部位的处理效应比较
变异分解
三部分
1、
处理组间:反映处理因素的平均效应+误差效应
区组间:反映区组的平均效应+误差效应
2、
3、此时可以计算两个F值
一个是处理组的F处理→用于推断处理组间多个总体均数是否存在差异
一个是区组的F区组→用于推断区组间多个总体均数是否存在差异
随机区组设计方差分析表
变异来源 离均差平方和SS 自由度 均方MS F值 总变异 SS总 v总=n-1 处理组 SS处理 v处理=k-1 MS处理=SS处理/v处理 F处理=MS处理/MS误差 区组 SS区间 v区间=b-1 MS区间=SS区间/v区间 F区间=MS区间/MS误差 误差 SS误差=SS总-SS处理-SS误差 v误差=(k-1)(b-1) MS误差=SS误差/v误差
分母是误差均方
补充
1、相比于完全随机设计,随机区组设计的效率更高,样本量相同时,其处理组间均衡性好于完全随机设计
2、随机区组设计方差分析检验效能高于完全随机设计
3、完全随机设计的方差分析是两组t检验的扩展,对于两个独立均数比较的情形,存在F=t^2
4、随机区组设计的方差分析是配对t检验的扩展,对于两个处理组比较的情形,存在F=t2
5、当区组的检验结果为“不拒绝H0”即区组间的差异无统计学意义时,可考虑把SS区组与SS误差合并,重新计算处理组间的F值来做组间差异的比较
假设检验
(1)建立假设检验,确定检验水准
对于处理组 H0: H1:
对于区组 H0: H1:
α=0.05
(2)计算检验统计量
(3)确定P值,作出推断
相当于完全随机设计做了两遍
对于区组效应而言,……
对于处理效应而言,……
应用条件
与完全随机设计相同
分别对处理组间以及区组间进行正态性和方差齐性检验
1、因为随机区组设计为无重复的两因素设计,处理因素和区组因素各水平数交叉的格子内无重复数据,不能对格子间进行正态性和方差齐性检验,但至少处理组间、区组间数据应满足正态性和方差齐性
2、若其中之一严重违背正态性或方差齐性,则不能满足方差分析的应用条件,可采用后续章节介绍的非参数检验
多个样本均数间的多重比较方法
目的:明确那些组之间存在差异
常用的多重比较分为两种情形
在研究阶段未预料到,经数据结果提示后决定做两两比较,往往涉及到每两个均数的比较,SNK法和Bonfferoni法等检验,进行探索性研究
设计阶段根据专业知识计划好的某些均数间的两两比较,一个对照与多个实验组等,Dunnett-t,LSD-t等检验,进行验证性研究
注意:原则上只有在经过多个均数的方差分析,发现均数不全相等(α≤0.05)之后,才有必要进行多个均数间的多重比较
SNK法=q检验
比较次数m=
探索性研究设计实施时,未考虑均数多重比较问题
目的:比较两个样本均数所代表的总体均数是否不同(任意两组)
检验统计量q

Dunnett-t法
本质上t检验
m=k-1
对于k个组,当需其中的(k-1)个实验组均与同一个对照组进行比较,说明各实验组相对于对照组是否存在统计学差异时,只需进行(k-1)次比较,通常采用Dunnett-t法。
Bonferroni法
本质上是t检验
m=
若每检验水准为α',共进行m次比较,当H0为真时,犯第Ⅰ类错误的累积概率部超过mα',这就是著名的Bonferroni不等式
调整检验水准α'=α/m(比较次数)
当比较次数过多,如m超过10次以上时,调整的检验水准会过低,多重比较可能会出现不拒绝H0的假阴性结果,即增大犯Ⅱ类错误的概率
会增大第Ⅱ类错误的概率
补充
方差分析与方差齐性检验对比
相同点
都采用F统计量
不同点
方差齐性检验通常是双侧检验,双侧界值;方差分析是双侧检验,单侧界值
方差齐性检验应用条件为:独立、正态;方差分析的应用条件为:独立、正态、方差齐
方差齐性检验分析的是两总体方差是否相等;方差分析则是针对多个总体均数
方差分析与t检验对比
相同点
都可用于两个均数的比较,且对应的t^2=F
适用条件类似:独立、正态、方差齐
不同点
方差分析可用于多个均数间的比较;t检验只能用于两个均数
方差分析不能进行置信区间估计(本教材所涉及的置信区间估计采用的多是z分布或t分布)