导图社区 《卫生统计学》第三篇 常用推断方法(第七章到第十三章)
主要是介绍卫生统计学中各种常用的统计推断方法,他们的基本原理、检验假设、置信区间估计、适用条件等~是卫生统计学中应用型的章节,知识点较多,较难
编辑于2022-08-22 15:37:43 广东社区模板帮助中心,点此进入>>
第三篇 常用推断方法
概述
1、刻画特定总体分布特征的参数较多
2、定量数据最基本的参数是中心未知参数与变异程度参数
3、分类数据最基本的参数是某事件的总体发生率
第七章 基本情形的参数推断
概述
刻画总体分布特征的参数
定量数据
中心位置参数
变异程度参数
分类数据
最基本:某事件的总体发生率
研究内容:两个总体参数之间的定量关系
前提:运用第六章学习的统计推断理论,利用样本数据对以上参数进行统计推断
本章逻辑
1、第六章介绍了在总体标准差σ已知的前提条件下,利用样本均数X-的抽样分布N(μ,σ2/n)进行正态分布总体均数μ的置信区间估计与假设检验
2、当总体标准差σ未知时,我们可通过样本标准差S估计σ,但此时样本均数的抽样分布不再服从正态分布,而是服从t分布
3、t分布是对总体均数μ以及两总体均数之差(μ1-μ2)进行统计推断的理论基础。
4、t分布广泛用于回归系数、相关系数等多种参数的统计推断中
t检验的条件
独立
正态
方差齐(F检验)
方差齐性检验条件
独立
正态
单个总体均数
t分布
t分布是一个近似的z分布,而近似程度用自由度来表示
样本均数的抽样分布、标准正态分布和t分布三者之间的关系
1、如随机变量,经正态分布的标准变换后,统计量(X-μ)/σ服从标准正态分布 N(0,1) 2、从X的总体中进行样本含量为n的多次随机抽样,样本均数这一随机变量服从正态分布,经标砖变换后,统计量服从标砖正态分布 3、实际工作中,当总体标准差σ未知时,常用样本标准差S代替。此时,对正态变量的不再是标准变换,而是t变换。统计量不在服从标砖正态分布,而是服从自由度(df)为v=n-1的t分布,记作t~t(v)
1、如随机变量 X~N(μ,σ2),经正态分布的标准变换后,统计量(X-μ)/σ服从标准正态分布N(0,1)
2、从X~N(μ,σ2)的总体中进行样本含量为n的多次随机抽样,样本均数(X-)这一随机变量服从正态分布N(μ,σ2/n),经标准变换后统计量[(X-)-μ]/[σ/(根号n)]服从标准正态分布
3、实际工作中,当总体标准差σ未知时,常用样本标准差S代替σ。此时,对正态变量的X-不再是标准变换,而是t变换。统计量[(X-)-μ]/[S/(根号n)]不再服从标准正态分布,而是服从自由度(df)为v=n-1的t分布,记作t~t(v)
样本标准差S与样本量n有关,n越大(自由度越大),S与σ越接近
概念
如,且进行样本量为n的随机抽样,则有样本量t统计量  t(n-1)表示自由度v=n-1的t分布
如 X~N(μ,σ2),且进行样本量为n的随机抽样,则有样本量t统计量: t=[(X-)-μ]/[S/(根号n)]~t(n-1) t(n-1)表示自由度v=n-1的t分布
t分布的自由度对应的就是样本标准差S的自由度,方差s^2=离均差平方和/(n-1)
t分布特征及其与标准正态分布的关系
1、t分布的特征 单峰分布,以0为中心,左右对称 t分布的曲线形态取决于自由度v的大小,自由度v越小,则t值越分散,曲线的峰部越矮而尾部越高 随着v逐渐增大,t分布逐渐接近标砖正态分布。当v趋近∞时,t分布趋近标砖正态分布 2、关系:标准正态分布时t分布的特例 3、为了使用方便,附表3给出了不同自由度v下的t界值。单侧概率的t界值用表示,双侧概率的t界值用 表示。由于t分布以0为中心左右对称,表中值列出了正t值
t分布的特征
单峰分布,以0为中心,左右对称
中心位置
t分布的曲线形态取决于自由度v的大小,自由度v越小,则t值越分散,曲线的峰部越矮而尾部越高
形态;变异程度
随着v逐渐增大,t分布逐渐接近标准正态分布。当v趋近∞时,t分布趋近标准正态分布
关系
标准正态分布是t分布的特例
为了使用方便,附表3给出了不同自由度v下的t界值。单侧概率的t界值用t(α,v) 表示,双侧概率的t界值用t(α/2,v) 表示。由于t分布以0为中心左右对称,表中值只列出了正t值
t统计量的稳健性
继承于中心极限定理+t分布
定义:统计理论和蒙塔卡罗模拟证明,即使从非正态总体中随机抽样,只要样本含量足够大,X(-)就近似服从正态分布。因此统计量t仍近似服从自由度为n-1的t分布
也会损失总体分布形态
解释
根据中心极限定理,从均数为μ,方差为σ2的总体中抽取样本量为n的简单随机样本,当样本量n很大时,无论总体分布形态如何,样本均数X-仍近似服从正态分布,及(X-)~N(μ,σ2/n)
当总体标准差σ未知时,可用样本标准差S估计σ,此时统计量需采用t统计量
单样本t统计量的稳健性
1、样本量n<15时,数据必须服从正态分布,t统计量才具有稳健性,否则不能用t分布 2、样本量15≤n≤40是,除非数据具有异常值或呈强偏态分布,t统计量仍近似稳健,此时可用t分布 3、样本量n>40时,即使数据呈棉线的偏态分布,t统计量仍近似稳健,此时仍可用t分布 当样本量足够大(n>50)时,t分布近似服从正态分布,此时可运用正态分布规律进行参数的统计推断
随着样本量增大,更稳健
样本量n<15时,数据必须服从正态分布,t统计量才具有稳健性,否则不能用t分布
样本量15≤n≤40是,除非数据具有异常值或呈强偏态分布,t统计量仍近似稳健,此时可用t分布
样本量n>40时,即使数据呈明显的偏态分布,t统计量仍近似稳健,此时仍可用t分布
当样本量足够大(n>50)时,t分布近似服从正态分布,此时可运用正态分布规律进行参数的统计推断
单样本总体均数
单样本均数推断包括
估计总体均数μ的1-α置信区间
检验样本均数x-所代表的总体均数μ是否与给定μ0的存在差异。
观测到的样本均数x-从未知总体中随机抽取,是随机变量X-的某次具体取值,需结合正态分布或t分布原理对未知总体均数μ进行统计推断。
置信区间估计
总体标准差σ为未知且样本量n不大的情形
1、置信区间: 2、前提:已知总体呈正态分布
1、置信区间:(x-)±t(α/2,v)*[S/(根号n)]
2、前提:已知总体呈正态分布或不具有异常值或不呈强偏态分布
总体标准差σ未知,但n足够大(n>50)的情形
1、n足够大的情形,t分布近似标准正态分布,可用标准正态分布代替t分布,即用代替 2、置信区间:
n足够大的情形,t分布近似标准正态分布,可用标准正态分布代替t分布,即用z(α/2)代替t(α/2,v)
2、置信区间:x-)±z(α/2)*[S/(根号n)]
假设检验
定义
判断样本均数x-所代表的总体均数μ是否与某给定数值μ0有差别,这时由于仅涉及一个样本(或者说其对应的总体),此时的检验称为单样本均数的假设检验
t统计量:
前提:样本数据来源于正态分布,或者样本量足够大
当样本量足够大,此时可以使用近似正态法进行统计推断
配对设计两总体均数差值
概述
配对设计:为了消除非处理因素的影响,将实验对象按某些重要特征如性别、年龄等相近的原则配对,再将每对中的两个实验对象随机分配到2个不同的处理组,以保证不同组间的可比性
详见第十五章第二节
配对设计中,研究者往往关心的是对子效应均值的差值(μd=μ1-μ2)而不是各自的效应值μ1和μ2
将配对设计的参数推断问题转化为由样本均数(d-)推断总体均数μd
推断的基本任务包括
估计未知总体均数μd的1-α置信区间
检验样本均数d-所代表的未知总体均数μd是否等于0
配对总体均数μd置信区间估计
1、置信区间: 2、前提:样本差值数据服从正态分布,或样本量(即对子数)n足够大
置信区间:
前提:样本差值数据服从正态分布,或样本量(即对子数)n足够大
假设检验
1、配对样本均数的t检验又叫配对t检验 2、适用于配对设计的定量数据的两样本均数比较 3、比较的目的是:检验两配对样本均数所代表的未知总体均数是否有差别 4、配对设计的t检验统计量:
配对样本均数的t检验又叫配对t检验
适用于配对设计的定量数据的两样本均数比较
比较的目的是:检验两配对样本均数所代表的未知总体均数是否有差别
配对设计的t检验统计量:
此处的n为对子数
非正态数据的情形
在小样本情形下,若样本数据或配对设计的样本差值不服从正态分布,可采用以下方法对总体参数μ或μd进行推断:
非参数统计方法(不依赖于变量分布的方法,详见第十章)
蒙塔卡罗模拟参数推断方法:当样本数据的分布未知或不服从正态分布时,常用该法。基于蒙特卡罗模拟的推断方法包括置换法、自助法、刀切法等
数据转换法:将原始数据转化为正态分布数据,利用转化后的数据,采用上述公式分别估计转化数据的置信区间,再通过逆变换将数据的置信区间还原为原始数据的置信区间。常用方法:
对数变换:适用于对数正态资料;标准差和均数成比例
平方根反正弦变换:百分比资料
平方根变换:方差和均数成比例,例如Poisson分布
两个总体均数
参数推断的基本任务
1、估计两个总体均数之差(μd=μ1-μ2)的1-α置信区间
2、检验两样本均数x1-和x2-所代表的总体均数μ1和μ2是否相等
两样本总体均数之差的t统计量计算
推理要点
1、如果随机变量X1和X2互相独立,且,,以样本量n1从总体中随机抽样,获得样本均数及样本标准差;与此同时,以样本量n2从总体中随机抽样,获得样本均数即样本标准差,重复上述抽样过程,获得多个均数之差 2、由于变量X1和X2互相独立且均服从给正态分布,其样本均数仍服从正态分布。根据数理统计中服从正态分布的量独立变量加减后仍服从正态分布的原理,即,其中为两均数差值的总体方差
两样本均数差值的抽样分布
与t分布的关系
如果随机变量X1和X2互相独立,且 X1~N(μ1,σ1^2), X2~N(μ2,σ2^2),以样本量n1从总体中随机抽样,获得样本均数(X1-)及样本标准差S1;与此同时,以样本量n2从总体中随机抽样,获得样本均数(X2-)及样本标准差S2,重复上述抽样过程,获得多个均数之差[(X1-)-(X2-)]
由于变量X1和X2互相独立且均服从给正态分布,其样本均数仍服从正态分布。根据数理统计中服从正态分布的量独立变量加减后仍服从正态分布的原理,即[(X1-)-(X2-)]~N([μ1-μ2],[σ(X1-X2)^2]),其中σ(X1-X2)^2=σ1^2/n+σ2^2/n为两均数差值的总体方差
将服从正态分布的统计量[(X1-)-(X2-)]作标准变换,统计量{[(X1-)-(X2-)]-[μ1-μ2]}/[σ(X1-X2)^2]服从标准正态分布
实际工作中由于总体标准差σ1和σ2常常未知,所以只能用其相应的标准差S1和S2代替而得到两样本均数标准差的样本标准差S(X1-X2),此时,统计量{[(X1-)-(X2-)]-[μ1-μ2]}/[S(X1-X2)^2]不再服从标准正态分布。与但样本情形类似,此时统计量服从t分布
t统计量
从两个独立总体,抽样,则有两样本t统计量 1、两总体方差相等()时,  其中,自由度v=n1+n2-2,为两样本均数之差的标准差,为合并样本方差 2、两总体方差不等()时,  其中,为校正自由度
前提:从两个独立总体X1~N(μ1,σ1^2), X2~N(μ2,σ2^2)抽样,则有两样本t统计量
两总体方差相等(σ1^2=σ2^2)时
资料类型:完全随机设计的两独立样本
解题步骤(包括正态性检验、方差齐性检验)
t统计量
计算公式
v=n1+n2-2
=合并样本方差
两总体方差不等(σ1^2≠σ2^2)时
t'统计量
两样本t统计两的稳健性
与单样本是一致的
1、类似单样本,即使从两独立非正态总体中随机抽样,只要样本含量n足够大,两样本均数差值t统计量仍近似服从t分布
2、当变量X1和X2不服从正态分布,根据中心极限定理,只要样本量n1和n2均足够大,X1-和X2-服从正态分布,由于两样本独立,故差值仍服从正态分布
3、两总体方差未知,用样本方法进行估计时,此时两样本t统计量服从t分布
4、经验规则
样本量n1+n2<15 时,数据必须服从正态分布,t统计量才具有稳健性,否则不能用t分布
样本量15≤n1+n2≤40时,除非数据具有异常值或呈强偏态分布,t统计量仍近似稳健,此时可用t分布
样本量n1+n2>40 时,即使数据呈棉线的偏态分布,t统计量仍近似稳健,此时仍可用t分布
5、在实际过程中,两样本均数差值的t统计量要比单样本均数的t统计量更稳健。蒙特卡罗模拟证明:当两样本相等(n1=n2)且总体分布相撞相似,即使样本量不大,t统计量仍服从t分布。当两总体分布形状明显不同时,只要样本量足够大,t统计量仍服从t分布
置信区间估计
两总体方差相等情形下(方差齐性检验)
μ1-μ2的1-α置信区间估计:
当两样本的样本含量均较大时(n1,n2均大于50),t分布近似于正态分布,t分布近似正态分布,式中的t可用z代替,样本的标准差也可以用来计算
样本量很大的时候,不追求方差齐
两总体方差不等情形
μ1-μ2的1-α置信区间估计:
)
假设检验
两总体方差相等的情形
1、当两总体方差相等时,通常采用独立样本均数比较的t检验,又称成组t检验,它适用于完全随机设计两独立样本均数的比较
=t统计量
=(检验统计量t)
基于零假设:μ1=μ2,所以μ1-μ2=0
两总体方差不等的情形
1、若两总体方差不等,可采用数据变换或t'检验或基于秩次的非参数检验
2、数据变换是将原始数据作某种函数转换(如对数变换、平方根变换、平方根反正弦变换)使得数据满足成组t检验的方差齐性和正态分布要求,但有时也行不通
3、本节介绍t'检验(t'统计量)
两个总体方差
两样本比较的目的是推断其所代表的总体的参数是否不同,通常需要推断总体两均数是否相等或两总体方差是否不等,而后者通常是前者的前提条件
两样本方差之比的抽样分布
F分布
1、两独立正态样本方差之比的F统计量服从分布: 
2、F分布是一种连续性分布,只要在给定分子自由度(v1)和分母自由度(v2)的条件下,即可求出特定F(v1,v2)值对应的函数值,从而可绘制其密度曲线图
3、F分布的分位数:与t分布类似,由F分布曲线可以求从0到给定F值的面积(概率)。当v1和v2确定后,F分布缺陷下右侧尾部的面积为指定α时,横轴上相应的界值F,记作Fα(v1,v2),称为F分布的分位数
拓展:对应的t^2服从F(1,n-1),t^2=F
方差的齐性检验
判断两总体方差的齐性检验等价于检验H0:是否成立,由两样本方差之比的抽样分布原理及F分布可知,在H0成立的前提下,有,因此有两独立样本正态总体方差齐性检验的F统计量
F统计量计算
两独立正态总体方差齐性检验的F统计量: 
用较大比较小是为了方便查表
求得F值后,查F界值表可得P值(F值愈大,P值愈小),然后按所取的α水准作出统计推断
因为人为地用较大的方差比上较小的方差,所以查表的时候应该α/2的界值(即查单侧界值)
方差齐性检验为双侧检验,双侧界值
因为若F值偏离1,无论是左偏还是右偏,都认为方差不齐(且不是问的哪个方差大于另一个方差)
对比:第八章方差分析的F检验是双侧检验,单侧界值
检验水准α一般取0.10
α=0.10>0.05
因为数据已经给了,说明样本的样本量和方差已经定在那里了,只能通过α来控制 β
我们通过增加α来降低β,降低第二类错误发生的概率,即控制“当方差不齐的时候,我们接受它方差齐”的这个错误发生的概率。
其他检验方法
1、Levene检验(不依赖总体分布的具体形式,更为稳健)——详见第八章
2、Bartlett检验(要求数据服从正态分布)
上述检验既可以用于两样本也可以用于多样本!
F检验只能用于两样本方差齐性检验
定量数据:中心位置和变异程度
单个总体率
样本率的实质是特殊的样本均数(第五章)
第五章中通过蒙塔卡罗模拟说明了单个样本率p的抽样分布在样本量较大时近似服从正态分布
补充:大小写的区分规则
按照第四章的符号使用规则,第五章与第六章都采用了大写字母表示统计量的抽样分布,此时统计量为随机变量,而采用小写字母表示其对应样本观测值,此时统计量为固定值
由于前面章节中一般使用p表示样本率,故此处采用P表示样本率为随机变量的情形,但其与P值符号存在冲突,所以后续章节将采用p同时表示随机变量与样本光侧置两种情形,两者的区分根据上下文一般易于判断
基本任务
估计总体率π的1-α置信区间
检验样本所代表的总体率π是否与给定的总体率π0有差别(即H0:π=π0是否成立)
总体率的置信区间估计
二项分布法(查表法)
为了应用方便,统计学家根据二项分布原理,编制了在样本量n≤50时,样本例数为n与阳性例数为X时,总体率的95%和99%置信区间表。
正态近似法
样本量较大时
推导
1、根据第五章,当阳性事件和阴性事件发生次数均较大时,一般nπ>5且n(1-π)>5时,样本率p的抽样分布近似服从正态分布,即
2、具体而言,当总体率π=0.05,或nπ和n(1-π)均大于5时,有: 
3、Z近似服从标准正态分布,当总体率方差未知时,常用样本率p代替总体率π计算得到方差代替上式中的
4、样本量较大时,单个总体率Π的1-α置信区间估计的近似正态法: 
前提条件:nπ>5且n(1-π)均较大!
样本量不大时
当nπ或n(1-π)不太大时,二两分布的概率不再近似服从正态分布。此时蒙特卡罗模拟显示,若对样本率实行“分子+2,分母+4”的校正,可转换得到近似正态的统计量,该方法也叫“+4估计方法”,具有较高稳健性。
目的:校正样本率p是为了使样本率更接近0.5
样本量不大时,单个总体率π的1-α置信区间估计的校正近似正态法: 
其中是对样本率“分子+2,分母+4”校正后的校正样本率
总体率的假设检验
确切概率计算
1、基本思路:根据二项分布概率函数直接求出累计概率,即P值,再与α作比较
2、与给定总体率π0比较时P值的计算:
最多有k例阳性的概率:
最少有k例阳性的概率:
其中
此方法尤其适用于样本量较小或π0不靠近0.5时作单侧检验的情形
正态近似法
1、当nπ、n(1-π)均大于5,二项分布逼近正态分布。可构造二项分布的正态近似检验统计量Z,检验样本率p所代表的未知总体率π与给定总体率π0是否相等:
2、样本量较大时,样本所代表的总体率与给定总体率π0比较(正态近似法): 
3、p为样本率,π0为给定总体率(常为理论值或标准值),n为样本含量
两个总体率
由于两样本均是通过从两个未知总体随机抽样获得,两样本差为p1-p2,故可基于两样本率之差的抽样分布或其正态近似原理进行置信区间估计和假设检验
基本任务
估计两个总体率之差π1-π2的1-α置信区间
检验两个样本率p1和p2所代表的总体率π1和π2是否相等(即H0:π1=π2是否成立)
两样本率之差的抽样分布及其正态近似
置信区间估计与假设检验的理论基础
样本量较大时两样本率之差的正态近似
结论
1、两样本率之差(p1-p2)的Z统计量: 
n1p1、n1(1-p1)、n2p2、n2(1-p2)均大于5时,
其中,
推导
1、两独立样本、,两样本之差p1-p2。重复多次上述抽样过程,可获得多个样本率之差,此时有:
(1)由于两总体互相独立,类比单样本率的抽样分布原理,当n1p1、n1(1-p1)、n2p2、n2(1-p2)均较大时,多次重复抽样得到的若干两样本率之差的分布近似服从正态分布,统计量,其中p1-p2的标准差
(2)在上述条件下,由于p1-p2仍近似服从正态分布,可对p1-p2实施标准转换,即 ,此时统计量Z服从标准正态分布
(3)当两个总体率π1和π2均未知时,根据中心极限定理,p1-p2的标准差可用样本标准差进行估计,即: ,则有 
校正样本率的正态近似
1、当n1p1、n1(1-p1)、n2p2、n2(1-p2)不太大时,不再近似服从正态分布。此时,仿照上述单样本率的“分子+2,分母+4”的校正法,也可以达到近似正态的效果,但此时采用的时在两组样本率p1和p2上分别实施“分子+1,分母+2”校正,以保持合并样本率仍维持在分子+2,分母+4”的状态
2、校正样本率的Z统计量: 
其中:   
总体率之差的置信区间估计
正态近似法
1、两总体率之差π1-π2的1-α置信区间估计(近似正态法): 
其中为两样本率之差的标准误
校正样本率的正态近似
两总体率之差π1-π2的1-α置信区间估计(校正的近似正态法) 
其中:   
假设检验
近似正态法
1、H0成立的前提下,两样本率之差(p1-p2)的Z检验统计量:  其中,为样本的合并率
结论
1、H0成立的前提下,两样本率之差(p1-p2)的Z检验统计量: 
n1p1、n1(1-p1)、n2p2、n2(1-p2)均大于5时,
其中,为样本的合并率
区分置信区间中两样本率之差的标准误
置信区间估计与假设检验的标准差的计算不同,是因为假设检验Z检验统计量的计算是基于π1=π2(即H0成立的条件下),但这并没有否认一个置信区间对应一个假设检验的结论,只是假设检验中提供了H0成立下,π1=π2的这个信息
当n1、n2较小时
此时无法使用上述正态近似法进行两样本率比较的假设检验,此时常见的方法时采用Fisher确切概率法,详见第八章
分类数据:事件的总体发生率
第八章 多个均数比较的方差分析
概述
本章逻辑
整体比较
是否全部相等
不考虑混杂因素(单因素):完全随机设计,对应单个F值
考虑混杂因素(双因素):随机区组设计,对应两个F值
多重比较
两两是否相等
SNK法、Dunnctt-t法、Bonfcrroni法
注意区分适用情形
应用条件: 独立、正态、方差齐
需解决的问题:两个总体均数间的比较我们可以使用t检验,而实际研究中经常遇到多个均数的比较问题
1、多次t检验进行多个均数的比较会增大发生发生第Ⅰ类错误的概率,因此,t检验不能直接用于多个均数的比较
2、多于对个均数比较的常用方法是方差分析,也称F检验。其目的是推断多个样本所代表的总体均数是否不等
3、完全随机设计的方差分析是将研究对象通过完全随机化方法,分配至多个不同的处理组,比较多组的效应指标是否存在差异,亦称为单向方差分析
完全随机设计的方差分析
基本思想
1、方差是反映数据变异程度的统计指标→利用方差的概念对变异度进行分解→方差分析=变异度分析
2、基本思想:根据研究目的和设计类型,将全部观察值的总变异分解为两个或多个部分,各部分的变异可由不同处理因素的影响效应或误差的效应解释,将各影响因素产生的变异与随机误差变异进行比较,以推断该因素是否存在影响效应
3、方差≠均方(MS)
方差分析的基本思想推导
观察数据基本特征
观察各组数据的分散程度以及总均数的分散程度
箱式图→数据是否对称,中位数与均数的相对位置,各组数据差异
总变异的分解
随机误差效应
1、同一组内的效应存在差异,归因于个体差异与测量差异,即随机误差
2、若处理因素对实验对象无影响,即各组的总体均数相等,则组间的变异和组内的变异相当,均反映的是随机误差效应
变异的分解
1、对于每一个个体观察值均有 (个体的全部变异=组间变异+组内变异),
2、代数计算可以证明:  (即总变异=组间变异+组内变异)
(1)总变异:表示所有个体总的离均差平方和,即为,反映每个个体观测值与总均数之间的差异,该变异既包含:处理因素的效应+随机误差的效应
(2)组间变异:表示每组均数与总均数的离均差平方和,,即为。,反映:不同处理(组间)效应+随机误差的效应
表示第i组所有个体的组间变异之和
ni指的是第i组的个数
为各组样本均数与总均数间的差异
(3)组内变异:表示组内每个个体与组内均数的离均差平方和,即为,反映:随机误差效应
总变异可以分解为两个部分:组间变异和组内变异
方差分析的F统计量
1、变异的分解只考虑了变异的总和,而未考虑组数与组内个体对变异的影响。例如组内个体数目增加,SS组内必然增加,为了校正组数与组内个体数对变异的影响,我们在比较不同类型变异大小时,须考虑每种类型的平均变异。
2、此处将SS组间除以自由度(k-1),从而得到组间的平均效应MS(组间),k为组数: 
3、同理,随机误差的平均效应MS组内,表示: 
4、总自由度v总=n-1,n为观测总例数,其中,自由度是指有效的变异个数(保证样本方差的无偏性)
5、若H0成立,那么MS组间与MS组内的比值理论上应该非常接近1。判断比值是否极端可采用第七章学习的F统计量。
6、数理统计理论表明MS组间(较大)/MS组内(较小)服从自由度为v组间和v组内的F分布 
6、对于F分布,F值越大,对应的P值就越小
补充
一个正态分布可以由两个参数(均值和方差)完全确定,单向方差分析假设所有总体方差相同(即形态相同)。所以要检验所有总体均数是否相等,也就是要检验所有样本是否来自一个总体
进行方差分析的前提是:各个样本对应的总体方差相等(说明了各组内变异水平相当)
方差分析的零假设为:各个样本对应的总体均数相等
若零假设为真,样本均数是总体均数的无偏估计,则抽样数据得到的F值应该接近于1;如果零假设不真,则F值会显著大于1
这样就可以通过F检验的方式来检验各总体均数是否相等(样本是否来自同一总体)
假设检验
1、建立检验假设,确定检验水准 H0: H1: α= 2、计算检验统计量——F统计量的计算 变异来源 离均差平方和SS 自由度 均方MS F值 P值 总变异 SS总 v总=n-1 组间变异 SS组间 v组间=k-1 MS组间=SS组间/v组间 F=MS组间/MS组内 组内变异 SS组内 v组内=n-k MS组内=SS组内/v组内 3、确定P值,作出判断
1、建立检验假设,确定检验水准 H0: H1:不全相等(只能进行双侧检验) α=
2、计算检验统计量——F统计量的计算
分母是组内变异
3、确定P值,作出判断
方差分析进行的是双侧检验,但查得是单侧界值,因为组间一般大于组内,所以不太可能小于1
总体均数不全相等,即至少有两个总体均数不等
应用条件
完全随机设计的方差分析只涉及一个研究因素,因此,除了用于随机分组的实验性研究外,也常用于基于随机抽样的观察性研究多个均数的比较
独立性
各样本是相互独立的随机样本,个体观测值间相互独立
正态性
1、各样本均来自于正态分布总体
2、当样本含量较小时,对数据是否来自正态分布总体难以进行直观判断和检验,常常凭借经验和数据来源判断
3、当样本含量较大时,根据中心极限定理,样本均数的抽样分布往往服从或近似服从正态分布,此时只要满足方差齐性,方差分析的结果就具有稳健性
4、但当数据严重偏离正态分布时,则应考虑做数据转换改善其正态性
方差齐性
1、各样本所对应的总体方差相等
我们运用方差分析时,分析的是方差,但推断的是均值
因为如果方差不齐,就不能确定它们均值的不同是因为形状(σ)的不同还是位置(μ)的不同
2、方差分析中对方差齐性要求较严格,通常采用方差齐性检验
方差齐性检验时α通常设置为0.1
3、方法
F检验(第七章)
仅用于两总体方差对比
Bartlett卡方检验(通常要求数据满足正态性)
Levene检验——两个或多个总体方差齐性检验
不依赖数据的分布类型
基本原理:将原始观测值转换为相应的离差值
离差值一般采用公式计算
也可采用公式计算
然后对离差值进行单因素方差分析
若各组总体方差相等,则组间变异与组内变异接近,F值接近于1.
残差图——图示法检验正态性和方差齐性
1、残差图可以同时考察正态性和方差齐性是否满足,是最为简单、直观和有效的可视化图形判断
2、对于完全随机设计,假定方差分析模型为,即每个观察值可以表示为处理的平均效应+不能由处理所解释的效应(残差或剩余)。
3、通常用各组的样本均数作为总体均数的估计值,每个个体的残差估计值为: 
4、若数据满足正态性和方差齐性,则各组残差值服从正态分布且方差齐,标准化的残差值服从标准正态分布,其残差值应该在±2之间随机波动,不具有特殊的分布结构
随机区组设计的方差分析
基本思想
1、随机区组设计:通常是将受试对象按影响实验效应的混杂因素特征(如动物的窝别、性别、体重等)相同或相近者组成b个区组(配伍组),每个区组中包含k个个体,再将其完全随机分配至k个不同的处理组,以保证混杂因素影响的组间均衡可比性,从而比较k个处理组效应的差异
2、随机区组设计是按区组和处理组两个方向分析
3、处理组与区组的各水平交叉格子没有重复例数,即总例数n=kb。因此随机区组设计的方差分析也成为无重复数据的双向方差分析(two-way ANOVA)
双因素:处理因素+混杂因素
应用情形
将n个研究对象按照影响研究效应的混杂因素特征配成区组,再将每个区组的k个个体随机分配至k个处理组。
1、不仅可以用于实验研究,还可以用于观察研究
2、如比较不同卫生服务人员(社区医生、社区护士以及公共卫生人员)的期望收入指数是否存在差别
将三类人群按社区中心、性别以及年龄先匹配为一个区组
再调查其期望收入指数情况
可控制地域、性别、年龄对收入期望不同的影响
并按照随机区组设计的方法分析进行比较
将同一个样品分成k份,分别采用k中不同的处理
如将每个离体儿童龋牙,切割成四份,分别放置在4中酸蚀液中,比较不同腐蚀液的龋齿脱矿能力指数
同一研究对象k个部位的处理效应比较
变异分解
三部分
1、
处理组间:反映处理因素的平均效应+误差效应
区组间:反映区组的平均效应+误差效应
2、
3、此时可以计算两个F值
一个是处理组的F处理→用于推断处理组间多个总体均数是否存在差异
一个是区组的F区组→用于推断区组间多个总体均数是否存在差异
随机区组设计方差分析表
变异来源 离均差平方和SS 自由度 均方MS F值 总变异 SS总 v总=n-1 处理组 SS处理 v处理=k-1 MS处理=SS处理/v处理 F处理=MS处理/MS误差 区组 SS区间 v区间=b-1 MS区间=SS区间/v区间 F区间=MS区间/MS误差 误差 SS误差=SS总-SS处理-SS误差 v误差=(k-1)(b-1) MS误差=SS误差/v误差
分母是误差均方
补充
1、相比于完全随机设计,随机区组设计的效率更高,样本量相同时,其处理组间均衡性好于完全随机设计
2、随机区组设计方差分析检验效能高于完全随机设计
3、完全随机设计的方差分析是两组t检验的扩展,对于两个独立均数比较的情形,存在F=t^2
4、随机区组设计的方差分析是配对t检验的扩展,对于两个处理组比较的情形,存在F=t2
5、当区组的检验结果为“不拒绝H0”即区组间的差异无统计学意义时,可考虑把SS区组与SS误差合并,重新计算处理组间的F值来做组间差异的比较
假设检验
(1)建立假设检验,确定检验水准
对于处理组 H0: H1:
对于区组 H0: H1:
α=0.05
(2)计算检验统计量
(3)确定P值,作出推断
相当于完全随机设计做了两遍
对于区组效应而言,……
对于处理效应而言,……
应用条件
与完全随机设计相同
分别对处理组间以及区组间进行正态性和方差齐性检验
1、因为随机区组设计为无重复的两因素设计,处理因素和区组因素各水平数交叉的格子内无重复数据,不能对格子间进行正态性和方差齐性检验,但至少处理组间、区组间数据应满足正态性和方差齐性
2、若其中之一严重违背正态性或方差齐性,则不能满足方差分析的应用条件,可采用后续章节介绍的非参数检验
多个样本均数间的多重比较方法
目的:明确那些组之间存在差异
常用的多重比较分为两种情形
在研究阶段未预料到,经数据结果提示后决定做两两比较,往往涉及到每两个均数的比较,SNK法和Bonfferoni法等检验,进行探索性研究
设计阶段根据专业知识计划好的某些均数间的两两比较,一个对照与多个实验组等,Dunnett-t,LSD-t等检验,进行验证性研究
注意:原则上只有在经过多个均数的方差分析,发现均数不全相等(α≤0.05)之后,才有必要进行多个均数间的多重比较
SNK法=q检验
比较次数m=
探索性研究设计实施时,未考虑均数多重比较问题
目的:比较两个样本均数所代表的总体均数是否不同(任意两组)
检验统计量q

Dunnett-t法
本质上t检验
m=k-1
对于k个组,当需其中的(k-1)个实验组均与同一个对照组进行比较,说明各实验组相对于对照组是否存在统计学差异时,只需进行(k-1)次比较,通常采用Dunnett-t法。
Bonferroni法
本质上是t检验
m=
若每检验水准为α',共进行m次比较,当H0为真时,犯第Ⅰ类错误的累积概率部超过mα',这就是著名的Bonferroni不等式
调整检验水准α'=α/m(比较次数)
当比较次数过多,如m超过10次以上时,调整的检验水准会过低,多重比较可能会出现不拒绝H0的假阴性结果,即增大犯Ⅱ类错误的概率
会增大第Ⅱ类错误的概率
补充
方差分析与方差齐性检验对比
相同点
都采用F统计量
不同点
方差齐性检验通常是双侧检验,双侧界值;方差分析是双侧检验,单侧界值
方差齐性检验应用条件为:独立、正态;方差分析的应用条件为:独立、正态、方差齐
方差齐性检验分析的是两总体方差是否相等;方差分析则是针对多个总体均数
方差分析与t检验对比
相同点
都可用于两个均数的比较,且对应的t^2=F
适用条件类似:独立、正态、方差齐
不同点
方差分析可用于多个均数间的比较;t检验只能用于两个均数
方差分析不能进行置信区间估计(本教材所涉及的置信区间估计采用的多是z分布或t分布)
第九章 分类变量的卡方检验
前后联系
联系第二章
分类数据交叉表的表达方式
如何采用条件分布来描述分类变量的相关性
联系第七章
单个总体率的统计推断
两个总体率的统计推断
分类数据:事件的总体发生率
本章
基于分布介绍两个或多个率比较的检验、关联性检验、拟合优度检验、Fisher确切概率方法
本章逻辑
两组或多组分类变量的统计分析
卡方检验的基本思想
卡方检验的应用
率的比较
样本量足够
互相独立数据
2×2
R×C
配对设计数据
2×2
R×R
样本量较小
Fisher确切概率法
独立性(关联性)检验
拟合优度检验
卡方检验是针对两组或多组分类变量的总体率或总体频数分布进行推断的方法
结合第七章中(单个或)两个总体率的近似z检验,进行对比理解
卡方检验的基本思想
卡方检验=Pearson 卡方检验
卡方统计量
四格表
Aij为实际频数:即研究中实际观察所得的频数
Tij为理论频数
nR1与nR2为四格表的行合计
nC1与nC2为四格表的列合计
基本思想
1、统计量之间差别产生的原因,或者是因为来源于同一总体的抽样误差,或者是因为不同总体的本质差别。
2、理论频数计算前提:在H0成立的前提下,按照合并的样本率估算,各组应分配的平均频数
3、计算卡方统计量:所有格子的实际频数和理论频数之差的差异
自由度的计算公式:v=(行数-1)×(列数-1)
4、卡方分布是一种连续型随机变量的概率分布,自由度v是其唯一参数,记为
5、若H0成立,那么两个样本之间的差别可认为由抽样误差所致,则理论频数A与实际频数T之间的吻合程度应该越高,卡方值不会太大
6、卡方检验的基本思想实质:将对两个或多个总体率(构成比)的比较转化为实际频数与理论频数吻合程度的比较
适用情况
针对两组或多组分类变量的总体率或总体频数分布进行统计推断
了解两组或多组样本的总体率(或构成比)之间是否具有统计学意义
卡方分布的性质
分布可以看作一种特殊的抽样分布
设有k个互相独立的随机变量Z1、Z2,……,Zk,其服从均数为0,标准差为1的标准正态分布,则服从自由度为v(v=k)的分布,记为
分布是一簇连续光滑曲线,不同的自由度决定卡方曲线的形状各有不同。单峰
牵涉到连续型校正
1、当自由度较小时,卡方分布越为偏斜,随着v取值的增大,曲线逐渐趋于对称,当v趋于∞时,卡方分布将逼近正态分布
2、各种自由度取值下卡方分布右侧尾部面积(概率)为α时的临界值记为
单侧界值
3、当v=1时,卡方(0.05,1)=3.84
分布的期望值(均值)为自由度v,方差为2v
明显地,随着自由度v的增大,卡方分布将随着均值v的增大向数周右侧延展,而分布曲线也将随反差的增大而越趋低阔
卡方检验的基本思想实质:将对两个或多个总体率(构成比)的比较转化为实际频数与理论频数吻合程度的比较
二分变量对应率的概念,多分类变量对应构成比的概念
补充:如果随机变量Z服从标准正态分布,那么其平方将服从自由度为1的卡方分布(赵耐青版P57)
率的比较
2×2交叉表(四格表)的卡方检验
相互独立
假设检验步骤
1、建立检验假设,确定检验水准 H0:总体检出率相同 H1:π1≠π2 α=0.05
只能进行双侧检验
2、计算检验统计量:
3、确定P值,作出推断
单侧界值(同方差分析的进行双侧检验但查单侧界值)
严格的适用条件
卡方检验本质是将连续型变量的分布用于分类变量的推断,故四格表卡方检验的基本公式和专用公式均有着较为严格的适用条件
若n≥40,且任意一个格子的理论频数Tij≥5,可直接使用
若n≥40,但出现1个格子的理论频数1≤Tij<5,则需要对卡方值进行连续性校正
若n<40或者任意一个格子的理论频数Tij<1,则卡方检验不在适用,宜采用Fisher确切概率法进行处理
第五节中介绍
两个率的z检验和卡方检验的区别和联系
联系
都可以检验两个率之间的差别,且都基于零假设应用了合并率的概念(Pc和Tij)
两种检验的应用条件均满足时两者等价,即z²=卡方²
都存在连续性校正问题
因为率属于离散型随机变量,但是Z分布和卡方分布都是连续型分布
区别
率的Z检验可按研究设计进行单侧或双侧假设检验,卡方只能进行双侧检验(单侧界值)
率的Z检验只能检验两个率之间的差别,卡方检验能检验两个或多个率的差别
率的Z检验可以计算两个率之差的95%置信区间,以分析两率间有无实际意义,卡方检验用于2×2列联表资料有无关联的分析
R×C交叉表的卡方检验
推断3个以上的总体率(或构成比)之间的差异
基本原理和计算步骤与2×2交叉表类似
与2×2交叉表不同之处在于
一般地,理论频数Tij的公式可泛化为下式
n为总例数,nRi为第i行的合计数,nCj为第j列的合计数
可直接使用下式计算卡方统计量
自由度v=(R-1)×(C-1)
检验假设与检验结论有所区别
详见后述,卡方分割
注意
R×C交叉没有校正公式,若理论频数过小,或1/5以上格子的理论频数小于5,则要考虑合理合并行或列,或增加样本量
若有一个格子的理论频数小于1,则采用Fisher确切概率法
多个构成比的比较
R≥2,C>2
假设检验步骤
1、建立检验假设,确定检验水准 H0:分布是否相同 H1: α=0.05
2、计算检验统计量:
3、确定P值,作出推断
多个率的比较
R≥2,C=2
1、建立检验假设,确定检验水准 H0:总体率是否相同 H1: α=0.05
分割
多个率或多个构成比比较的卡方检验,当结论为拒绝H0时,仅代表总的来说多组之间是有差别的,即至少由两组的总体率或频率分布时不同的,但不意味着任意两组之间均有差异
若需明确哪两组之间存在差异,可做率的多重比较,即进行卡方分割
做法:将R×C表分割为若干个小的四格表进行检验
条件:要根据比较次数合理地修正检验水准α,否则将人为地增大犯Ⅰ类错误地概率
结合多个均数两两比较中采用的Bonferroni法进行理解
α'=
k为需比较的组数
若设置一个共同对照,则只需要进行(k-1)次
注意事项
R×C交叉表的卡方检验要求理论频数不宜太小
若理论频数过小,或有1/5以上格子理论频数小于5,应考虑增加样本量,或结合专业知识对行或列进行合并
若出现一个格子的理论频数小于1,应采用Fisher确切概率法,一般采用软件实现计算
适用于完全随机设计的两个或多个率(或构成比)的比较,强调样本的独立性
配对设计数据的卡方检验
概述
1、列表的行、列变量是相互关联的,甚至反映的是一个事物的同一属性,常见于配对或配伍组设计。
2、比如:将每个待测标本一分为二,分别采用两种不同方法进行检测,比较两种不同检测方法有无差异;为评价某种处理是否产生作用,测定同一批患者受试前后某项指标的阳性反映
配对四格表的卡方检验
配对四格表通用表格
1、两种变量的结果有无差别就体现在b、c这两个对子数
2、在H0:两种检验方法的阳性概率相同结果成立的条件下,b和c两个格子理论频数都应该为(b+c)/2。当b+c≥40时,可进行简单推导:
3、则配对卡方检验的公式为:
4、类似地,若b+c<40,则需对式进行连续性校正:
配对R×R交叉表数据的卡方检验
实际工作中,不少分类变量都具有R(R≥)个可能的“取值”,则构成更泛化的配对R×R交叉表。这类研究通常需要解决的问题为,两个样本分布所对应的总体概率分布是否相同。
1、建立检验假设,确定检验水准 H0:两变量的概率分布相同 H1: α=0.05
2、统计检验量为:
k=类别数
ni和mi分别为第i行合计和第i列合计
Aii=实际频数
H0成立时,T统计量服从自由度为k-1的卡方分布
3、确定P值,作出推断
独立性检验
基本思想
率的比较 → 仅适用于推断两个或多个独立样本的总体概率(或构成比)相同与否
独立性检验=关联性检验 → 两个或多个分类变量的关联性及其强度(实际工作中,研究者需要了解)
独立随机样本 → 一般地,变量X和变量Y互相独立是指变量X的概率分布与变量Y的概率分布互不相关
交叉分类 → 分类变量的概率分布彼此相关,常见于一份随机样本同时按两种不同属性分类。
eg.同一批监测水样两种不同检测结果的关联性、同一批大学生其专业类型与防艾知晓状况之间的关联性
步骤
1、首先针对交叉分类表进行两种属性独立性的卡方检验
2、计算关联系数以描述两个属性之间的关联强度
2×2交叉表的独立性检验
检验过程
1、建立检验假设,确定检验水准 H0:两变量间相互独立 H1:两变量之间相互关联
2、计算检验统计量 → 在H0成立的条件下,该变量应服从卡方分布 → 若拒绝H0,则认为两变量存在关联
3、确定P值,作出推断
4、关联系数的计算
关联系数采用第二章学习的Pearson列联系数
取值范围[0,1)
注意事项
1、分类变量的关联性分析与率(或构成比)的差异性分析,在检验过程和方法上完全一致
2、但两大类分析在研究目的、设计方案、数据结构与结果解释方面有着本质区别
3、关联性分析,主要针对同一随机样本的两个不同属性变量所形成的交叉表,侧重于推断两个不同属性变量之间存在关联性与否
4、而率(或构成比)的比较,则主要针对两个或多个独立随机样本所形成的交叉表,侧重于推断其分别所代表的总体率(或构成比)之间是否存在差异
区别
eg.对某社区n名居民,询问其病史,对其进行体检,收集糖尿病及肥胖情况,分析肥胖与患糖尿病之间是否存在关联性
给出的是同一组研究对象的两个不同属性的概率分布对比,不是两组不同的研究对象
2×2配对数据的独立性检验
eg.某医院甲乙两位检验师对同一批血液标本的病毒抗原进行监测,两位检验师的监测结果是否存在关联
步骤同”2×2“交叉表的独立性检验
注意:零假设是数据间相互独立,因此此处的配对数据也直接使用卡方检验公式,而不用配对卡方检验的公式(即含b和c的公式)
与配对设计的率的比较是不同的
R×C交叉表的独立性检验
eg.比较不同毒害作用与小鼠肝脏脂肪变性的关联性
步骤同”2×2“交叉表的独立性检验
拟合优度检验
概念
拟合:分析现有观测变量的分布形态,检查其分布能够与某一期望分布(或标准分布)很好地吻合起来
拟合优度检验=判断实际样本的观察频数分布是否服从某一理论期望频数分布(即用来监测观测数与依照 某种假设或分布模型计算得到的理论数之间一致性的一种统计假设,以便判断该假设或模型是否与实际观测数相吻合)
拟合优度检验又称
吻合度检验:检测观测数与理论数之间的一致性
相当于率的分布
独立性检验:通过检验观测数与理论数之间的一致性来判断事件之间的独立性
相当于上述的独立性检验
基本思想
以拟合正态分布为实例
1、编制频数表,获得样本观测值落在各组段的实际频数Ai
2、根据正态分布的标准转换求出样本落在该组段的概率Pi,利用概率Pi求出对应的理论频数Ti
3、根据理论频数Ti与实际频数Ai的吻合程度,计算卡方统计量,确定P值,作出结论
计算步骤
1、计算统计量:将样本均数x-和样本标准差s作为总体参数μ和σ的近似值
2、建立检验假设,确定检验水准
3、计算检验统计量
(1)假设X=(X1,X2,……,Xn)是来自总体的一个随机抽取的样本
(2)计算全距R,确定拟分组数。组数(k)对的多少直接与卡方统计量有关,即不同分组数拟合的结果有所不同,一般要求各组理论频数不低于5。同时,自由度v与组数k有关,分组越多,自由度则越大,同一检验水准所对应的临界值也越大;且在同一自由度下,卡方值越大,对应的概率P值将越小,越有理由拒绝H0,接受H1.
(3)计算样本观测值落在各组段的实际频数
(4)计算样本值落在第i组段的概率
(5)计算各组对应的理论频数
(6)计算卡方值
自由度v=k(组段数)-s(样本统计量代替总体参数的个数)-1
4、确定P值,作出推断
应用条件
要求足够的样本含量。若样本量不够大(如:频数表有1/5以上组的理论频数1<T<5),可以通过连续性校正进行统计量的估算。
如样本量仍然很小,可人为进行适当的合并
Fisher确切概率法
原理
一种基于超几何分布理论可直接计算概率的检验方法
不属于卡方检验范畴,但可作为卡方检验应用上的有益补充
基本思想:保持周边合计数不变,计算交叉表中各个实际频数变动所有可能组合多对应的概率,再将获得的现有样本的概率以及比它更极端的所有概率求和,直接求出单侧或双侧的累积概率进行推断
适用条件
任一情况
当样本含量较小时
样本量n<40
有一个格子的理论数T<1
卡方检验所得概率P接近检验水准α
2×2交叉表的确切概率法
1、建立检验假设,确定检验水准 H0: H1: α=0.05
2、计算所有可能组合的概率Pi
各种可能组合的概率计算公式
组合的概率Pi服从超几何分布,且∑Pi=1
是单峰分布
当a在合计值一半附近时对应的概率最大
3、将现有样本的概率以及比它更极端的所有概率求和,直接求出单侧或双侧的累积概率,作出推断
注意
找出概率小或等于原四格表概率的所有四个表,将其对应的概率相加,得到双侧概率
如果是单侧检验,确定P值的方法与双侧检验不同。
当H1为π1<π2时,P值为原四格表及以上的四格表的Pi之和
当H1为π1>π2时,P值为原四格表及以下的四格表的Pi之和
有时可先计算当前四格表所对应的概率,若该概率已经能与检验水准作出大小比较(如已大于0.05),可直接下结论,即直接得到两组差别无统计学意义
R×C交叉表的确切概率法
适用条件:多个样本率或多个频率的分布比较卡方检验中,一般要求其理论频数不能过小,不能有1/5以上的格子理论频数1<T<5,也不允许有一个格子的理论频数T<1,否则结果容易产生偏性,此时用Fisher确切概率法
一般通过软件计算实现
第十章 基于秩的非参数检验
概述
前后联系
1、t检验、方差分析 →假设数据来自正态分布的总体→以特定的总体分布为前提
实际应用中该假设条件难以满足
2、参数检验 → 以特定的总体分布为前提
3、非参数检验 → 一种不依赖于总体分布类型也不对参数进行推断,而是对总体分布进行比较的一类假设检验方法
非参数检验的概念
本章将应用第二章秩的概念,介绍基于秩的非参数检验
本章逻辑
原始数据不满足正态分布或等级变量
使用秩代替原始数据
基于秩的非参数检验
配对样本
两组独立样本
多组独立样本
单样本数据的符号秩和检验 (wilcoxon符号秩和检验)
对应单样本t检验
适用:当数据不服从正态分布时(可以用拟合优度检验来判断),判断样本所对应总体的均数是否等于某给定值
基本思想
1、目的:推断观测值的总体中位数于某给定数值(如标准值、目标值等)是否相等
2、基本思想
(1)H0:假设样本所对应的中位数与给定的总体的中位数相同。计算样本中所有数值与给定中位数的差值,正差值表示样本中个体大于给定中位数,负差值则为样本中个体值小于给定中位数。进而根据所有差值的绝对值,将所有正差值的秩相加就能得到正差值的秩和R+,同理R-。
(2)假设H0成立,理论上R+与R-的总体均数应该相等,等于:
是样本秩和的均数
(3)R+与R-的总体标准差也应相等,等于:
适用于不存在等秩的情况
(3)若R+与R-相差悬殊,均远离μR,则有理由拒绝H0。具体通过R+或R-的抽样分布计算P值获得推断结论
3、注意
(1)Wilcoxon符合秩和检验的假设时针对总体的中位数而不是总体均数,因为均数μ是正态分布的参数之一。而任意一个分布都可以计算总体中位数,从而避免依赖某个具体分布的某个具体参数的限值
(2)实际上,Wilconxon符号秩和检验真正比较的是两个总体分布的形态,只有当两个总体分布的密度曲线除了左右两侧稍微有点不同而其余完全相同时,才能证实H0
检验步骤
(1)建立检验假设,确定检验水准 H0:样本所对应总体的中位数等于已知总体中位数、 H1: α
双侧检验
(2)求差值、编秩、求秩和
①差值为0时,弃去不计,n随之减少
②分别计算正负差值的秩和
③编秩是按绝对值的大小编秩的
(3)计算检验统计量W:R+与R-均可以作为符号秩和检验的检验统计量
(4)确定P值,作出判断
检验统计量所对应的P值可以通过软件直接获得
样本量较小(n≤50)时使用查表法:任取R+或R-作检验统计量,查表找到对应的P值
如果样本两较大(n>50),则检验统计量近似服从正态分布
W为Wilcoxon符号秩和检验统计量,可以用R+和R-作为W
0.5为连续性校正系数,因为Z值是连续的,而W却不连续
配对样本Wilcoxon符号秩和检验
对应配对样本t检验
背景
1、在配对设计数据比较中,一般先计算每对数值的差值,如果差值服从正态分布,可采用配对t检验分析两组均数是否相同
2、如果差值不服从正态分布,则可以采用Wilcoxon符号秩和检验
基本思想
配对数据符号秩和检验的基本思想与单样本符号秩和检验是一致的。不同之处在于,配对数据中每个配对数值的差值可以看作是一个单独的样本,给定的总体中位数为0,即推断差值的单样本是否来自给定中位数为0的总体。其余部分与单样本秩和检验无差别
检验步骤
(1)建立检验假设,确定检验水准 H0:差值的总体中位数等于0 H1: α
(2)求差值、编秩、求秩和
①计算每对数据的差值,并对差值的绝对值进行编秩
②分别计算正、负差值的秩和
(3)计算检验统计量W
同上
(4)确定P值,作出判断
同上
两独立样本Wilcoxon秩和检验
对应两组独立样本的t检验和方差分析
当两组独立样本不来自正态分布的总体时,可以采用Wilcoxon秩和检验,又称Mann-Whitney检验
两组定量数据的比较
基本思想
1、将两组独立样本数据放在一起进行编秩。这相当于对原始数据进行秩转换,就像求几何均数需要对原始数据进行对数转换一样,转换的目的是秩数据代替原始数据进行分析,从而不受原始数据需满足正态分布的条件限制
2、基本思想:分别抽取样本量为n1和n2两个样本,总例数为N=n1+n2.将全部数据统一编秩,取任意样本(如样本量n1的样本)的秩和作为Wilcoxon秩和检验的统计量W,假设两个总体分布相同(H0),则W的均数和标准差分别等于:
适用于不存在等秩的现象
3、当W远离μw时,有理由拒绝H0
检验步骤
(1)建立检验假设,确定检验水准 H0:两者的总体分布相同 H1: α
(2)编秩、求秩和
①正常排序、编秩
②有一些数据的测量结果是用一些离散的尺度表达的,如疼痛的评分,用此类数据进行秩和检验,常常会出现很多的相同秩,当数据包含相同秩时,秩和检验统计量W的精确分布会改变,同时,W的标准差必须进行以下调整
相同秩过多时要用该公式校正
其中j为出现相同秩的总次数,ti为第i次相同秩的个数。
(3)计算检验统计量
(4)确定P值,作出判断
为了确定P值,需要知道在H0成立下的W的抽样分布,而此分布依赖于两个样本的例数n1和n2
当两个样本例数较大时(n1>10,或n2-n1>10),秩和检验统计量W近似正态分布,可通过对W采取标准化变换获得Z值
两组等级变量的比较
1、参数检验是以来参数进行统计推断的,如两组独立样本t检验是依赖总体均数这个参数的假设检验,通过样本数据信息构造统计量,最后结论的专业解释或含义也常常通过样本均数的大小进行阐述
2、等级变量具有半定性半定量的属性,若把此类变量用参数检验处理,就需要把变量的不同属性编码为整数1~4,通过比较两组编码值的均数来进行统计推断,但是这些编码值的均数很难解释或无法指代具体含义
3、秩和检验是适用秩来代替原始数据,通过比较总体分布的形态来进行统计推断,避免了等级变量不同级别的均值无法解释的困境
检验步骤同“两组定量数据的比较”
多组独立样本的比较
对应多组独立样本的单因素方差分析(第八章)
多组独立样本比较的秩和检验=Kruskal-Wallis检验
当各样本不来自正态分布总体时
多组定量数据的比较
基本思想
1、用所有观测值的秩代表原始观测秩进行单因素方差分析。若所有观测值的总例数为N,秩只能是1到N之间的某个整数(假设没有相同的观测值出现),不管原始观测值是什么,秩的离均差平方和会是一个固定的数值,因此无需同时采取组间变异和组内变异,Kruskal-Wallis检验的检验统计量实质是用秩计算组间变异,当组间变异的数值较大时,有理由人为组间存在差异性
相当于只考虑了方差分析的分子部分
2、分别从k个独立总体随机抽取样本n1、n2、……、nk,总例数为N。将全部数据统一编秩,计算每个样本ni的秩和Ri,计算Kruskall-Wallis H检验统计量:
仅适用于没有相同秩的情况
存在相同秩时,要校正
3、为了确定P值,需要知道在H0成立下的H分布,而此分布依赖于每个样本的例数n1,n2,…,nk。
4、假设k个总体分布相同(H0)且样本例数ni不太小时,H值近似服从v=k-1的卡方分布,可通过卡方分布计算P值。当H值较大时,有理由拒绝H0
双侧检验、单侧界值
检验步骤
(1)建立检验假设,确定检验水准 H0:三组及以上的总体分布相同 H1: α
(2)编秩、求秩和
①将所有的观测值由小到大同一编秩
②将各组秩分别相加得每组秩和Ri
(3)计算检验统计量
(4)确定P值,作出判断
多组等级变量的比较
宜用Kruskal-Wallis检验
检验步骤
(1)建立检验假设,确定检验水准 H0:三组及以上的总体分布相同 H1: α
(2)编秩、求秩和
①将所有的观测值由小到大同一编秩
②将各组秩分别相加得每组秩和Ri
(3)计算检验统计量
若出现相同秩,需要用校正检验统计量Hc
(4)确定P值,作出判断
小结
参数检验是指总体分布满足一定条件时,根据样本数据对总体分布的统计参数(如均值、方差等)进行推断
参数检验需要满足独立、正态、方差齐
非参数检验是当总体分布形式未知的情况下,根据样本数据对总体分布形式或特征进行推断。这种方法不是对参数进行检验,而是检验总体分布位置是否相同,因为称为非参数检验
非参数检验不受总体分布的限制,适用范围广,但对服从参数检验条件的资料采用非参数检验方法,会降低检验效能,因为丧失了很多参数信息
基于秩的非参数检验 (使用秩代替原始数据)
配对样本:Wilcoxon符号秩和检验
样本中位数大小推断
两组独立样本:Wilcoxon秩和检验
两样本分布形态对比
多组独立样本:K-W检验
多样本分布形态;单因素方差分析
针对不同资料的参数检验和非参数检验
不同类型数据编秩方法
符号秩和检验和配对符号秩和检验
首先计算每组数据的差值,对差值的绝对值编秩
差值为0时,舍去不计,n相应减少
差值绝对值相等时
根据每对数据的差值正负编秩(×)→我们在编秩的时候是不分正负的
若符号相同,可顺次编秩,也可求平均秩次
若符号不同,求平均秩次
所有差值根据差值的符号,在秩前写上正负号
之后对正负秩分别求和
完全随机设计的Wilcoxon秩和检验 和多组独立样本的秩和检验
多组数据混合编秩
相同数据
在一组时可以顺次编秩,也可去平均秩次
不同组时取平均秩次
对每组秩分别求和
第十一章 直线相关与回归推断
概述
前后联系
联系第二章:我们学习了运用散点图、相关系数、回归系数以及回归直线等方法刻画两个变量之间的关联性
这是基于样本数据进行的描述和分析
与其他统计量类似,样本相关系数是总体相关系数的一个估计值,回归系数也是如此,本章将学习直线相关与直线回归的基本统计推断方法
本章是置信区间估计与假设检验在相关与回归中的综合应用
本章逻辑
直线相关与回归推断
总体相关系数ρ
样本相关系数r
置信区间估计
假设检验
ρ=0的t检验
应用条件:两变量二元正态
总体回归系数β1
样本回归系数b1
置信区间估计
假设检验
β1=0的t检验
β1的方差分析
应用条件
直线关系
独立
正态(y)
方差齐(y)
两个或两个以上变量之间的关系强度:相关<回归
故应进行相关分析,再进行回归分析
直线相关系数的统计推断
两变量间有无直线相关关系
直线相关系数的置信区间估计
总体相关系数ρ
1、直线相关系数表示了两个变量之间直线关系的强度和方向,两变量无需区分解释变量与反应变量
2、实际工作中,常用样本相关系数r估计总体相关系数ρ
置信区间估计
1、一般情况下(ρ≠0)时,r的抽样分布并不对称,无法利用正态分布理论对ρ进行统计推断
2、利用数理理论和蒙特卡罗模拟显示,按下式对r作变换后的zr具有近似正态性:
r的取值范围为(-1,1),开区间
zr是单调增函数
3、服从均数为,标准差为的正态分布
4、故的1-α置信区间计算公式如下:
5、则总体相关系数的ρ的1-α置信区间:
直线相关系数的假设检验
ρ=0的假设检验
概述
1、样本相关系数不等于0并不表示总体中两变量一定存在直线关系
2、从相关系数为0的总体中随机抽样得到的一组样本,由于抽样误差的存在,计算得到的样本相关系数r=0.562,并不等于0
另外样本量对r的影响是十分大的
3、因此需对总体相关系数ρ是否为0进行假设检验
查表法
根据自由度v=n-2,查r界值表,比较统计量|r|与界值,统计量绝对值越大,P值越小
双侧界值
t检验
t统计量为:
双侧界值
Sr为样本相关系数r的标准误:
H0(两变量间的直线相关性无统计学意义或两变量之间无直线相关关系)成立时,tr服从自由度为v=n-2的t分布
应用到中心极限定理,样本量相对比较大的时候都服从近似正态分布,只不过要考虑到样本量的影响,所以我们用t分布
注意:假设检验只能定性地判断总体相关系数是否不为0,不代表r越大(P越小)相关性越强
应用条件
两个变量服从二元正态分布
1、如原始数据并不服从正态分布,或者属于等级资料,可以考虑秩相关系数描述相关性。
第二章
2、总体秩相关系数ρs的假设检验可以用以下方式进行推断
(1)当n≤50时,可查秩相关系数界值表,当|rs|超过界值,则拒绝H0
(2)n>50时,可采用t检验
直线回归的统计推断
两变量之间有无直线回归关系
直线回归模型与参数检验
背景前提
回归方程相当于回归方模型的一次抽样获得的结果
回归模型前提条件:x固定时,y服从正态分布
因为已经确定了解释变量和反应变量,我们更关心解释变量对反应变量的影响,即y值得变化
回归模型与参数解释
1、简单直线回归模型假设y的观测值服从一系列随解释变量x变化的正态分布,其连续变化的均值取决于x值。
2、在总体回归直线中,当解释变量x的值固定时,反应变量y服从均数为的正态分布。总体回归直线如下:
表示X取某个数值时所对应的y的条件总体均数,随着x取值的变化而变化。
为总体回归直线的截距或常数项,表示x等于零0时,y的平均值。
为总体回归直线的斜率或回归系数,表示x改变一个单位时,y的平均改变量。
3、在直线回归中,假设每一个x组对应的都在回归直线上,但是由于个体观测值不一定总等于其均数。故而y的个体值与其总体均数之间有如下关系:
式中,为残差,
这里的写成σ²而不写成σyi²是因为,进行回归分析的条件之一是他们的方差齐
4、下图为总体直线回归模型示意图。直线描述了条件总体均数随着x取值的变化而变化。4个正态分布曲线反映了反应变量y随着解释变量x的4个不同取值而有所不同。
回归模型关注的是是否能够准确地预估xi条件下的y的均数
联系前面所学:对应样本的均数的相关性是比单个样本的相关性是更强的
β1的置信区间估计和假设检验
概述
1、基础:第二章第四节,基于样本数据,利用最小二乘法拟合回归直线来描述反应变量和解释变量之间的关系。
2、以此对总体回归直线的参数进行估计。在样本回归直线上,y的预测值通常用表示:
3、类似单变量分析中常需用样本均数对总体均数进行推断,在得到样本回归方程后,我们也需要推断相应总体中这种回归关系是否确实存在,即推断y的条件总体均数是否随x的变化而呈线性变化。
4、如同其他统计量,样本回归系数不等于0并不一定表示总体中两变量一定存在回归关系。
β1的置信区间
1、在第二章中,我们知道回归直线斜率的计算公式为。其中,r是y与x的相关系数,Sy为y的标准差,Sx为x的标准差。
b和r的符号一致,且ρ是否为0的假设检验和β1是否为0的假设检验结论是一致的,即tr=tb(t统计量值)
2、代数运算可验证,的计算公式也可用下式表达:
和分别表示x的离均差平方和、x与y的离均差积和。
3、是总体回归系数的一个点估计。类似于总体均数的置信区间估计,的双侧1-α置信区间:
样本回归系数的标准误与残差均方的算术平方根成正比
4、其中
是自由度v=n-2的双侧t界值
为样本回归系数b1的标准误
为残差的标准误,他是扣除x对y的影响后y的变异程度,y对于回归直线的离散程度
Sy·x度量了实际散点远离回归直线的离散程度,反映了模型的可靠性,越小模型越好
β1假设检验
β1=0的t检验
通过前述回归系数的概念可知,β1是一个“平均变化”,即自变量变化一个单位时,y的相应两个条件总体均数之差,是一个均数的概念。故对β1是否不为0的假设检验,可以将b1视为一个均数进行t检验来判断:
关注其自由度
结论:当拒绝H0时,回归方程有统计学意义
回归系数的方差分析
1、对总体回归系数的假设检验也可以利用与前述组间总体均数比较的方差分析思想来解决。
2、下图给出了两均数比较的分布示意图。
若也用回归来描述,横坐标的分组变量x取值假设为1和2。结果变量的总体均数表示为μ,两组均数分别表示为μ1和μ2。不难看出,此时两组结果变量均数之差恰好就是回归方程中的参数β1,对于β1是否不为0方差分析恰好就是两组均数是否不等的假设检验。
μ2-μ1=β1(x2-x1),则β1是否为0=(μ2-μ1)是否为0
完全随机设计的数据是可以和直线回归对应起来的,不同的处理组相当于不同的x,不同处理组对应的观测值相当于不同处理组下y的分布。基本要求也是也要的,要求y相互独立、正态、方差齐
3、由此可见,均数比较问题和回归问题都是基于条件均数的分布,回归中的个体观测值独立性、方差齐性、条件均数的线性假设和均数比较问题是一致的,对离均差平方和与自由度的分解也是相同的,只是具体操作和计算有所不同。
4、理解回归系数假设检验中方差分析的基本思想,需要分解反应变量y的离均差平方和与自由度。如下图:
5、方差分析
(1)在图中,任意一点a(x,y)的纵坐标被回归直线与均数截成三段,其。由于点a是散点图中任取的一点,若将全部数据点都按上法处理,并将等式两端平方后再求和(可以证明,下式等号右端两项中括号部分的乘积和等于0),则有:
(2)上式也可以表示为: 
称为总离均差平方。既不考虑y与x的回归关系时y的总变异。
称为回归平方。在中,由于无论回归关系如何,特定样本的均数不变,故此部分变异是由于的不同造成的,而不同正是由于两变量的回归关系引起的。因此反映了在y的总变异中可以用y与x的回归关系所解释的部分,也即y的总变异中由于y与x的回归关系而使y的总变异减少的部分。越大,说明回归效果越好。
即我们可以用回归方程预测的
称为残差平方和。他反映了除x对y的回归关系影响之外的所有一切因素对y的变异的作用,也即在总平方和中无法用回归关系解释的部分,表示考虑回归关系之后y的变异。在散点图中,各实测点离回归直线越近,越小,说明直线回归的拟合越好
(3)与组间均数比较的方差分析进行对比可见,在对反应变量的平方和分解中,回归只是用条件均数代替了均数比较中各组的组均数,而这两者的意义都是条件均数,故而在思想上两者平方和的分解是一样的。
(4)回归中上述3个离均差平方和相应的自由度之间的关系为: 
与组间均数比较的方差分析对比,两个检验的总自由度都是n-1(y的自由取值个数n减去这1个参数个数)
回归的自由度是其平方和中所含参数个数的差值决定的。对应其中前一项所含的β0和β1,减去对应后一项中一个参数,所以自由度为1
残差自由度因其平方和中暗含β0和β1两个参数,故其自由度为n-2
(5)由离均差平方和及其自由度的分解可见,当β1接近于0时,更可能出现较小的和较大的;而当β1远离0时,更可能得到较大的和较小的。故相对于随机误差而言,回归所解释的变异越大,越有理由认为β1≠0.
(6)或者可认为不考虑回归时,随机误差是y的总变异,而考虑回归后,扣除回归的贡献使随机误差减小为。如果两变量间总体回归关系确实存在,回归的贡献应大于随机误差,大到何种程度时可以认为具有统计学意义,可根据和的关系构造F统计量:
其中:MS为均方,在H0:β1=0的假设下,统计量F服从v回,v残的F分布
(7)实际计算时,可以利用下式直接求得。
b1代表y的变异
lxx代表的是x的总变异
(8)在直线回归中,对同一数据做总体回归系数β1是否不为0 的假设检验,方差分析和t检验是一致的:
它们有相同的自由度、应用条件
当v=1时
假设检验结论:当拒绝H0时,回归方程有统计学意义,可以认为两变量间有直线回归关系
直线回归分析的应用
反应变量平均值的置信区间
回归直线的置信带
1、给定数值,由样本回归方程算出的只是条件总体均数的一个点估计值。由于存在抽样误差,会因样本而异,反映其抽样误差大小的标准误可按下式计算:
x确定时
2、其条件总体均数的双侧(1-α)置信区间的计算公式为:
注意自由度
3、用同样的方式,可计算出所有x对应y的总体均数95%置信区间。以x为横坐标,y为纵坐标,将自信期间的上下限分别连起来形成两条弧线间的区域,称为回归直线的置信带。
4、两条性质
当,反应变量总体均数的标准误达到最小值,其对应的置信带最窄。离越远,其标准误越大,对应的置信带越宽。
样本量越大,对应的反应变量总体均数的标准误也越小,置信区间带越窄
反应变量个体值的预测区间
1、利用回归方程进行统计预测,就是将解释变量带入回归方程中,对反应变量的个体值进行估计。给定数值对应的个体y也存在一个波动范围,其标准差可按下式计算:
与置信区间的不同在于标准误的不同
置信区间
均值的标准误
个体观测值的预测区间
残差的标准误+均值的标准误
样本量对其影响比较小,且变异比较小,两条线接近于平行
2、因此,时个体y值得双侧(1-α)预测区间为:
3、值得注意的是,当时,其条件总体均数的置信区间与个体y值的预测区间含义是不同的:
前者表示在固定的处,反复抽样100次,可算出100个相应y的总体均数的置信区间,在概率意义上平均而言,有100×(1-α)个置信区间包含总体均数;
总体均数是否在这个范围之内→对应置信区间的概念
而后者表示个体值的取值范围,即在固定的处,随机抽取100个个体。平均有100×(1-α)个个体值在求出的范围内。(对应正态分布的应用——可以提供参考值范围)
当x=xp时对应的y的参考值范围→对应医学参考值的范围
4、用同样的方法,可计算出所有x值对应的y值的95%预测区间,以x为横坐标,y为纵坐标,将预测区间的上下限分别连起来形成的两条弧形线间的区域,称为y的预测带。
5、同一x值下,个体y值得预测区间要宽于条件平均值的可信区间
应用条件
概述
1、类似于单变量情形。在小样本时,直线回归涉及的统计推断问题都基于F分布。
2、统计模型是基于一系列假设条件下对客观现象的抽象化表示,独立、正态分布、方差齐的若干解释变量的条件均数恰好在一条直线上要是直线回归模型的基本假设。实际数据是否满足这些假设可以用统计学方法进行判断。但较为简单直观的方法是观察原始数据散点图和各种残差图。
3、如果实际数据在不满足应用条件的情况下进行直线回归分析,将影响回归系数估计的精度与假设检验的P值,甚至可能得到专业上无法解释的结论。
条件
反应变量与解释变量之间呈直线关系
各观测值相互独立
解释变量固定时所对应反应变量服从条件正态分布
不同解释变量取之下反应变量的条件方差相等,即方差齐。
方差分析的应用条件
第十二章 生存分析
概述
生存数据
在医学研究中,研究者有时除了考虑某事件发生与否,还需考虑发生该结局所经历的时间长短,此时数据兼有时间和结局两种属性,被称为生存数据。
兼具时间+结局两种属性
可能含有删失数据
生存时间分布非正态——非负、右偏
生存分析
这种将事件的出现与否和到达终点所经历的时间结合起来分析的一类统计方方法称为生存分析。
事件的出现与否+经历时间
可处理删失数据
可处理生存时间非正态的问题
本章逻辑
生存分析 (时间+结局)
因变量为:生存时间和生存结局
基本概念与主要内容:生存率、中位生存时间
生存曲线的估计:K-M法(乘积极限法)、寿命表法
统计描述
生存曲线的比较
生存曲线是否相同:对数秩检验
生存状况优劣对比:
生存曲线目测判断
半数生存期比较
相对危险度比较
统计推断
基本概念
终点事件=失效事件=死亡事件
1、是一个广义概念,泛指标志某种处理措施失败或失效的特征事件。
2、一般是在设计阶段根据研究目的来确定。如:
肾上腺皮质癌患者手术后的死亡
白血病患者化疗后的复发
肾移植患者的肾衰竭
接受健康教育戒烟后的青少年复吸烟
接受某种健康保险方式后的中途退保
3、研究者所关心的研究对象的特定结局,如复发、死亡等
生存时间(T)
1、是指从观察起点到终点事件的时间间隔。
2、与生存时间相关的要素:
整个研究过程中保持不变
观察起点(起点事件)
观察终点(终点事件)
时间间隔的度量
3、观察对象的观察起点的设置有两种:
(1)所有观察对象在同一时间点接受治疗
最理想
(2)观察对象在不同时间点接受治疗→更常见
完全数据-删失数据
数据的分类
完全数据
完全数据:在整个研究过程中,随访到了观察对象的终点事件发生的时间,研究者可以获得从起点到终点完整的生存时间,这样的数据称为完全数据。→完全数据提供的是准确的生存时间。
删失数据
删失数据=截尾数据:在整个研究过程中无法确切获得生存时间的数据。
删失数据产生的原因:
失访:由于患者变更联系方式、未继续就诊或拒绝访问等原因,无法继续随访,未能观察到终点事件。
退出:患者死于其他疾病或因其他原因死亡(如死于车祸)而终止观察。
终止:研究结束时,终点事件尚未发生。
无论产生删失数据原因是什么,这类患者的生存时间均定义为从随访开始到发生删失事件所经历的的时间间隔。常在删失数据的右上角标记“+”,表示真实的生存时间长于观察到的时间但是未知。
本章假定删失的发生是随机的,即产生删失的原因与终点事件的发生无关。
生存时间数据的分布特点
根据研究选择相应的度量单位,如年、月、日等
生存时间数据是通过随访收集获得,且往往存在删失数据
非正态分布
因研究不同,生存时间常呈指数分布、Weibull分布、对数正态分布、对数logistic分布、Gamma分布或更为复杂的其他分布。因此需要与之对应的统计方法来分析这类特殊的数据。
生存概率-生存率
死亡概率(q):指某时段开始时存活的个体,在该时段内死亡的可能性。如年死亡概率表示年初尚存人口在今后一年内死亡的可能性。
生存概率(p):某时段开始时存活的个体,到该时段结束时仍然存活的可能性。如年生存概率表示年初尚存人口存活满一年的可能性。显然p=1-q
生存率=累积生存率=生存函数:表示观察对象的生存时间T大于时间t的概率,常用S(t)表示,即S(t)=Pr(T>t)。
生存函数-生存曲线
生存函数
根据生存函数定义,其可用样本数据中生存时间大于t的患者与总患者数的比例来估计。若数据中无删失值,生存函数可用下式估计:
(如数据中有删失值,则还需一些额外的概念辅助计算生存函数,包括死亡概率。)
对于不同单位时间的生存概率pi(i=1,2,3,…,tk),可利用概率乘法原理将pi相乘得到tk时刻生存函数(亦称生存率),即:
生存函数是一个随时间下降的函数
t=0时,生存函数值为1,表示每个患者在接受治疗前处于存活状态。
当t趋于无穷大时,生存函数值趋于0,表示每位患者的生存时间是有限的。
与生存概率的关系:生存概率是单位时间上生存的可能性。生存率是某个时间段(有一个或多个单位时间组成的时间段)生存的可能性,即数个单位时间生存概率的累积结果。如评价肿瘤治疗后3年生存率,是指第1年存活,第2年也存活,直至第3年仍存活的累积概率,而这3年间每1年有不同的生存概率。其关系可用下图标表示:
条件概率的乘法法则
生存曲线:除了计算各时间点的生存率之外,我们还可以使用图示法更为直观地描述生存率随生存时间而变化的过程。以ti为横坐标,各时间点S(ti)为纵坐标,将各个时间点的生存率连接在一起绘制成的连续曲线,称为生存曲线
是用样本画出来的曲线
中位生存时间
中位生存时间:生存函数取值为0.5时对应的生存时间称为中位生存时间。又称中位生存期或半数生存期。本书记为T50,即S(T50)=0.5。它表示50%的个体可以存活到比T50更长时间,通常用于描述生存期的平均水平。
对应的是中位数的概念,数据非正态因此不能用均数来描述
主要内容
描述生存时间的分布特点
通过生存时间和生存结局的数据估计平均存活时间及生存率,绘制生存曲线,根据生存曲线分析其生存特点等。可提供预期治疗价值评估信息
比较生存曲线
通过相应的假设检验方法对不同样本的生存曲线进行比较,以推断各总体的生存状况是否存在差异,比较不同治疗方法预后效果的差异。
分析影响生存状况的因素
通过生存分析模型来探讨影响生存状况的因素,通常以生存时间和结局作为因变量,而将可能的影响因素作为自变量,通过拟合生存分析模型筛选具有统计学意义的生存状况的影响因素。(见第十三章第三节)
生存曲线的估计
用频率去估计概率
概述
1、对于随访资料生存曲线的估计,既可以采用参数法,亦可采用非参数法。
2、如果资料确实服从某种特定的参数分布,参数法法分析对资料内在的特点和规律的表达更为准确。
3、但在医学研究中,大多数生存资料分布是不规则,不确定或未知的,因此,非参数法在生存率的估计中应用更为广泛。常用的有Kaplan-Meier法和寿命表法
方法
Kaplan-Meier法
又称乘积极限法,简称K-M法
适用
用于观察对象数量较少的未分组资料,他能够充分利用每条记录的信息,估计不同生存时间点的生存率。
基本思想
将所有观察对象的生存时间(包括删失数据)由从小到大依次排列,每个时间点进行死亡概率,生存概率和生存率的估计。
生存率及其标准误的计算
图示
计算
1、编号和排序:将生存时间t从小到大排序并编号i,i=1,2,3,…,k。相同的生存时间只取其中一个参加排序;完全数据与删失数据相同时,分别列出,完全数据列在删失数据前面。(如上图中的序号4和序号5)
2、列出各时间点的死亡例数()和删失例数()
注意:删失数据用“+”标注
3、计算期初人数():每一个时间点之前观察到的生存例数,即为期初例数:
期初例数要记得减去删失例数
4、计算各时间点的死亡概率和生存概率():
计算死亡概率时只计算真实的死亡例数,不认为删失数据是死亡
、
(所有删失时间点上的为0,为1)
5、计算各时间点生存率:生存率=上一行的生存率×该行的生存概率。注意:删失数据所对应的死亡例数是0,其生存概率为1,所以删失数据对应时间点的生存率与前一个完全数据时间点的生存率相同。
6、计算生存率的标准误:由于生存率时根据样本资料计算的,存在抽样误差,我们需进一步求得各时间点生存率的标准误,其近似计算公式为:
中位生存时间和生存曲线
中位生存时间的计算
如果样本生存率中有S(ti)=0.5,则中位生存时间T50=ti
插值法
tips:即按比例来算(即一条有斜率的直线的计算方法)
生存曲线
图示
删失数据要标记
删失数据对生存率是没有影响的
特点
1、以生存时间为横坐标,各时间点的生存率为纵坐标,将各个时间点的生存率连接在一起绘制成连续型的曲线称之为生存曲线。
2、未分组资料的生存曲线。称K-M曲线
3、它以水平横线的长短代表一个时点到下一个时点的距离,相邻两个时间点之间的生存率不变,但在右端点处死亡概率即刻改变,生存率降低。
左闭右开区间
4、K-M生存曲线呈阶梯形。随着生存时间的增加,曲线呈下降趋势。如果曲线阶梯陡峭,表现为下降速度快,往往生存期较短。随着时间点的增多,曲线阶梯形不明显
生存率的95%置信区间
求出样本各时点生存率及其标准误后,可用正态近似原理估计某时点总体生存率的置信区间:
固定时点(消除了时间的影响),样本量足够大的时候,生存率是服从近似正态分布的(与总体的率相似)。有时间因素的生存曲线是非正态的
寿命表法
适用
1、样本量较大的随访资料,样本例数较多时的生存资料
2、一般情况下,我们将原始资料按照生存时间分组后再进行分析。此外,许多研究的随访时间是1次/年或1次/月,某些个体的删失发生在两次随访之间,有时不能获得确切生存时间。
3、实际上,寿命表法可以看成是K-M法的一种近似(频数表法)
生存率及其标准误的计算
图示
计算
1、确定分组区间:根据随访时间的长短以及观察例数的多少确定组数和区间宽度。一般每个区间为等宽的半开半闭区间,最后一个区间终点在无穷大处。
2、计算期内死亡数、期内删失数和期初观察人数:同K-M法的计算
3、计算期初校正人数:由于在区间内的删失个体并未观察至区间的终点,区间内的有效人数不是,我们假定个删失个体在该区间内均匀分布,平均每个删失个体观察到半个区间的时间,那么校正人数为:
关注删失数据的处理
4、死亡概率和生存概率的计算:
5、计算生存率
6、计算生存率标准误:
7、可按正态近似原理对总体生存率的置信区间作出估计
8、各时间区间对应的生存率是该区间上限时间点的生存率,如[16,18)生存时间区间的生存率是0.5141,指的是煤工尘肺患者确诊后预测其活过18年的生存率是51.41%,而不是活过16年的生存率。
中位生存时间和生存曲线
中位生存时间的计算
与K-M法一致
如果样本生存率中有S(ti)=0.5,则半数生存期T50等于其区间的上限时间
插值法
生存曲线
图示
特点
1、寿命表法估计生存率可以绘制成连续的折线型生存曲线
2、该曲线为右连续,即寿命表法估计的是时间区间右端点的生存率
3、由于寿命表法一般用于大样本资料,通常在最后一个时间区间仍会有较多的观察例数,故曲线尾部稳定性较K-M法好。
两种生存曲线估计方法的对比
K-M法估计的曲线图为——阶梯型下降
失效事件的发生是确切的,两个相邻的失效时间所构成的时间段内没有发生失效事件,即生存率为1
生存率估计是各个时间段生存概率的乘积
因此两个相邻的失效事件所构成的时间段内生存率没有发生变化,直到下一失效事件的发生而生存率下降
寿命表法估计的曲线图为——折线下降
寿命表法没有确切的死亡时间和失访时间
假定在每个时间段中“死亡发生时间”和“失访发生时间”呈均匀分布
因此在每个时间段中的生存率呈线性变化,故各个组段间生存率用直线连接
生存曲线的比较
概述
1、随访研究中,人们往往关心随访观察的结果和发生结果所经历的时间,我们能够估计出样本的生存率,中位生存时间以及绘制生存曲线,这仅仅是对样本中个体的生存率随生存时间的变化过程的统计描述。
2、有时候我们更关心的是不同样本所代表的总体的生存情况是否存在差异。如评价不同辅助治疗方案的优劣。
3、对数秩检验是比较多组生存曲线的一种常用的非参数检验方法。
对数秩检验(log-rank test)
基本思想
与卡方检验类似
1、假定拟进行比较的不同总体生存函数无差别
2、根据不同生存时间的期初观察人数和理论死亡概率,计算两个或多个比较组的理论死亡数,并与实际观察到的死亡数进行比较。
3、衡量观察数与理论数差别大小的统计量为值,服从自由度为(组数-1)的分布,其检验统计量的计算见式:
统计检验步骤
(样本量较小时为例)
1、采用K-M法估计出两组样本的生存率,绘制生存曲线(直观观察)
2、建立检验假设,确定检验水准。
3、计算检验统计量:
(1)按生存时间将各组资料统一排序
(2)各时间点各组的期初病例数,死亡数和删失数
(3)分别计算辅助化疗组和单纯手术组各时点的理论死亡数
假设两组的生存率是相同的,类似卡方检验
(4)计算统计量
4、确定P值,作出推断
v=组数-1
注意
上述介绍的是log-rank检验的近似法,计算较简便,但结果相比于精确法(软件)较保守
对数秩检验是单因素分析方法,多因素分析用Cox回归分析
其假设检验的基本思想与卡方检验相同,但卡方统计量的计算方式有所不同
卡方检验用于两个或多个总体率(构成比)的比较,不考虑每个研究对象生存时间的长短
Log-rank检验对生存率进行比较时,要求两组生存曲线不能交叉
进一步比较那一组的生存状况更佳
生存状况优劣的比较方法
1、生存曲线目测判断
2、半数生存期比较
3、相对危险度RR比较
相对危险度是因素效应指标,可以反映某因素作用的相对大小,其计算方法为:
式中,A和T为各组全部的观察死亡数和理论死亡数
4、比较某个时间点的两组样本的生存率是否相同
Log-rank检验比较的是总体生存率曲线是否相同,而不是某个时间点处的生存率差异
按照两个率的正态近似法进行分析:
生存曲线的log-rank检验图
第十三章 多重回归分析简介
概述
1、公共卫生和医学研究常常分析健康结局的影响因素,由于生命现象的复杂性,往往需要同时考虑多个因素(即多个解释变量)对结局指标(即反应变量)的影响。
2、如何从诸多的影响因素中,筛选出有统计学意义的变量,并估计某解释变量在其他解释变量同时存在时对反应变量的作用,这是公共卫生和医学研究的重要任务。
本章逻辑
直线回归分析 (单个解释变量)
多重回归分析 (多个解释变量)
多重线性回归:反应变量为定量变量(正态)
偏回归系数βi
Logistic回归:反应变量为分类变量
优势比OR
Cox回归:反应变量为风险函数,即多因素的生存分析
风险比RR
多重线性回归
概述
1、多重线性回归是研究一个连续型反应变量和多个解释变量间线性关系的统计学分析方法。
2、利用多重线性回归可以解决的问题是:
某个解释变量对反应变量是否有作用及每个解释变量对反应变量作用的大小
反应变量与所有解释变量之间的关系有多强
结合专业知识确定某个解释变量是否为混杂因素等
模型
1、多重线性回归分析的基本目的是用若干解释变量x1,x2,…,xp的数值估计反应变量y的平均水平。其数学模型如下:
μy表示模型中解释变量取值固定时反应变量y的总体均数
p为解释变量个数
β0为常数项
为解释变量的偏回归系数
2、偏回归系数:为解释变量的偏回归系数,表示当方程中其他解释变量保持不变时,解释变量变化一个单位,反应变量y平均变化个单位,的符号也可用于判断解释变量对反应变量影响的方向。
3、由样本估计得到的多重线性回归方程如下:
是反应变量y总体均数的估计值
bj是βj的估计值
4、因为p个解释变量都具有各自的计量单位以及不同的变异程度,所以不能直接利用偏回归系数的数值大小比较方程中各个解释变量对反应变量y影响大小,为此,可首先将原始观测数据进行标准化,即
解释变量的标准化
5、 然后用标准化的数据拟合回归模型,此时得到的回归系数称为标准化偏回归系数。标准化偏回归系数绝对值越大的解释变量在数值上对反应变量y的影响越大。标准化偏回归系数与普通偏回归系数 的关系式为:
偏回归系数的标准化
参数估计及假设检验
参数估计
1、多重线性回归采用最小二乘法估计未知参数,即使得反应变量的观测值y和估计值之间的残差平方和取最小值时的b作为相应β的估计值
2、当模型只有一个解释变量时,回归的结果为二维平面上在解释变量取值范围内的一条线段;而有两个解释变量时,回归的结果为解释变量取值范围内的三维空间的一个平面;有更多解释变量时,回归的结果则是在三维以上空间的超平面,无法用图形直观表达
3、最小二乘法的含义就是使得各点与回归平面的竖直距离(以反应变量观测值与估计值的差值平方表示)合计达到最小,合计最小也就对应于平均最小,所以利用最小二乘法就可以直观上找到与数据点平均距离最近接近的拟合模型
4、虽然多重回归参数估计的原理和方法与简单回归分析相同,但是随着解释变量个数的增加,其计算量变得相当大,需要利用统计软件来完成。
假设检验
回归模型的方差分析
回归方程是否有统计学意义
背景
1、计算获得回归系数的样本估计值之后,需要进一步检验是否可以拒绝H0:β1=β2=β3=……=0,以确定回归方程是否有统计学意义。
2、多重回归的统计推断具有与简单线性回归相同的前提条件,即线性、独立、正态和等方差。也就是说当反应变量表达成式如下时,各误差项均服从互相独立、方差相等、均数为0的条件正态分布。
3、需要注意的是,上述正态分布的要求,以解释变量取固定值为条件,而不是指整个反应变量的边际分布,所以上述的前提条件在进行回归分析之前难以检验,通常是在对既定回归模型分析之后通过对残差的回归诊断来判断是否符合前提条件。
4、在以上假设条件下,多重回归的假设检验通常采用方差分析。
方差分析
多重线性回归方差分析的各部分变异来源的含义和简单线性回归相同
SS总表示没有考虑x对y的影响时,y的观测值的总变异
自由度:n-1
SS回是回归模型对总变异的贡献,自由度等于解释变量个数。
自由度:m
SS残是回归关系未能解释y的变异部分
自由度:n-m-1
与直线回归模型(第十一章)的变异分解是一致的,唯一不同的是SS回归的自由度有变化
偏回归系数的t检验
判断某个解释变量在数据中是否有作用
1、在回归方程具有统计学意义的情况下,检验某个总体偏回归系数是否等于零,以判断某个解释变量在数据中是否有作用。
2、如欲检验:H0:βj=0,H1:βj≠0,类似于简单线性回归的情形,其检验统计量为:
(分母为第j个偏回归系数的标准误)
3、若在三个变量中,x1和x2的偏回归系数具有统计学意义,x3的偏回归系数无统计学意义,那么其意义是:在考虑x3的前提下,x1和x2对y有作用。标准化偏回归系数提示每个解释变量对反应变量作用的大小
决定系数r²
1、和简单直线回归一样,回归平方和在总平方和中所占百分比称为决定系数,记作
2、决定系数取值范围为0≤≤1,越接近1,表示所选用的线性回归模型很好的拟合了当前的样本数据。
3、基于决定系数对回归方程进行拟合优度的假设检验等价于对回归方程的方差分析。
(p为回归模型中解释变量的个数,n为样本含量)
4、决定系数的平方根称为复相关系数,表示变量y与p个解释变量线性相关程度。可以证明,复相关系数也等于y与其回归估计值的简单相关系数。
复相关系数不能表示方向,可以用βj或标准化的偏回归系数来表示方向
注意区分相关系数r:表示两个变量之间线性关系的方向和密切程度
解释变量的筛选
背景
1、多重回归方程中,p个解释变量是研究者预先确定的
有时所拟合方程经假设检验不成立
或者虽然方程成立,但方程中有些变量经检验无统计学意义
或者希望从众多变量中挑选出对反应变量有统计学意义的解释变量。
2、这些都需要通过对解释变量的筛选,建立“最优回归方程”。
3、最优回归方程
(1)对反应变量y有统计学意义的解释变量,全部入选回归方程。
(2)对反应变量y无统计学意义的解释变量,都未入选方程。
方法
1、最优自己回归法
就是在全部解释变量所有可能组合的子集回归方程中,挑选最优者。这样所选结果最优,但计算量极大。需要计算2^p-1次
2、向后剔除法
先建立一个包含全部解释变量的回归方程,然后按照某种规则(如P值最大且无统计学意义)每次剔除一个解释变量,直至不能剔除时为止。
3、向前引入法
回归方程按照某种规则(如P值最小且有统计学意义)每次引入一个解释变量,由少到多,直到无可引入的解释变量为止。
4、逐步筛选法
取上述的第二第三两种方法的优点,在向前引入每一个新解释变量之后,都重新检验前面已选入的解释变量有无继续保留方程中的价值。引入和剔除交替进行,直到既没有具有统计学意义的新变量可引入,也无失去其统计学意义的解释变量可剔出方程为止
用途及注意事项
用途
影响因素分析
变量筛选、偏回归系数、标准偏回归系数的对应的用途
1、多重线性回归在医学科研中主要用于观察性研究,适用于反应变量为连续型定量变量的情形
2、通过对每个变量的偏回归系数的检验及变量的筛选,可以获得影响反应变量所有的因素。
3、校正或平衡其他因素后,可以对某单个因素的作用进行解释。
4、利用偏回归系数可以得到每个因素的作用大小及方向
5、利用标准偏回归系数可以比较各因素对反应变量相对贡献的大小。
估计与预测
1、估计与预测是回归方程的重要用途之一,基于建立的最优回归方程,确定各解释变量和反应变量的数量关系,根据较易测得的解释变量来推算不易测得的反应变量。
2、回归方程得到的值是对应于一组给定解释变量x观测值时的y的均值,据此可以估计置信区间和个体值预测区间。
3、反应变量平均值的置信区间比个体值的预测区间更窄,实际指导意义更大。
注意事项
多重共线性问题
1、多重共线性是对多个解释变量进行回归分析时的可能普遍存在的一个问题。
2、若解释变量之间高度相关,则可能产生多重共线性
3、例如:有两个预测人体高度的变量,变量x1和变量x2均为体重,前者的单位为千克,后者的单位为克,显然,x1和x2的相关系数为1,这意味着两个预测变量实际上是1个变量,它们为预测身高y的回归方程都提供相同的预测信息,这种现象就称为解释变量的共线性。
xi与xj之间有线性关系,如x1=ax2
4、共线性的存在使得我们无法真实的判断这两个变量对反应变量的预测能力。
5、在实际的回归应用中,共线性的问题并不少见。当一个分析中存在很多解释变量时,很难一眼发现变量间的共线性,需要用专门的统计量来分析判断,具体方法可参考相关文献。
6、共线性对回归的影响:
回归系数的抽样误差即标准误增大,使得有统计学意义的变量变得无意
使回归系数估计值大小发生改变,甚至使符号发生改变
7、利用逐步筛选方法筛选解释变量,可在一定程度上避免多重共线性问题。
解释变量间的交互作用
1、当一个回归模型中至少有2个解释变量时,变量间即可能存在交互效应。
2、若x1反应变量平均水平的效应不依赖于x2的水平,而且相应地x2的效应也不依赖于x1的水平,则两个解释变量之间无交互效应或相加效应。
3、多重线性回归模型的一般表达式为解释变量之间无交互作用形式。
4、若一个解释变量的效应依赖于另一个解释变量的水平,即一个解释变量与反应变量的关系随着另一个解释变量取值的改变而改变,则称这两个解释变量间存在交互作用,回归模型表示为:
βi与xj之间有关系
5、考察两个解释变量是否存在互作用的最直接方法就是在回归模型中引入可能存在交互作用的两个解释变量的乘积项,有时称为linear-by-linear交互作用项,然后检验该乘积项是否有统计学意义。
6、应注意,引入变量间交互作用时,各变量的主效应必须纳入模型中。
通径分析
1、多重回归分析的主要目的是解决用多个解释变量对一个连续型反应变量进行预测的问题。
2、但是当解释变量个数较多时,相互间的关系变得十分复杂。而且有些解释变量并不是直接影响反应变量,而是通过对其他解释变量的作用间接影响反应变量。处理这种具有较为复杂变量关系的统计学方法可以选择通径分析。
应用条件
与直线回归模型类似
反应变量为定量变量,且满足以下条件(LINE)
Y与X1、X2、……、Xm之间具有线性关系(Linear)
各例观测值Yi(i=1,2,……,n)相互独立(Independence)
残差ei~N(0,σ²),即正态性(Normal distribution)
var(ei)=σ²5,即方差齐性。(Equal variance)
都是针对y的要求
若反应变量为分类变量,且解释变量与反应变量不呈线性关系时,则不能用多重线性回归模型。可用其他多重回归模型,如logistic回归模型
logistic回归
概述
1、多重线性回归模型要求反应变量是连续型的正态分布变量,且解释变量与反应变量呈线性关系
2、当反应变量是分类变量,且解释变量与反应变量不成线性关系时,就不能满足多重线性回归模型的适用条件。此时,处理该类数据常用logistic回归模型
3、logistic回归分析是研究二分类或多分类反应变量与某些影响因素之间关系的一种多重回归分析方法。
4、在疾病的病因学研究中,经常需要分析疾病的发生与各危险因素之间的定量关系。比如,研究食管癌的发生与吸烟,饮酒,不良饮食习惯等危险因素的关系。如果采用多重线性回归分析,由于反应变量为二分类变量,不满足正态分布和方差齐等应用条件,若强行使用线性回归分析,其预测值可能会大于1或小于0而无法解释。
5、在流行病学研究中,虽然可以用Mantel-Haenszel分层分析方法分析多个因素的混杂作用。但这种经典方法有其局限性,随着混杂因素的增多,分层越来越细,致使每层内的据越来越少,使相对危险度的估计产生困难。logistic回归模型很好地解决了上述问题
模型
二分类变量logistic回归
基本形式
1、logistic回归模型的反应变量y为二分类变量,通常编码为0,1,以y=1代表研究者关注的结局,以y=0代表与之对立或相反的结局。假设对反应变量y可能的影响因素(即解释变量)有p个,记为x1,x2,…,xp。在p个解释变量作用下,y=1发生的概率记为π,y=0的概率记为1-π。
2、欲建立π与x1,x2,…,xp回归关系,因π为概率,其取值区间为[0,1],而x1~xp的线性组合(β0+β1x1+β2x2+…+βpxp)取值区间在(-∞,∞)间变化,两者难以对等起来。因此,对π做logit变换:
3、经logit变换后的logit(π)的取值区间转换为(-∞,∞),可以与影响因素的线性组合的取值区间对等。时可建立下面方程:
logistic回归的本质其实就是经过数据转换后的多重线性回归的表达
(β0为常数项,β1~βp为logistic回归系数)
4、经代数转换,上述模型还可以表达为:
exp表示以e为底的指数,上式可用来估计或预测当β1~βp取某一组确定数值时,y=1的概率π以及y=0的概率1-π。
logistic回归系数的统计学意义
1、将logit(π)视为一个整体,回归系数的解释类似多重线性回归,回归系数βi为:其他解释变量保持不变时,解释变量xi每改变一个单位,logit(π)平均改变量
2、logistic回归模型的回归系数具有特殊含义,其解释变量可以流行病学中的优势比(OR)联系起来,因而得到了更广泛的应用。
3、事件A出现的概率与非事件A()概率之比称为优势(odds):,因此logistic回归模型亦可表达为:
4、两个优势之比为OR,又称比值比,它可以反映流行病学的暴露与结局的关联强度。因此,logistic回归系数可以解释为:
其他解释变量不变时,暴露于某影响因素xi,相对于非暴露遇该影响因素的OR值的自然对数;
或者调整(控制)其他解释变量的影响后,解释变量xi每增加一个单位,得到的优势比的自然对数。
当解释变量仅有两个取值0和1,通常定义某影响因素的暴露为1,非暴露为0
关联性
当β=0时,OR=1,暴露与结局间不存在关联。
当β≠0,OR≠1,暴露与结局间存在关联。
研究中
当解释变量xi的回归系数βi>0时,ORi>1,提示xi为危险因素(增加结局发生的风险)
βi<0时,ORi<1,提示xi为保护因素(降低结局发生的风险。)
与多重线性回归的偏回归系数的解释是一样的
参数估计及假设检验
参数估计
1、logistic回归模型中的回归参数,需要通过样本数据进行估计,通常采用极大似然估计(MLE)
2、极大似然估计的基本思想是,求解出得到样本结局的可能性最大的b0,b1,…,bp值,样本自然函数为:
(L表示自然函数,表示连乘,πi表示第i例观察对象处于相应暴露条件下时阳性结果(yi=1)发生的概率。对自然函数取对数后,用Newton-Raphson迭代方法得出参数估计值及其标准误。
OR值的估计与解释
当然的样本含量n较大时,βi的抽样分布近似服从正态分布,优势比ORi的100(1-α)%置信区间为:
假设检验
了解
logistic回归模型的假设检验
1、检验模型中所有解释变量的线性组合是否与logit(π)或所研究事件的对数优势比存在线性关系。
2、检验的方法有似然比检验,计分检验(score检验)和Wald检验,所有的检验结果均可利用统计软件获得。
3、(这里介绍常用的似然比检验)检验假设为:H0:β1=β2=……=βp=0,即所有解释变量的偏回归系数均为0。似然比检验统计量G为:
【L1为包含所有解释变量的似然函数。L0为仅包含常数项的似然函数,G统计量服从自由度为m(解释变量的个数)的卡方分布。】
logistic回归系数的假设检验
1、除了对logistic回归模型整体的检验外,还须对模型中的每一个解释变量的回归系数进行检验,判断每一个解释变量是否对模型有贡献。
2、常用的检验方法为Wald检验,检验统计量Wald服从自由度为1的卡方分布,计算公式为:
用途及注意事项
用途
与多重线性类似
影响因素分析
1、通过回归系数与优势比,logistic回归模型可以对影响事件结局的因素进行多因素分析,从多个影响因素中筛选出危险或保护因素。
2、在观察性研究中,某一事件结局往往受社会环境、生态环境、个体的生理和心理因素等多方面因素的影响,因素间亦可能存在交互作用。因此,在设计阶段就需要根据研究目的,专业背景等拟定研究假设和关注的主要问题,收集和整理可能有影响的解释变量,按logistic回归分析的基本步骤,采用不同的方法筛选解释变量,剔除无统计学意义的变量,保证模型相对较优,通过回归系数和优势比情况筛选相应的危险因素。
预测
1、logistic回归模型是一个概率型模型,其重要应用就是预测与判别。
2、实际应用是通过假设检验,确定回归模型中解释变量间的关系,并且回归模型具有较好的拟合优度,当给出解释变量数值后可通过建立的logistic回归模型计算某事件发生的概率,对结局做出概率性的预测和判断。
3、对于队列研究,如果模型拟合优度较好,则给定相应解释变量的数值后,可以预测个体发生结局的概率。
4、有时也可根据概率大小判别个体的分类结局。
注意事项
应用条件
1、建立logistic回归模型时,要求研究对象间彼此独立,即个体间具有独立性。
2、但研究个体间存在聚集性特征时,可考虑采用广义估计方程或多水平模型等更复杂的方法进行分析。例如,在大型卫生服务调查中国家卫生服务调查是以家庭为单位的整群抽样研究,同一个家庭中的个体之间受遗传因素,环境因素,饮食习惯等影响不独立,家庭成员的观测指标间存在一定的内部关联性,因此不能采用单水平logistic回归分析。
3、logistic回归模型的数据类型
反应变量可为二分类,无序多分类或有序分类变量。
解释变量可以是任意类型,如定量变量,二分类变量,无序多分类变量和有序分类变量等
4、当反应变量为多分类时,可采用多分类logistic回归分析。
总结
独立
ln(π/1-π)与x有线性
模型的拟合效果评价
1、logistic回归模型的假设检验只回答模型及回归系数是否具有统计学意义,不能说明模型的拟合效果。
2、评价建立的logistic回归模型的拟合效果,既评价模型预测值和观测值的一致性,需要进行拟合优度检验。
3、常用评价模型拟合优度的指标主要有、偏差统计量等
4、对于含有连续型解释变量的logistic回归模型,应进行H-L拟合优度检验
Cox回归
针对生存分析的多重线性回归
概述
1、第12章生存分析介绍了针对生存数据的几种分析方法,但仅用于单因素分析。
2、但在公共卫生和医学研究中,观察对象生时间长短往往受到多个因素的影响。例如,研究肿瘤患者生存时间与治疗措施的关系,患者生存时间不仅与治疗措施有关,还受病人的年龄,病情,心理,环境等因素的影响。由于生存数据的分布往往不服从正态分布(大多为正偏态分布),有时甚至不知道它的分布类型,这就不能采用多重线性回归方法进行分析。本节介绍的Cox比例风险回归模型,可以分析多个因素对生存时间的影响,而且允许有删失数据的存在,这是生存分析中最重要的多因素分析方法。
3、风险函数h(t,x)与生存函数S(t,x)之间是一一对应的,可以相互转换。生存函数难以用回归模型分析,因此常用风险函数进行分析
生存分析是以生存结局和生存时间为反应变量的,不是以生存率为反应变量
模型
基本概念
1、在第12章中,生存函数S(t)定义中未引入解释变量信息,但在现实中,生存时间往往受到若干因素的影响,所以在本章中,我们将研究协变量(解释变量)x与观察结果即生存函数之间的关系,此时生存函数的表达式为S(t,x)。
2、由于生存数据中包含有删失数据,用一般的回归分析难以解决上述问题。因为生存函数难以用回归模型加以分析,我们更倾向于对风险函数进行回归分析。函数是t时刻存活的个体在t时刻的瞬时死亡风险。记为h(t),其描述了某个体的瞬时死亡风险随时间变化的情况。
3、不同特征的人群在不同时刻的风险率函数不同,通常将风险率函数表达为基准风险率函数与相应协变量函数的乘积,即
h(t,x)表示t时刻的风险函数。
h0(t)表示t时刻的基准风险率函数。即t时刻所有的协变量取值为0时的风险率函数。
f(x)为协变量函数
基本形式
1、Cox回归模型的基本形式为:
h(t,x)表示具有协变量x的个体在t时刻的风险率,又称为瞬时死亡率。
协变量与解释变量(自变量)类似
h0(t)为基准风险率,即xp均为0时的风险率
时间的影响
β为解释变量的偏回归系数
解释变量的影响
2、式中右侧可分为两部分:
h0(t)分布无明确的假定,一般也是无法估计的,这是非参数部分。
另一部分是参数部分,其参数是可以通过样本的实际观察值来估计的。
因此回归模型又称为半参数模型。
3、上式可以转换为:
4、因此,Cox回归模型与一般的回归分析不同,协变量对生存时间的影响是通过风险函数和基准风险函数的比值反映的。其中的风险函数和基准函数是未知的。在完成参数估计的情况下,可对基准风险函数和风险函数做出估计。并可计算每一个时刻的生存率。
假定条件
比例风险假定
1、危险因素的作用不随时间的变化而变化。即h(t,x)/h(t)不随时间变化而变化。
2、因此应注意Cox回归模型要求风险函数与基准函数成比例。
对数线性假定
模型中的协变量应与对数风险比成线性关系。
ln[h(t,x)/h0(t)]与xi之间有线性关系
Cox回归模型结果及解释
风险比RR
1、Cox回归模型的风险函数中,为风险比的自然对数,为解释变量的变化量与相应回归系数的线性组合。
2、其中βj实际意义:在其他解释变量不变的条件下,变量xj每增加一个单位所引起的风险比的自然对数。即:
βj越大,表示该因素的作用越强
3、βj的值
当βj>0时,RRj>1,说明xj增加时,风险函数增加,即xi为危险因素
当βj<0时,RRj<1,说明xj增加时,风险函数下降,即xi为保护因素
当βj=0时,RRj=1,说明xj增加时,风险函数不变,即xi为无关因素
预后指数PI
1、Cox回归模型的风险函数中,β1x1+β2x2+…+βpxp为解释变量的变化量与相应回归系数的线性组合,变量的线性组合取值越大。则风险函数h(t,x)越大,越后越差,线性组合的取值称为预后指数。
Cox回归模型中是没有β0这一个常数项的
2、按预后指数的若干分位数将观察对象分成若干组,如低危组,中危组和高危组,对制定合理的治疗方案,正确指导病人的治疗,提高生存率有指导意义。
生存率的估计
可以通过风险函数来求解其生存率
1、具有解释变量x1,x2,……,xp的个体在t时刻的生存率可由下式估计:
2、式中为基准生存率,可采用下式计算:
变量筛选
Cox回归变量筛选方法类似于多重线性回归和logistic回归,主要有向前引入法、向后剔除法和逐步引入-剔除法,检验水准α可0.1或0.15(变量数较少或探索性研究)、0.05或0.01(变量数较多或证实性研究)等
参数估计及假设检验
参数估计
1、Cox回归模型中,回归系数的估计需借助偏似然理论。用极大似然估计方法得到的。
2、该估计的最大优点是:
不需要确定基准风险函数h0(t)的形式就能估计回归系数。
另一特性是估计结果仅与生存时间的排序有关,而不是生存时间的数值大小,这意味着生存时间的单调变换,如对生存时间加一个常数、乘以一个常数或取对数,都不会改变回归系数的估计值。
3、回归系数的估计值bj,相应的标准差Sbj,某一解释变量的RR的95%置信区间估计公式:
4、若解释变量的度量衡单位或数量级不同,可通过标准化回归系数比较各变量的作用大小。
假设检验
回归系数的假设检验方法类似于logistics回归,有似然比检验、Wald检验和score检验,检验统计量均服从卡方分布,自由度为模型中待检验的参数个数(p),上述三种假设检验方法均可用于对总模型的检验。
单个回归系数的检验常采用Wald检验。
用途与注意事项
用途
影响因素分析
1、Cox回归随着解释变量的增加会变得比较复杂,确定与生存状况相关的变量及变量的筛选方法同多重线性回归以及logistic回归一样,既可以筛选有统计学意义的变量,也可以分析变量间的交互作用。
2、Cox回归中影响结局的有些变量值是固定的,如人群性别,但大多数变量的值是随时间变化而变化,Cox回归模型可采取其他方式灵活处理这些依赖于时间的解释变量。
预测
1、Cox回归模型在评估变量(因素)和结局之间的关系以及这些关系的统计学意义时,RR及RR的95%置信区间是这些关系效应大小的估计
2、当给出解释变量数值后,可通过建立的Cox回归模型计算生存曲线,预测个体疾病发生风险。
注意事项
1、Cox模型的基本假设是比例风险假定,只有满足该假定前提下基于此模型的析预测才是可靠有效的。
2、检查某解释变量是否满足比例风险假定,最简单的方法是观察按该变量分组的Kaplan-Meier生存曲线,若生存曲线明显交叉,提示不满足比例风险假定,
3、图形法具有一定的主观性,但由于图形简便、直观,实际中很常用
总结
比例风险假定
对数线性假定
个体具有独立性