导图社区 人卫第8版《卫生统计学》——第七章 《基本情形的参数推断》
这是一篇关于基本情形的参数推断的思维导图,非常重要的一章,是连接前几章基础和后面统计推断的关键!!需要好好地理解。
编辑于2023-01-26 19:51:57 广东社区模板帮助中心,点此进入>>
第七章 基本情形的参数推断
概述
刻画总体分布特征的参数
定量数据
中心位置参数
变异程度参数
分类数据
最基本:某事件的总体发生率
研究内容:两个总体参数之间的定量关系
前提:运用第六章学习的统计推断理论,利用样本数据对以上参数进行统计推断
本章逻辑
1、第六章介绍了在总体标准差σ已知的前提条件下,利用样本均数X-的抽样分布N(μ,σ2/n)进行正态分布总体均数μ的置信区间估计与假设检验
2、当总体标准差σ未知时,我们可通过样本标准差S估计σ,但此时样本均数的抽样分布不再服从正态分布,而是服从t分布
3、t分布是对总体均数μ以及两总体均数之差(μ1-μ2)进行统计推断的理论基础。
4、t分布广泛用于回归系数、相关系数等多种参数的统计推断中
t检验的条件
独立
正态
方差齐(F检验)
方差齐性检验条件
独立
正态
单个总体均数
t分布
t分布是一个近似的z分布,而近似程度用自由度来表示
样本均数的抽样分布、标准正态分布和t分布三者之间的关系
1、如随机变量,经正态分布的标准变换后,统计量(X-μ)/σ服从标准正态分布 N(0,1) 2、从X的总体中进行样本含量为n的多次随机抽样,样本均数这一随机变量服从正态分布,经标砖变换后,统计量服从标砖正态分布 3、实际工作中,当总体标准差σ未知时,常用样本标准差S代替。此时,对正态变量的不再是标准变换,而是t变换。统计量不在服从标砖正态分布,而是服从自由度(df)为v=n-1的t分布,记作t~t(v)
1、如随机变量 X~N(μ,σ2),经正态分布的标准变换后,统计量(X-μ)/σ服从标准正态分布N(0,1)
2、从X~N(μ,σ2)的总体中进行样本含量为n的多次随机抽样,样本均数(X-)这一随机变量服从正态分布N(μ,σ2/n),经标准变换后统计量[(X-)-μ]/[σ/(根号n)]服从标准正态分布
3、实际工作中,当总体标准差σ未知时,常用样本标准差S代替σ。此时,对正态变量的X-不再是标准变换,而是t变换。统计量[(X-)-μ]/[S/(根号n)]不再服从标准正态分布,而是服从自由度(df)为v=n-1的t分布,记作t~t(v)
样本标准差S与样本量n有关,n越大(自由度越大),S与σ越接近
概念
如,且进行样本量为n的随机抽样,则有样本量t统计量  t(n-1)表示自由度v=n-1的t分布
如 X~N(μ,σ2),且进行样本量为n的随机抽样,则有样本量t统计量: t=[(X-)-μ]/[S/(根号n)]~t(n-1) t(n-1)表示自由度v=n-1的t分布
t分布的自由度对应的就是样本标准差S的自由度,方差s^2=离均差平方和/(n-1)
t分布特征及其与标准正态分布的关系
1、t分布的特征 单峰分布,以0为中心,左右对称 t分布的曲线形态取决于自由度v的大小,自由度v越小,则t值越分散,曲线的峰部越矮而尾部越高 随着v逐渐增大,t分布逐渐接近标砖正态分布。当v趋近∞时,t分布趋近标砖正态分布 2、关系:标准正态分布时t分布的特例 3、为了使用方便,附表3给出了不同自由度v下的t界值。单侧概率的t界值用表示,双侧概率的t界值用 表示。由于t分布以0为中心左右对称,表中值列出了正t值
t分布的特征
单峰分布,以0为中心,左右对称
中心位置
t分布的曲线形态取决于自由度v的大小,自由度v越小,则t值越分散,曲线的峰部越矮而尾部越高
形态;变异程度
随着v逐渐增大,t分布逐渐接近标准正态分布。当v趋近∞时,t分布趋近标准正态分布
关系
标准正态分布是t分布的特例
为了使用方便,附表3给出了不同自由度v下的t界值。单侧概率的t界值用t(α,v) 表示,双侧概率的t界值用t(α/2,v) 表示。由于t分布以0为中心左右对称,表中值只列出了正t值
t统计量的稳健性
继承于中心极限定理+t分布
定义:统计理论和蒙塔卡罗模拟证明,即使从非正态总体中随机抽样,只要样本含量足够大,X(-)就近似服从正态分布。因此统计量t仍近似服从自由度为n-1的t分布
也会损失总体分布形态
解释
根据中心极限定理,从均数为μ,方差为σ2的总体中抽取样本量为n的简单随机样本,当样本量n很大时,无论总体分布形态如何,样本均数X-仍近似服从正态分布,及(X-)~N(μ,σ2/n)
当总体标准差σ未知时,可用样本标准差S估计σ,此时统计量需采用t统计量
单样本t统计量的稳健性
1、样本量n<15时,数据必须服从正态分布,t统计量才具有稳健性,否则不能用t分布 2、样本量15≤n≤40是,除非数据具有异常值或呈强偏态分布,t统计量仍近似稳健,此时可用t分布 3、样本量n>40时,即使数据呈棉线的偏态分布,t统计量仍近似稳健,此时仍可用t分布 当样本量足够大(n>50)时,t分布近似服从正态分布,此时可运用正态分布规律进行参数的统计推断
随着样本量增大,更稳健
样本量n<15时,数据必须服从正态分布,t统计量才具有稳健性,否则不能用t分布
样本量15≤n≤40是,除非数据具有异常值或呈强偏态分布,t统计量仍近似稳健,此时可用t分布
样本量n>40时,即使数据呈明显的偏态分布,t统计量仍近似稳健,此时仍可用t分布
当样本量足够大(n>50)时,t分布近似服从正态分布,此时可运用正态分布规律进行参数的统计推断
单样本总体均数
单样本均数推断包括
估计总体均数μ的1-α置信区间
检验样本均数x-所代表的总体均数μ是否与给定μ0的存在差异。
观测到的样本均数x-从未知总体中随机抽取,是随机变量X-的某次具体取值,需结合正态分布或t分布原理对未知总体均数μ进行统计推断。
置信区间估计
总体标准差σ为未知且样本量n不大的情形
1、置信区间: 2、前提:已知总体呈正态分布
1、置信区间:(x-)±t(α/2,v)*[S/(根号n)]
2、前提:已知总体呈正态分布或不具有异常值或不呈强偏态分布
总体标准差σ未知,但n足够大(n>50)的情形
1、n足够大的情形,t分布近似标准正态分布,可用标准正态分布代替t分布,即用代替 2、置信区间:
n足够大的情形,t分布近似标准正态分布,可用标准正态分布代替t分布,即用z(α/2)代替t(α/2,v)
2、置信区间:x-)±z(α/2)*[S/(根号n)]
假设检验
定义
判断样本均数x-所代表的总体均数μ是否与某给定数值μ0有差别,这时由于仅涉及一个样本(或者说其对应的总体),此时的检验称为单样本均数的假设检验
t统计量:
前提:样本数据来源于正态分布,或者样本量足够大
当样本量足够大,此时可以使用近似正态法进行统计推断
配对设计两总体均数差值
概述
配对设计:为了消除非处理因素的影响,将实验对象按某些重要特征如性别、年龄等相近的原则配对,再将每对中的两个实验对象随机分配到2个不同的处理组,以保证不同组间的可比性
详见第十五章第二节
配对设计中,研究者往往关心的是对子效应均值的差值(μd=μ1-μ2)而不是各自的效应值μ1和μ2
将配对设计的参数推断问题转化为由样本均数(d-)推断总体均数μd
推断的基本任务包括
估计未知总体均数μd的1-α置信区间
检验样本均数d-所代表的未知总体均数μd是否等于0
配对总体均数μd置信区间估计
1、置信区间: 2、前提:样本差值数据服从正态分布,或样本量(即对子数)n足够大
置信区间:
前提:样本差值数据服从正态分布,或样本量(即对子数)n足够大
假设检验
1、配对样本均数的t检验又叫配对t检验 2、适用于配对设计的定量数据的两样本均数比较 3、比较的目的是:检验两配对样本均数所代表的未知总体均数是否有差别 4、配对设计的t检验统计量:
配对样本均数的t检验又叫配对t检验
适用于配对设计的定量数据的两样本均数比较
比较的目的是:检验两配对样本均数所代表的未知总体均数是否有差别
配对设计的t检验统计量:
此处的n为对子数
非正态数据的情形
在小样本情形下,若样本数据或配对设计的样本差值不服从正态分布,可采用以下方法对总体参数μ或μd进行推断:
非参数统计方法(不依赖于变量分布的方法,详见第十章)
蒙塔卡罗模拟参数推断方法:当样本数据的分布未知或不服从正态分布时,常用该法。基于蒙特卡罗模拟的推断方法包括置换法、自助法、刀切法等
数据转换法:将原始数据转化为正态分布数据,利用转化后的数据,采用上述公式分别估计转化数据的置信区间,再通过逆变换将数据的置信区间还原为原始数据的置信区间。常用方法:
对数变换:适用于对数正态资料;标准差和均数成比例
平方根反正弦变换:百分比资料
平方根变换:方差和均数成比例,例如Poisson分布
两个总体均数
参数推断的基本任务
1、估计两个总体均数之差(μd=μ1-μ2)的1-α置信区间
2、检验两样本均数x1-和x2-所代表的总体均数μ1和μ2是否相等
两样本总体均数之差的t统计量计算
推理要点
1、如果随机变量X1和X2互相独立,且,,以样本量n1从总体中随机抽样,获得样本均数及样本标准差;与此同时,以样本量n2从总体中随机抽样,获得样本均数即样本标准差,重复上述抽样过程,获得多个均数之差 2、由于变量X1和X2互相独立且均服从给正态分布,其样本均数仍服从正态分布。根据数理统计中服从正态分布的量独立变量加减后仍服从正态分布的原理,即,其中为两均数差值的总体方差
两样本均数差值的抽样分布
与t分布的关系
如果随机变量X1和X2互相独立,且 X1~N(μ1,σ1^2), X2~N(μ2,σ2^2),以样本量n1从总体中随机抽样,获得样本均数(X1-)及样本标准差S1;与此同时,以样本量n2从总体中随机抽样,获得样本均数(X2-)及样本标准差S2,重复上述抽样过程,获得多个均数之差[(X1-)-(X2-)]
由于变量X1和X2互相独立且均服从给正态分布,其样本均数仍服从正态分布。根据数理统计中服从正态分布的量独立变量加减后仍服从正态分布的原理,即[(X1-)-(X2-)]~N([μ1-μ2],[σ(X1-X2)^2]),其中σ(X1-X2)^2=σ1^2/n+σ2^2/n为两均数差值的总体方差
将服从正态分布的统计量[(X1-)-(X2-)]作标准变换,统计量{[(X1-)-(X2-)]-[μ1-μ2]}/[σ(X1-X2)^2]服从标准正态分布
实际工作中由于总体标准差σ1和σ2常常未知,所以只能用其相应的标准差S1和S2代替而得到两样本均数标准差的样本标准差S(X1-X2),此时,统计量{[(X1-)-(X2-)]-[μ1-μ2]}/[S(X1-X2)^2]不再服从标准正态分布。与但样本情形类似,此时统计量服从t分布
t统计量
从两个独立总体,抽样,则有两样本t统计量 1、两总体方差相等()时,  其中,自由度v=n1+n2-2,为两样本均数之差的标准差,为合并样本方差 2、两总体方差不等()时,  其中,为校正自由度
前提:从两个独立总体X1~N(μ1,σ1^2), X2~N(μ2,σ2^2)抽样,则有两样本t统计量
两总体方差相等(σ1^2=σ2^2)时
资料类型:完全随机设计的两独立样本
解题步骤(包括正态性检验、方差齐性检验)
t统计量
计算公式
v=n1+n2-2
=合并样本方差
两总体方差不等(σ1^2≠σ2^2)时
t'统计量
两样本t统计两的稳健性
与单样本是一致的
1、类似单样本,即使从两独立非正态总体中随机抽样,只要样本含量n足够大,两样本均数差值t统计量仍近似服从t分布
2、当变量X1和X2不服从正态分布,根据中心极限定理,只要样本量n1和n2均足够大,X1-和X2-服从正态分布,由于两样本独立,故差值仍服从正态分布
3、两总体方差未知,用样本方法进行估计时,此时两样本t统计量服从t分布
4、经验规则
样本量n1+n2<15 时,数据必须服从正态分布,t统计量才具有稳健性,否则不能用t分布
样本量15≤n1+n2≤40时,除非数据具有异常值或呈强偏态分布,t统计量仍近似稳健,此时可用t分布
样本量n1+n2>40 时,即使数据呈棉线的偏态分布,t统计量仍近似稳健,此时仍可用t分布
5、在实际过程中,两样本均数差值的t统计量要比单样本均数的t统计量更稳健。蒙特卡罗模拟证明:当两样本相等(n1=n2)且总体分布相撞相似,即使样本量不大,t统计量仍服从t分布。当两总体分布形状明显不同时,只要样本量足够大,t统计量仍服从t分布
置信区间估计
两总体方差相等情形下(方差齐性检验)
μ1-μ2的1-α置信区间估计:
当两样本的样本含量均较大时(n1,n2均大于50),t分布近似于正态分布,t分布近似正态分布,式中的t可用z代替,样本的标准差也可以用来计算
样本量很大的时候,不追求方差齐
两总体方差不等情形
μ1-μ2的1-α置信区间估计:
)
假设检验
两总体方差相等的情形
1、当两总体方差相等时,通常采用独立样本均数比较的t检验,又称成组t检验,它适用于完全随机设计两独立样本均数的比较
=t统计量
=(检验统计量t)
基于零假设:μ1=μ2,所以μ1-μ2=0
两总体方差不等的情形
1、若两总体方差不等,可采用数据变换或t'检验或基于秩次的非参数检验
2、数据变换是将原始数据作某种函数转换(如对数变换、平方根变换、平方根反正弦变换)使得数据满足成组t检验的方差齐性和正态分布要求,但有时也行不通
3、本节介绍t'检验(t'统计量)
两个总体方差
两样本比较的目的是推断其所代表的总体的参数是否不同,通常需要推断总体两均数是否相等或两总体方差是否不等,而后者通常是前者的前提条件
两样本方差之比的抽样分布
F分布
1、两独立正态样本方差之比的F统计量服从分布: 
2、F分布是一种连续性分布,只要在给定分子自由度(v1)和分母自由度(v2)的条件下,即可求出特定F(v1,v2)值对应的函数值,从而可绘制其密度曲线图
3、F分布的分位数:与t分布类似,由F分布曲线可以求从0到给定F值的面积(概率)。当v1和v2确定后,F分布缺陷下右侧尾部的面积为指定α时,横轴上相应的界值F,记作Fα(v1,v2),称为F分布的分位数
拓展:对应的t^2服从F(1,n-1),t^2=F
方差的齐性检验
判断两总体方差的齐性检验等价于检验H0:是否成立,由两样本方差之比的抽样分布原理及F分布可知,在H0成立的前提下,有,因此有两独立样本正态总体方差齐性检验的F统计量
F统计量计算
两独立正态总体方差齐性检验的F统计量: 
用较大比较小是为了方便查表
求得F值后,查F界值表可得P值(F值愈大,P值愈小),然后按所取的α水准作出统计推断
因为人为地用较大的方差比上较小的方差,所以查表的时候应该α/2的界值(即查单侧界值)
方差齐性检验为双侧检验,双侧界值
因为若F值偏离1,无论是左偏还是右偏,都认为方差不齐(且不是问的哪个方差大于另一个方差)
对比:第八章方差分析的F检验是双侧检验,单侧界值
检验水准α一般取0.10
α=0.10>0.05
因为数据已经给了,说明样本的样本量和方差已经定在那里了,只能通过α来控制 β
我们通过增加α来降低β,降低第二类错误发生的概率,即控制“当方差不齐的时候,我们接受它方差齐”的这个错误发生的概率。
其他检验方法
1、Levene检验(不依赖总体分布的具体形式,更为稳健)——详见第八章
2、Bartlett检验(要求数据服从正态分布)
上述检验既可以用于两样本也可以用于多样本!
F检验只能用于两样本方差齐性检验
定量数据:中心位置和变异程度
单个总体率
样本率的实质是特殊的样本均数(第五章)
第五章中通过蒙塔卡罗模拟说明了单个样本率p的抽样分布在样本量较大时近似服从正态分布
补充:大小写的区分规则
按照第四章的符号使用规则,第五章与第六章都采用了大写字母表示统计量的抽样分布,此时统计量为随机变量,而采用小写字母表示其对应样本观测值,此时统计量为固定值
由于前面章节中一般使用p表示样本率,故此处采用P表示样本率为随机变量的情形,但其与P值符号存在冲突,所以后续章节将采用p同时表示随机变量与样本光侧置两种情形,两者的区分根据上下文一般易于判断
基本任务
估计总体率π的1-α置信区间
检验样本所代表的总体率π是否与给定的总体率π0有差别(即H0:π=π0是否成立)
总体率的置信区间估计
二项分布法(查表法)
为了应用方便,统计学家根据二项分布原理,编制了在样本量n≤50时,样本例数为n与阳性例数为X时,总体率的95%和99%置信区间表。
正态近似法
样本量较大时
推导
1、根据第五章,当阳性事件和阴性事件发生次数均较大时,一般nπ>5且n(1-π)>5时,样本率p的抽样分布近似服从正态分布,即
2、具体而言,当总体率π=0.05,或nπ和n(1-π)均大于5时,有: 
3、Z近似服从标准正态分布,当总体率方差未知时,常用样本率p代替总体率π计算得到方差代替上式中的
4、样本量较大时,单个总体率Π的1-α置信区间估计的近似正态法: 
前提条件:nπ>5且n(1-π)均较大!
样本量不大时
当nπ或n(1-π)不太大时,二两分布的概率不再近似服从正态分布。此时蒙特卡罗模拟显示,若对样本率实行“分子+2,分母+4”的校正,可转换得到近似正态的统计量,该方法也叫“+4估计方法”,具有较高稳健性。
目的:校正样本率p是为了使样本率更接近0.5
样本量不大时,单个总体率π的1-α置信区间估计的校正近似正态法: 
其中是对样本率“分子+2,分母+4”校正后的校正样本率
总体率的假设检验
确切概率计算
1、基本思路:根据二项分布概率函数直接求出累计概率,即P值,再与α作比较
2、与给定总体率π0比较时P值的计算:
最多有k例阳性的概率:
最少有k例阳性的概率:
其中
此方法尤其适用于样本量较小或π0不靠近0.5时作单侧检验的情形
正态近似法
1、当nπ、n(1-π)均大于5,二项分布逼近正态分布。可构造二项分布的正态近似检验统计量Z,检验样本率p所代表的未知总体率π与给定总体率π0是否相等:
2、样本量较大时,样本所代表的总体率与给定总体率π0比较(正态近似法): 
3、p为样本率,π0为给定总体率(常为理论值或标准值),n为样本含量
两个总体率
由于两样本均是通过从两个未知总体随机抽样获得,两样本差为p1-p2,故可基于两样本率之差的抽样分布或其正态近似原理进行置信区间估计和假设检验
基本任务
估计两个总体率之差π1-π2的1-α置信区间
检验两个样本率p1和p2所代表的总体率π1和π2是否相等(即H0:π1=π2是否成立)
两样本率之差的抽样分布及其正态近似
置信区间估计与假设检验的理论基础
样本量较大时两样本率之差的正态近似
结论
1、两样本率之差(p1-p2)的Z统计量: 
n1p1、n1(1-p1)、n2p2、n2(1-p2)均大于5时,
其中,
推导
1、两独立样本、,两样本之差p1-p2。重复多次上述抽样过程,可获得多个样本率之差,此时有:
(1)由于两总体互相独立,类比单样本率的抽样分布原理,当n1p1、n1(1-p1)、n2p2、n2(1-p2)均较大时,多次重复抽样得到的若干两样本率之差的分布近似服从正态分布,统计量,其中p1-p2的标准差
(2)在上述条件下,由于p1-p2仍近似服从正态分布,可对p1-p2实施标准转换,即 ,此时统计量Z服从标准正态分布
(3)当两个总体率π1和π2均未知时,根据中心极限定理,p1-p2的标准差可用样本标准差进行估计,即: ,则有 
校正样本率的正态近似
1、当n1p1、n1(1-p1)、n2p2、n2(1-p2)不太大时,不再近似服从正态分布。此时,仿照上述单样本率的“分子+2,分母+4”的校正法,也可以达到近似正态的效果,但此时采用的时在两组样本率p1和p2上分别实施“分子+1,分母+2”校正,以保持合并样本率仍维持在分子+2,分母+4”的状态
2、校正样本率的Z统计量: 
其中:   
总体率之差的置信区间估计
正态近似法
1、两总体率之差π1-π2的1-α置信区间估计(近似正态法): 
其中为两样本率之差的标准误
校正样本率的正态近似
两总体率之差π1-π2的1-α置信区间估计(校正的近似正态法) 
其中:   
假设检验
近似正态法
1、H0成立的前提下,两样本率之差(p1-p2)的Z检验统计量:  其中,为样本的合并率
结论
1、H0成立的前提下,两样本率之差(p1-p2)的Z检验统计量: 
n1p1、n1(1-p1)、n2p2、n2(1-p2)均大于5时,
其中,为样本的合并率
区分置信区间中两样本率之差的标准误
置信区间估计与假设检验的标准差的计算不同,是因为假设检验Z检验统计量的计算是基于π1=π2(即H0成立的条件下),但这并没有否认一个置信区间对应一个假设检验的结论,只是假设检验中提供了H0成立下,π1=π2的这个信息
当n1、n2较小时
此时无法使用上述正态近似法进行两样本率比较的假设检验,此时常见的方法时采用Fisher确切概率法,详见第八章
分类数据:事件的总体发生率