导图社区 人卫第8版《卫生统计学》——第六章 《统计推断》
本章的学习重点:1、置信区间估计2、假设检验的基本思想和步骤 3、假设检验中的各种概念4、假设检验和置信区间的区别5、检验水准与检验效能的含义及关系6、两类错误的含义及关系
编辑于2022-08-17 16:09:20 广东社区模板帮助中心,点此进入>>
第六章 统计推断
概述
介绍总体参数未知时如何利用观察到的样本数据推断总体参数
提供依据:第四、五章介绍了总体参数已知时样本数据的变化规律
本章将学习两类统计推断方法:置信区间估计与假设检验
基于样本数据分别刻画参数估计的不确定性和对科学假设的判断
置信区间估计
统计信心
统计推断:是基于样本统计量对总体参数作出统计学结论
需解决的问题:当我们用样本均数取直接估计总体均数时,到底有多大的信心认为该结论是正确的?
在学习这两种统计推断方法的过程中,一般会因数据类型的不同而有不同的计算公式,但核心思想是一样的。为避免繁杂的计算而掩盖统计推断的基本逻辑和核心思想,我们以总体方差已知的情形为例,叙述推断总体均数的过程
第七章将介绍总体方差未知时如何操作
如果直接用样本均数来估计总体均数而不考虑抽样误差,这种估计的意义不大。一个准确的估计值关注的重点在于样本抽样分布的集中位置,而变异则是由样本抽样分布的离散程度表示
思想
如果总体平均身高的均值为μ,标准差为σ,那么根据第五章统计量抽样分布的知识,以样本量为n重复抽样所得的样本均数X-应服从N(μ,σ^2/n)
当抽样次数很大的时候,抽样分布近似服从正态分布,意味着抽样分布其实损失了总体分布的形态
根据第四章正态分布的3σ法则:样本均数X-这个随机变量将有95%的可能性在总体均数μ±2[σ/根号n]
事件{样本均数X-这个随机变量将有95%的可能性在总体均数μ±2[σ/根号n]}等价于事件{X-±2[σ/根号n]区间有95%的概率包含μ}
点估计:直接用样本哦统计量作为总体参数的估计值
区间估计:按一定的概率或可信度(95%),用一个区间估计总体参数所在的范围,这个范围称作可信度为95%的置信区间。
95%置信度
100次抽样结果的100个95%置信区间中,平均而言有95个置信区间包含了真实的总体均数
置信区间
估计值±误差范围
估计值是对未知总体参数的推测;误差范围与估计值的变异程度有关,反映了估计的准确程度
实际上我们并不知道μ的真实值,但是经过大量的抽样,可以推断这些抽样的置信区间中有多大比例包含了总体均数μ
特点
置信区间(a,b)中的a与b均由样本数据计算而得
置信区间包含未知总体参数的可能性可以理解为置信度
已知σ时μ的置信区间
1、前提:当总体分布服从时,样本均数服从正态分布 2、对于一个观察到的样本,μ的置信度为C的置信区间为,其中为μ的估计值,为误差范围 3、z'与C的关系为C越大,则z'越大。不同的z'所对应的C: z’-- C 1.64 -- 90% 1.96 -- 95% 2.58 -- 99%
1、前提:基于样本均数的抽样分布(第五章),当总体分布服从N(μ,σ^2)时,样本均数服从正态分布N(μ,σ^2/n)
2、对于一个观察到的样本,μ的置信度为C的置信区间为(x-)±(z'σ/根号n),其中x-为μ的估计值,(z'σ/根号n)为误差范围
3、z'与C的关系为C越大,则z'越大。不同的z'所对应的C:
z’-- C 1.64 -- 90% 1.96 -- 95% 2.58 -- 99%
在3σ法则中,计算95% 置信区间时z'为2,而此处使用了更为精确的数字1.96
置信区间的误差范围
1、当确定了置信度时,误差范围也随之改变
2、高置信度与较小的误差范围是较为理想的结果
3、高置信度=结果的准确性高,误差范围较小是指结果精确性高
注意:单纯追求高置信度时没有意义的,要兼顾误差范围
4、当所得到的置信区间误差范围(z'σ/根号n)较大时,可使用以下方法来减小:
选择较低的置信度,从而得到更小的z’(当n和σ不变时)
选择更大的样本量n(当置信度固定)
减小σ
σ反映的时总体的变异程度,可以在进行仪器测量时,通过调整仪器的精度从而得到更加精准的测量值
有时在实际应用中,可以通过限定研究总体来减小σ,如只研究某个亚群
置信区间与样本量
1、合理的研究设计应该在收据收集前先确定好统计推断方法,确定足够的样本量可使后期置信区间的误差范围较小
2、如果预期得到的误差范围为m,则可得简单随机抽样的样本量计算公式如下
3、实际应用中,样本大小的选择,除了上述公式计算结果外,还应考虑其他因素:数据收集过程所花费的成本等,确保研究方案实施的可行性;部分被调查者不配合导致无应答率,数据质量不合格等
注意事项/适用条件
1、公式不适用所有抽样方法,不同的抽样方法需采用不同的均数置信区间估计方式 2、数据须来自相应总体的简单随机抽样,个体间相互独立是使用上述估计公式的前提 3、对于来自随意收集且偏倚较大的数据,没有恰当的方式进行统计推断,统计分析无法拯救糟糕的数据 4、由于样本均数的稳定性不高,易受到异常值影响,所以相应置信区间的计算会受到较大影响。因此,在计算置信区间之前需要找出异常值,并尝试校正或剔除。如异常值无法剔除,可应用对异常值不太敏感的方法(如第一章第五节的方法) 5、如果样本量较小且总体并非正态分布,实际得到的置信度可能与理论置信度不同,因此,在计算前应先检查数据是否服从正态分布 6、公式是事先假定总体标准差σ已知,实际研究中很可能无法得到总体标准差σ。当样本量较大时,可选用样本标准差s估计σ,对应置信区间可用公式近似估计(详见第七章) 7、实际操作中的问题(如失访与无应答)会给抽样研究带来额外的误差,这些误差可能比随机抽样误差大得多,并且研究结果中这些误差并不能被误差范围所影响 8、基于上述简单随机抽样得到学生身高的95%置信区间为168.24至168.76,但并不意味着总体均数有95%的概率在168.24至168.76之间。在一次特定抽样与置信区间计算完成后,随机性就不存在了。真实的总体只能是在或不在168.24至168.76之间。统计推断的概率是指该方法重复进行的正确频率,即100次抽样中,平均而言95%置信区间有95次包含了总体均数,但不知道某一次结果的正确性 9、置信区间还需考虑所有统计方法均需注意的问题
1、公式(x-)±(z'σ/根号n)不适用所有抽样方法,不同的抽样方法需采用不同的均数置信区间估计方式
2、数据须来自相应总体的简单随机抽样,个体间相互独立是使用上述估计公式的前提
3、对于来自随意收集且偏倚较大的数据,没有恰当的方式进行统计推断,统计分析无法拯救糟糕的数据
4、由于样本均数的稳定性不高,易受到异常值影响,所以相应置信区间的计算会受到较大影响。因此,在计算置信区间之前需要找出异常值,并尝试校正或剔除。如异常值无法剔除,可应用对异常值不太敏感的方法(如第一章第五节的方法)
5、如果样本量较小且总体并非正态分布,实际得到的置信度可能与理论置信度不同,因此,在计算前应先检查数据是否服从正态分布
6、公式(x-)±(z'σ/根号n)是事先假定总体标准差σ已知,实际研究中很可能无法得到总体标准差σ。当样本量较大时,可选用样本标准差s估计σ,对应置信区间可用公式(x-)±(z's/根号n)近似估计(详见第七章)
7、实际操作中的问题(如失访与无应答)会给抽样研究带来额外的误差,这些误差可能比随机抽样误差大得多,并且研究结果中这些误差并不能被误差范围所影响
8、基于上述简单随机抽样得到学生身高的95%置信区间为168.24至168.76,但并不意味着总体均数有95%的概率在168.24至168.76之间。在一次特定抽样与置信区间计算完成后,随机性就不存在了。真实的总体只能是在或不在168.24至168.76之间。统计推断的概率是指该方法重复进行的正确频率,即100次抽样中,平均而言95%置信区间有95次包含了总体均数,但不知道某一次结果的正确性
总体待估计参数以一定的概率落在置信区间内(×)
总体待估计参数是确定值,是客观不变的,落在某个区间内的概率非0即1
理解概率的含义
度量事件发生可能性大小的数量指标
未发生的事件
大量重复试验
置信区间描述的是方法的准确性
9、置信区间还需考虑所有统计方法均需注意的问题
假设检验
定义:假设检验中的假设是指我们对总体特征(如参数、分布)的某种推测,从而用概率来判断样本数据所提供的信息和我们对总体特征猜想的一致性,进而结合专业只是判断这一猜想的正确性
假设检验的基本思想
关键点
1、都是从总体均数是否存在差异这个问题开始。均试图回答两个总体均数是否存在差异,换言之,即两个总体均数差值是否等于0
2、都是用样本均数差值与假设总体均数相差0(即两个总体均数没有差异 )进行比较
3、都是用概率来表示比较的结果
基本思想
假设检验采用了小概率反证法思想
小概率思想:是指小概率事件(一般指概率小于等于0.05)在一次实验中基本不会发生
反证法思想:是先提出待检验的假设,如果样本信息不支持该假设,就拒绝该假设
结合抽样分布
假设检验过程中,概率是在假设两个总体均数没有差异的前提下利用样本数据得到的
当结论未否定假设时,不能说明假设一定成立,只能说明根据抽样数据所计算出来的概率没有达到事先规定的小概率事件(检验水准)
类似司法实践中的无罪推定原则:在证实被告有罪之前先假定被告无罪,如果在合理的推测下,没有足够的证据证明被告有罪,则认为被告无罪,但认为被告无罪并不意味着被告一定无辜,而只是表示目前尚没有足够的证据证明其有罪
基本步骤
建立检验假设,确定检验水准
零假设与备择假设
零假设
1、假设检验中,被用来检验的假设称为零假设。通常表述为”没有差异“或”无效“,常用符号H0表示
2、零假设时在我们没有证明某现象之前作出的保守推测
3、在假设检验过程中,被检验的假设H0或者被拒绝,或者未被拒绝。如果未被拒绝,这意味着样本信息没有提供足够的证据拒绝H0;如果被拒绝,则说明样本信息不支持H0。从逻辑上讲,这就更有利于另一个与零假设有联系而相互对立的”假设“,通常称其为”备择假设“,常用符号H1表示
备择假设
1、与零假设有联系而相互对立的”假设“,通常称其为”备择假设“,常用符号H1表示
2、在现实研究中,H1描述的往往是我们希望看到的结果。但是,正确描述H1常常是比较困难的,特别是在确定H1应该是单侧还是双侧检验问题的时候,经常需根据研究目的和专业知识加以确定
3、单侧检验不仅考虑有无差异,而且还考虑差异的方向。对同一数据作单侧检验时,比双侧检验更容易获得拒绝H0的结果。因此,在实际研究中,如果没有专业背景知识说明的情况下,采用双侧检验较为保守
α与P值
检验水准
1、它是人为规定的。表示拒绝实际上成立的H0的最大允许概率。常用符号α表示
2、α=0.05时,表示如果真实情况是H0成立,我们根据样本信息错误拒绝H0的概率不超过5%
3、表示如果真实情况是H0成立,我们根据样本信息错误拒绝H0的概率不超过5%
P值
1、定义:在H0成立的条件下,计算现有样本统计量以及更极端情况的概率,称为假设检验的P值
条件概率
2、计算P值的关键是检查检验统计量的抽样分布,其更详细的讨论见第五章,而对于本节所讨论的问题,只涉及服从标准正态分布Z的统计量
检验统计量的选择与计算
根据样本均数的抽样分布来确定
1、假设检验是根据检验统计量对设立的待检验假设作出判断,通常情况下检验统计量与利用置信区间估计总体参数所采用的统计量相同
2、为了方便讲述,我们将H0所假设的总体参数称为假设检验值。如果根据样本得到的参数估计值(简称估计值)与假设检验相差很远,则样本信息与H0不一致程度很高
3、检验统计量是对估计值与假设检验值之间的差异进行标准化转化,从而评估总体参数之间是否存在差异,通常情况下,在两组均数的差异性检验中,检验统计量的计算形式如下:
(估计值的标准误就是样本的抽样误差)
本章值只涉及标准正态分布的Z统计量
4、如果比值较大,说明样本抽样误差不足以解释总体参数估计值与假设检验值差异的原因,因此推断总体参数与假设检验值存在差异,因而拒绝H0。如果比值较小,表明总体参数估计值与假设检验值的差异在样本抽样误差可以解释的范围内,因此不能推断总体参数与假设检验值存在差异,因而不拒绝H0
5、检验统计量用来测量H0与样本信息的一致性,它是一个随机变量,其分布是已知的,我们根据这个分布来计算其概率
计算P值,作出统计推断
1、若P≤α,按照α水准拒绝H0,接受H1,可以认为总体参数之间的差异有统计学意义
2、若P>α,按照α水准不拒绝H0,尚不能认为总体参数之间的差异有统计学意义。 (但不能说接受H0),对于两总体均数相同这一结论无任何概率保证
注意
教材中的说法不严谨:两总体参数要么相同要么不同,差异是否有统计学意义,指的是两样本之间的差异
不拒绝H0不等于接受H0,因为证据不足!
假设检验与置信区间的区别与联系
联系
1、都属于统计推断方法
2、通常情况下,置信区间估计总体参数所采用的统计量与假设检验的检验统计量相同。对于同一个样本数据,若假设检验的结果是P≤α,则其按照相应置信度C的置信区间必定不包括H0所定的参数范围,反之亦然
都是基于同一个抽样分布
3、双侧检验时,置信区间确定的z'与检验水准α确定的检验统计量分布的界值相同,因此,在双侧检验时C=1-α
区别
1、置信区间估计用于推断总体参数所在范围,而假设检验用于推断总体参数之间是否不同
2、置信区间还可以提供假设检验所不能提供的信息,置信区间在回答差别有无统计学意义时,还可以提示差别是否具有实际意义
相应差异具有统计学意义
(a)提示差异具有实际意义
(b)提示可能具有实际意义
(c)提示实际意义不大
相应差异无统计学意义
提示可能样本量不足
误差范围过大
属于可以接受零假设的情况
3、置信区间与假设检验相辅相成。两者结合,可以提供更为全面的统计推断信息,因此,研究论文在报告假设检验结论的同时,需要报告相应的置信区间估计结果。
假设检验的正确使用(补充)
选择合适的检验水准
1、假设检验需要给出一个”明确“的结论,拒绝或是不拒绝零假设H0
2、如果拒绝H0,P值其实衡量了基于样本所提供的证据来拒绝零假设的可信程度
3、但是”有统计学意义“和”无统计学意义“之间没有严格的界限。同时报告P值和是否拒绝H0,可以基于数据下一个更好的结论。如P=0.0512时,该值没有达到检验水准α=0.05,但是基于P值提供的信息可知,该结果仅和这个标准有毫厘之差。这就提示,如果该研究问题很重要,我们应再设计一个更加科学的研究来进一步探索或验证它
4、根据研究目的确定
统计学意义并不意味着具有实际的专业意义
1、当一个零假设(”无差异“或”无效应")在常用的检验水准α=0.05情况下被拒绝,这表明是有效应存在的。但是这个效应可能十分微弱。在大样本条件下,有时尽管只有十分微小的差异,但该差异也会有统计学意义
2、为避免过分关注P值,我们还需注重结果的专业意义
不要忽略无统计学意义的结果
1、如一项易减低HIV-1感染为目的的随机干预试验中,干预组与对照组HIV-1感染率之比为1,该参数的95%置信区间为(0.68,1.58),假设检验的结果无统计学意义。基于该结果得出干预对HIV-1感染没有结果的结论可能时一种误导。置信区间提示该干预可能达到了降低37%感染的作用,同时也提示该干预可能是有害的,且可能导致58%的感染上升。我们显然需要更多的研究和数据来区别这两种可能性
2、在某些领域的研究,可能只在大样本条件下才得到很小的效应,但这个小效应可能具有很大实际意义。例如在下结论说某种新药对少部分人有危及生命的后果之前,需要从大量服用这种药的病人中收集更多的 数据,由此需要发表一些没有统计学意义的结果
3、另一方面,有时一些有实际意义的结果并没有统计学意义。有的时候,当需要花费很高的成本来收集样本时,研究者通常使用类似的小样本研究作为预实验。当条件成熟时,研究者可以再进行一个更大规模的研究
统计推断并非对所有数据有效
1、不正确的调查设计或实验设计通常无法获得有效的数据或结果,统计推断无法纠正设计本身的缺陷
2、一个常见的设计缺陷是除了研究因素的设置不同外,对比的两组不具有可比性,即存在混杂因素的影响
3、假设检验和置信区间估计是以概率理论为基础的,随机抽样或这随机化实验确保了这些规律的适用性,但通常分析的数据并非来自随机抽样或者随机实验。要对这样的数据进行统计推断,我们必须了解相应的统计分析方法
谨慎追求统计学意义
1、由于研究者对研究做统计推断的本身意义不清楚而造成
2、由于不能正确区分探索性研究和验证性研究的性质而造成
检验效能与基于决策的推断
决策推断(拒绝或接受假设)的思维方法,这将有助于理解如何保证假设检验具有足够的能力发现错误的零假设,并有助于理解统计决策理论
检验效能
检验效能:检验水准为α,H1为真时,假设检验能够拒绝H0的概率称为能发现该H1的检验效能
检验效能又称把握度,指两总体确有差异,按α检验水准能发现他们有差别的能力。用1-β表示其概率的大小
概述
1、假设检验本质上是一个决策的过程,要么拒绝H0,要么不拒绝,两种情况都有可能发生,但其可能正确也可能不正确
2、如以0.05为检验水准且H0成立,重复进行实验将会有5% 拒绝H0的决策,这5%的决策是错误的,检验水准α的意义是在此情况下提高正确决策的能力,即防止过多拒绝真实的H0
3、若H1成立,研究者还关心使用假设检验方法能够拒绝H0的能力。检验效能的意义是在此情况下提高正确决策的能力,即尽量拒绝错误的H1
计算检验效能
确定H0、H1以及检验水准
找到能拒绝H0的样本均数的取值范围(也被称为拒绝域)
μ=0
计算H1为真时样本均数位于拒绝域的概率,即发现该H1的检验效能
μ=具体值,条件概率
影响因素
检验水准α
检验水准越小(如α<0.05),检验效能越小
即H0成立时,能提高正确决策的能力,但是假设此时H1成立,则将降低正确的决策能力
H1与H0的差异大小
差异增加,检验效能更大
样本量
样本量越大,检验效能越大
σ
σ越小,检验效能越大
假设检验水平与检验效能关系
基于决策进行推断
概述
1、在假设检验的推理框架中,由于假设检验的结论不可能接受H0,所以不存在“H0本身不成立而假设检验的结论认为其成立”这种情况。如果检验结论错误,也只可能时“H0本身成立而假设检验认为其不成立”这种错误
2、基于决策进行推断,此时决策有两种:接受H0或接受H1,必须在二者中接受其一,H0与H1的地位对等。通过抽样数据进行质量控制是基于决策推断的经典应用
两类错误的含义及关系
与本章的第二节中只有一种错误不同
1、两类错误:
Ⅰ类错误:当H0为真拒绝H0(接受H1)
Ⅱ类错误:当H1为真接受H0(拒绝H1)
2、第Ⅰ类错误的概率和第Ⅱ类错误的概率可用于评价决策过程正确的可能性
关系
α与β是反向的,当样本量一定时,α越小,β越大
反之亦然
若想同时减少α和β,只能增大样本含量
α:根据研究者要求确定 β:只有与H1结合才有意义,β值很难确切估计
α、β根据研究要求适当控制:
当n↑,α一定,β也相应减少
当n一定,选定α来控制β
若重点减少α,可取α=0.1,;若重点减少β,可取α=0.05,α也可取其他水准
实际应用中,常常通过增加n 来减少β
3、Ⅰ类错误和Ⅱ类错误是负相关的,有时我们需要考虑哪一类错误后果更严重,从而选择合适的显著性水平和检验能力
检验水准和第Ⅰ类错误
检验水准α就是犯第Ⅰ类错误的概率。也就是说,α是当零假设H0为真时,假设检验拒绝零假设的概率
检验效能和第Ⅱ类错误
固定检验水准下的检验效能就是1减去犯第Ⅱ类错误的概率。常用β表示犯第Ⅱ类错误的概率,1-β表示检验效能
两类错误其实是两回事(两种条件概率),不犯一种错误不能等于就会犯另一种错误
假设检验与基于决策的推断的区别与联系
假设检验与基于决策的推断的区别不在于计算过程,而在于推理思想
对于前者我们关注单一假设(H0),而对于后者我们关注两种假设(H0和H1)
前者的目的是衡量拒绝H0的样本证据的强弱。如果不能拒绝H0,我们的结论仅仅是尚无充分证据证明H0是错误的,而不是H0为真。此时计算检验效能是衡量假设检验的敏感性。而后者的目的是基于样本证据给出在两种假设中做抉择的依据,必须选择其中一个假设,并且不能以证据不足为由放弃选择
前者我们只关注单一概率(P值),而后者我们必须同时关注两类错误的概率,且控制两类错误的概率处于同等重要的地位
实际应用中检验的一般策略混合了基于决策的推断和假设检验的推理方法
1、使用假设检验的H1和H0的术语
2、考虑实际问题时使用基于决策的推断思想,从而可使用第Ⅰ类错误和第Ⅱ类错误的概念
3、第Ⅰ类错误的概念更加严谨,选择了α(检验水准)后假设检验的第Ⅰ类错误概率不会大于α
4、基于上一点产生的所有可能检验规则,从中选择一个使得β尽可能小的检验(即效能尽可能大的检验)(常用的方法史增加样本量)
理解统计分析的逻辑
理解能够进行统计分析的前提:样本统计量的抽样分布已知,且能够在一定程度上代表总体参数
分布形态可以求解,如Z分布、t分布、F分布、卡方分布等
呈现单峰聚集形式
理解统计分析的目标:估计总体参数(而不是总体的分布形态)
区间估计与假设检验
每一个置信区间都可以对应一种假设检验方法
进行假设检验的两种方法
1、根据检验统计量Z先计算P值,再与α进行对比
2、根据α计算拒绝域,再与检验统计量Z进行对比