导图社区 人卫第8版《卫生统计学》——第五章 《统计量的抽样分布》
本思维导图为人卫第8版《卫生统计学》第五章《统计量的抽样分布》的内容,本章的重点为:1、“中心极限定理”2、样本率的抽样分布3、样本均数的抽样分布
编辑于2022-08-04 18:00:52 广东社区模板帮助中心,点此进入>>
第五章 统计量的抽样分布
前后联系
理解第四章中总体的μx和σ^2与本章中样本的μ(x-)和σ(x-)^2的关系,为以后的统计推断打下基础
第三章定性地阐述了抽样分布可反映样本均数推测总体均数的好坏,即通过偏倚和变异的大小来反映代表性和可靠性两个方面;
本章运用第四章学习的概率知识,定量地阐述样本抽样分布的代表性和可靠性等重要问题
总体参数 ➡️(随机抽样)➡️样本统计量
在总体参数已知时样本数据的变化规律
抽样率的抽样分布
分类变量
概述
1、统计量的本质为随机变量,本章将定量地归纳统计量的概率分布规律
2、为阐明核心思想,避免复杂运算,本节按照如下思路对统计量的抽样分布进行介绍:
小样本量下抽样分布的精确计算:在总体分布已知的情形下,从样本量较小的例子开始,归纳取统计量的抽样分布规律,计算其均数和标准差,并观察统计量的抽样分布与对应总体参数的关系
大样本量下抽样分布的蒙特卡罗模拟:采用蒙特卡罗模拟方法,从已知总体中实施大量重复模拟抽样,获得大量的样本统计量,从而对得到的样本统计进行描述,计算其均数和标准差,描述其分布及绘制直方图
样本率的概率分布
样本率与样本均数
在样本量为n的简单随机样本中,“成功”的频数X服从二项分布B(n,π)。由于“成功”的样本率等于“成功”样本频率X除以样本量n(即p=X/n),所以若想了解样本率p的抽样分布,可将关于样本率p的概率计算问题转换成为“成功”频数X的概率计算问题
⚠️样本率与样本频数都是离散型随机变量(因为样本率根源于样本频数p=X/n)
应用二项分布概率公式计算样本率的分布
eg、假设投掷一枚质地不均匀的硬币,其正面朝上的概率为0.6,每次投掷的结果都是独立的,投掷这枚硬币3次朝上的频率为p,其为样本率,此时样本率p的概率分布是怎么样的?
tip:投掷硬币正面朝上的次数服从二项分布,可以把样本率的概率计算转换为样本频数的概率计算,即先计算3次投掷正面朝上次数(用X表示)的概率,X可能的取值为0、1、2、3,然后再计算出样本率并归纳样本率的概率分布
步骤
第一步:列出各种可能出现的情况
第二步:计算每一种情况出现的概率
第三步:计算每一种情况的样本率
第四步:归纳出样本率的概率分布
计算样本率的均数和标准差
记得✖️概率权重
利用统计表计算样本率的分布
可以查阅二项分布表
二项分布表只提供了π≤0.5时的值,π>0.5时的值可以转换为求“失败”的概率,即先通过1-π查表,然后再将所得概率值对应到“成功”的情况下
应用概率公式或查阅二项分布表可得样本率p的概率分布,其可理解为:如果从总体中进行无限重复抽样,得到每个样本率p的频率恰好就是对应的概率
利用模拟实验计算样本率概率分布
用频率模拟概率
1、模拟实验的优势在于可以对样本量很大的样本进行多次重复抽样,而且抽样的次数也可以根据需要来调整
2、结论:随着样本量n的增大,样本率p的均数越来约接近总体率π,而样本率p的离散程度随着样本量的增加而逐渐变小,因此来自较大样本的样本率p一般更接近总体率π。
3、模拟实验与概率公式计算结果的比较:模拟抽样是大量有限次数的模拟实验结果;概率公式是数学上的理论解析结果
蒙特卡罗模拟实验
抽样率抽样分布的正态近似
背景
通过模拟实验发现随着样本量的增加,样本率的标准差越来越小,这就表明用样本率来估计总体绿的可靠性越来越高
我们可以通过改变模拟实验中的π和n来呈现变化规律
采用模拟实验呈现正态近似过程及条件
1、已知一个总体的总体率,现从中随机抽取n例个体,观察样本率p,用过模拟实验依次变化π和n,观察样本率的概率分布(二项分布图)
2、一般认为,在n比较大,而π不接近0和1时,可认为样本率近似服从正态分布,经验规则为nπ>5且n(1-π)>5时,样本率近似服从正态分布
与二项分布正态近似的条件是完全一致的
近似正态分布的连续性校正
用一个离散型的分布近似表达一个连续型分布
1、原因:由于离散型分布只能对整数计算概率,所以Pr(X≤10)=Pr(X≤10.5),但正态分布中Pr(X≤10)与Pr(X≤10.5)是不同的,所以正态近似存在误差,需要校正
2、因此,当利用二项分布的正态近似来计算累积概率时,可以对需要计算的”成功“次数的整数实施加0.5或减0.5后再采用正态分布近似法来计算,这样可以提高近似的准确性,此类方法称为近似正态分布的连续性校正
数理结论
可以利用公式计算样本率p的均数和标准差
以”成功“率为π的总体中随机抽取样本量为n 的样本,其样本”成功“率用p表示,则p的均数和标准差为: p的均数=π p的标准差= 由公式可知: 1、样本率的标准差与样本量的平方根呈反比,即可通过增大样本量来减少样本率的标准差,即减少抽样误差 2、用样本率p来估计总体Π时,估计的可靠性随着样本量的增加而增强
以”成功“率为π的总体中随机抽取样本量为n的样本,其样本”成功“率用p表示,则p的均数和标准差为:
由公式可知:
1、样本率的标准差与样本量的平方根呈反比,即可通过增大样本量来减少样本率的标准差,即减少抽样误差
2、用样本率p来估计总体π时,估计的可靠性随着样本量的增加而增强
nπ>5且n(1-π)>5时,样本率近似正态分布
以”成功“率为Π的总体中随机抽取样本量为n 的样本,其样本”成功“率用p表示,且nΠ>5且n(1-Π)>5时, p近似服从 当样本量不大时,正态分布近似法计算二项分布累积概率结果会有一定偏差,故应适用近似正态分布的连续性校正
以”成功“率为π的总体中随机抽取样本量为n的样本,其样本”成功“率用p表示,且nπ>5且n(1-π)>5时,p近似服从
当样本量不大时,正态分布近似法计算二项分布累积概率结果会有一定偏差,故应适用近似正态分布的连续性校正
样本均数的抽样分布
定量变量
利用概率公式计算样本均数的概率分布
1、通过例5-4,样本均数时总体均数的无偏估计 2、类似地,也可验证第一章分母为n-1的样本方差是总体方差的无偏估计量,而分母为n 的样本方差是总体方差的一个有偏估计
1、通过例5-4,样本均数是总体均数的无偏估计
当样本量很小时,例子中样本量为4(为了方便计算)
第一步:列出所有可能的样本组合
第二步:计算每种样本的概率
第三步:计算每种样本的样本均数
第四步:归纳出样本均数的概率分布
样本均数是一个随机变量,对应多个数值,可以用均数和标准差来描述样本均数的集中趋势和离散趋势
2、样本均数的概率分布呈现中间高、两边低、左右对称的形态,为样本均数的正态近似性
3、本例中,验证了样本均数的均数(根据概率分布求的)与总体均数相等,也即验证了样本均数为总体均数的无偏估计。也可验证第一章分母为n-1的样本方差s^2是总体方差的无偏估计量,而分母为n的样本方差是总体方差的一个有偏估计
利用模拟实验计算样本均数的概率分布
思想:产生1000组随机数,每组包含50个随机数,即构成一个样本含量为50的随机样本,最后计算1000个样本的样本均数,并统计它们出现的频数,即得到样本均数的概率分布
步骤
整体规划
总体已知,要了解的是”重复随机抽样得到的样本均数呈现怎么样的概率分布“
每次抽到n个个体的均数即样本均数
利用计算机模拟
计算样本均数
样本均数的每个取值对应的概率
描述样本均数的分布特征
实现从已知概率分布抽样
重复多重并综合结果
样本均数抽样的正态近似
1、样本均数的离散程度远小于总体分布的离散程度,即样本均数的标准差小于总体的标准差
2、样本的均数的取值随样本变化,但分布围绕总体均数μ基本左右对称,且中间高、两边低,呈近似对称
3、样本量不同时,样本均数的抽样分布是不同的,且样本量越大,样本均数的变异程度越小
4、实际上,无论总体分布如何,随着样本量n增加,样本均数的抽样分布都将近似正态分布
数理结论
样本均数是一个连续型随机变量,可用公式计算其均数和标准差
1、根据第四章均数加法法则:如果X 和Y是两个随机变量,则,可知样本均数的均数为:  即样本均数这个随机变量的均数等于总体均数μ 2、当总体中的个体数远远大于样本量时,认为样本之间时互相独立的,根据第四章只是,如果X和Y时相互独立的两个随机变量,则,所以可加性同样适用于方差,并且根据方差的揭发法则:如果X是一个随机变量并且a和b是常数,则,可以计算样本均数的方差为:  3、结论: 从一个均数等于μ,标准差等于σ的总体中抽取样本量为n的简单随机样本,其样本均数服从均数为,标准差为的抽样分布:  4、增大样本量可以减少样本均数的标准差,从而减少抽样误差
1、根据第四章均数加法法则:如果X 和Y是两个随机变量,则μ(X+Y)=μX+μY,可知样本均数的均数为:(如右图),即样本均数这个随机变量的均数等于总体均数μ
2、当总体中的个体数远远大于样本量时,认为样本之间时互相独立的,根据第四章知识,如果X和Y时相互独立的两个随机变量,则σ^2(X+Y)=σ^(X)+σ^2(Y),所以可加性同样适用于方差,并且根据方差的加法法则:如果X是一个随机变量并且a和b是常数,则σ^2(a+bX)=b^2×σ^2(X),可以计算样本均数的方差为:
σ(X-)^2是样本的方差,它的值是总体方差σ^2/n,意味着通过抽样,方差减小了,相对于总体而言,这也是我们进行抽样分布的原因,为了获取更集中的数据,好进行统计推断
3、结论:从一个均数等于μ,标准差等于σ的总体中抽取样本量为n的简单随机样本,其样本均数服从均数为μX,标准差为σX的抽样分布:
获得的抽样的样本的数据没有改变总体均数与样本的统计量样本均数的位置,而缩小了它的方差,说明数据他更集中了
原始的数据比较分散,我们通过抽样可以使数据更集中,而且不改变它的集中位置
抽样的目的1⃣️
4、增大样本量可以减少样本均数的标准差,从而减少抽样误差
当样本量n 很大时,无论总体分布如何,样本均数X-的抽样分布近似正态分布
1、样本均数的分布形态取决于总体分布的形态,如果总体分布是正态的,那么样本均数的分布也服从正态分布
2、现实中,许多总体分布并不是正态的,但样本均数也服从正态分布→根据中心极限定理
中心极限定理
从任意均数等于μ,方差等于的一个总体中抽取样本量为n的简单随机样本,当样本量你很大时,无论总体分布形态如何,样本均数的抽样分布近似正态分布: 近似服从正态分布
从任意均数等于μ,方差等于σ^2的一个总体中抽取样本量为n的简单随机样本,当样本量很大时,无论总体分布形态如何,样本均数的抽样分布近似正态分布:
通过抽样,获得了一个更集中、近似正态的分布,可以在样本的抽样分布的基础上进行统计推断,在很小的范围内推测出总体的参数,这是可以进行统计推断的原因
抽样的目的2⃣️
上一节的样本率也同样遵循了这个定理
样本率是一种特殊的样本均数,因此也遵循中心极限定理
根据第四章二项分布定义可知,二项分布可看成多次伯努利实验的和:用Si=1时表示第i次实验结果“成功”,Si=0表示第i次实验结果“失败”,可以将各个Si相加得到总的“成功”次数(即X=S1+S2+……+Sn),而“成功”率为p=(S1+S2+……+Sn)/n,可将其看成一个均数,即样本量为n的样本率可以用取值为0和1变量的样本均数来表示,因此其同样也遵循中心极限定理