导图社区 统计基础知识 第三章 参数估计
统计基础知识-抽样分布、参数估计、样本量的确定
编辑于2020-05-18 16:29:34参数估计
抽样分布
总体分布与总体参数
X分布就是总体分布
总体参数是对总体特征的某个概括性的度量
总体均值m
总体方差s
总体比例p
统计量与抽样分布
统计量
根据样本数据计算的用于推断总体的某些量,对样本特征的某个概括性度量
是不含任何未知参数的函数
抽样分布
由样本统计量所形成的概率分布
抽样分布就是统计量的分布
抽样分布仅仅是一种理论分布
样本统计量
样本均值x
样本方差s
样本比例p
统计量的概率分布提供了该统计量长远而稳定的信息,它构成了推断总体参数的理论基础
样本均值的抽样分布
样本均值的抽样分布是指所有可能抽出来的样本分布
样本均值的均值就是总体均值
在重复抽样时,样本均值的方差为总体方差s的1/n
在不重复抽样时,样本均值的方差略小于重复抽样的方差
(N-n)/(N-1)为修正系数,对于无限总体进行不重复抽样时,可按照重复抽样计算
当总体为有限总体,N比较大而n/N³5%时,修正系数可简化为1-n/N
当N比较大,而n/N<5%时,修正系数可以近似为1,可按重复抽样计算
当总体服从正态分布时,样本均值一定服从正态分布,公式
中心极限定理
若总体为未知的非正态分布,只要样本容量n足够大n³30,样本均值仍会接近正态分布,其分布的期望值为总体均值,方差为总体方差的
如果总体不是正态分布,且n为小样本n<30时,样本均值的分布则不服从正态分布
样本比例的抽样分布
总体比例p-通常是一个未知的参数-想通过抽样得到的说明总体特征的数据
样本比例R-样本统计量
描述所有可能样本比例的概率分布就是样本比例的抽样分布
当样本容量比较大时,样本比率R近似服从正态分布,且R的数学期望就是总体比率p
R的方差与抽样方法有关
重复抽样
不重复抽样
P的分布
重复抽样
不重复抽样
总结
当np³5,且n(1-p)³5,可以任务样本容量足够大
对于无限总体,不重复抽样可以视为重复抽样计算方差
对于有限总体,当N很大,而n/N£5%,修正系数会趋向1,也可按重复抽样计算方差
随着样本容量的增大,样本比例的方差愈来愈小,说明样本比例随样本容量增大,围绕总体比例分布的峰度愈来愈高。
样本方差的分布
总体分布为正态分布
将X(n-1)称为自由度为n-1的卡方分布
统计量的标准误差
定义
是指样本统计量分布的标准差
作用
用于衡量样本统计量的离散程度
在参数估计中,用于衡量样本统计量与总体参数之间差距的一个重要尺度
样本均值的标准误差用SE或 表示
当总体标准差s未知时,可用样本标准差s代替-称为估计标准误差
当总体比例的方差p(1-p)未知时,用样本比例的方差p(1-p)代替
参数估计
定义
根据样本统计量去估计总体的参数
如用样本均值 估计总体均值m,用样本比例p估计总体比例p,用样本方差s估计总体方差s
参数是唯一的,但估计/统计量是随机的,取值不确定。
点与区间估计
点估计
用样本统计量的某个实际取值作为相应的总体参数的估计值
用样本均值估计总体均值m,用样本比例p估计总体比例p,用样本方差 估计总体方差
区间估计
在点估计基础上,给出估计参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到
标准正态分布
N(0,1),均值为0,标准差为1
样本均值的正态分布标准化公式
置信水平
68.27%的置信水平推断总体参数m的置信区间z=1
95.45%的置信水平推断总体参数u的置信区间z=2
99.73%的置信水平推断总体参数u的置信区间z=3
总结
当样本量给定时
置信区间的宽度随着置信水平的增大而增大
当置信水平固定时
置信区间的宽度随样本量的增大而减小
评价估计量的标准
无偏性
估计量抽样分布的期望值等于被估计的总体参数
设总体参数为 ,所选择的估计量为 ,如果E = ,则称 为 的无偏估计量
样本均值是总体均值,样本比例是总体比例,样本方差是总体方差的无偏估计量
有效性
指估计量的方差尽可能小
对同一个总体参数的两个无偏估计量,有更小方差的估计量更有效
一致性
随着样本量的增大,估计量的值越来越接近被估计总体的参数
样本量越大,标准误差 就越小,大样本量给出的估计量更接近于总体参数
样本的均值就是一个总体均值的一个一致无偏估计量
一个总体均值的区间估计
考虑三因素
总体是否正态分布,总体方差是否已知,大样本还是小样本
总体均值在1-a置信水平下的置信区间表达式
(c-分位数*c的标准误差,c+分位数*c的标准误差)
大样本的估计
s方差已知3.15
s方差未知 3.16
总体方差用样本方差s代替
小样本的估计
方差s已知,样本均值标准化后服从标准正态分布仍用 3.15
方差s未知,标准化后服从自由度为(n-1)的t分布 3.17
t分布为对称分布,总体均值的置信区间为 3.18
一个总体比例的区间估计
大样本条件下,根据中心极限定理,若np³5,n(1-p)³5,则二项分布可用正态分布近似 则,公式3.19
总体比率p已知
公式 3.21
总体比率p未知,用样本比率p代替
公式 3.22
一个总体方差的区间估计
样本方差服从自由度为n-1的X分布
总体方差 在1-a置信水平下的置信区间为 3.25
两个总体参数的区间估计
两个总体均值之差的估计:独立样本
大样本估计
方差已知 3.26
方差未知用样本方差代替 3.27
小样本估计
当总体方差 已知,可建立两个总体均值之差的置信区间
当总体方差 未知
s=s 3.28
s¹s 3.29
两个总体均值之差的估计:匹配样本
大样本估计
3.30
小样本估计
3.31
两个总体比例之差的区间估计
3.32
两个总体方差之比的区间估计
两个样本方差之比的抽样分布服从F(n-1,n-1)分布,可用F分布来构造两个总体方差之比 的置信区间
公式3.33
样本量的确定
样本容量影响因素
总体标准差
总体的变异程度越大,必要的样本容量也就越大
最大允许误差
最大允许越大,需要的样本容量越小
置信度1-a
要求的置信度越高,需要的样本容量越大
抽样方式
抽样误差
实际抽样误差
样本估计值与总体真是值之间的绝对离差称为实际抽样误差 即
实际抽样误差是不可知的,是一个随机变量
抽样平均误差
样本均值的标准差,标准误,反映样本均值与总体均值的平均差异程度,即
重复抽样条件下 3.35
不重复抽样条件下 3.36
最大允许误差
误差范围 用E表示
最大允许误差是人为确定的,是调查者能够容忍的误差水平
估计总体均值时样本量的确定
不重复抽样条件下样本容量计算公式 3.37
样本量与置信水平成正比关系,在其他条件不变条件下,置信水平越高,所需的样本量也就越大
样本量与总体方差成正比,总体的差异越大,所要求的样本量也就越大
样本量与允许的估计误差的平方成反比,允许的估计误差的平方越大,所需的样本量就越小
总结:要求一个置信程度很高又误差很小的估计,就需要更大的样本量
估计总体比例时样本量的确定
总体比例的值固定,估计误差主要由样本量来确定,样本量越大,估计误差就越小,估计的精度就越高
E代表允许误差,估计总体比例所需样本量 3.39
总结
E的取值一般应小于0.1
如果总体比例p的值不知道,用样本比例p代替,取p=0.5,使p(1-p)达到最大