导图社区 25章抽样调查
抽样框中没有更多可以利用的辅助信息;调查对象分布的范围不广阔;个体之间的差异不是很大
编辑于2022-07-14 15:38:2325章 抽样调查
1节 抽样调查基本概念
1.抽样调查的基本概念
抽样调查
抽样调查是使用频率最高的一种调查方式。 它是指按照某种原则和程序,从总体中抽取一部分单位,通过对这一部分单位进行调查得到信息,以达到对总体情况的了解,或者对总体的有关参数进行估计。
从某公司 1000 名注册在职员工中随机抽取 200 名员工来了解该企业注册在职人员的工资状况。
总体
调查对象的全体
上例中,总体是公司 1000 名注册在职员工
样本
样本是总体的一部分,由从总体中按一定原则或程序抽出的部分个体所组成。 样本也是一个集合。抽样调查中调查的具体实施是针对样本而言的。
上例中,随机抽取的 200 名注册在职员工就是样本
总体参数
总体指标值,它是未知的常数,是根据总体中所有单位的数值计算的,是通过调查想要了解的,不受样本的抽选结果影响。 常用的总体参数包括总体总量、总体均值、总体比例、总体方差等。
上例中,公司所有注册在职人员的平均工资就是总体参数
样本统计量 (估计量)
是根据样本中各单位的数值计算的,是对总体参数的估计,也称估计量。 它是一个随机变量,取决于样本设计和正好被选入样本的单元特定组合。常用的样本统计量有样本均值、样本比例、样本方差
上例中,200 名注册在职员工的平均工资就是该公司所有注册在职员工平均工资的一个估计量,也就是样本统计量
抽样框
供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。常用的抽样框有名录框,如企业名录、电话簿、人员名册。抽样框中的单位必须是有序的,便于编号
上例中,企业 1000 名注册在职职工的名册,就是抽样框
2.概率抽样与非概率抽样
概率抽样 (也称随机抽样)
特点
(1)按一定概率以随机原则抽取样本 (2)总体中每个单元被抽中的概率是已知的或者是可以计算出来的 (3)当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率 【提示】若每个单位被抽中的概率相等,称为等概率抽样;若每个单位被抽入样本的概率不同则称为不等概率抽样。无论等概率或不等概率抽样,抽取时都要通过一定的随机化程序来实现。
方法
(1)简单随机抽样 (2)分层抽样 (3)系统抽样 (4)整群抽样 (5)多阶段抽样
非概率抽样
特点
抽取样本时并不是依据随机原则,调查者根据自己的方便或主观判断抽取样本
方法
(1)判断抽样:调查人员依据调查目的和对调查对象情况的了解,人为确定样本单元。例如选平均型单元作为样本。 (2)方便抽样:依据方便原则,以达到最大限度降低调查成本的目的,比如拦截式调查,在街边或居民小区拦住行人进行调查。 (3)自愿样本:不是经过抽取,而是自愿接受调查的单元所组成的样本,典型的是网上调查。 (4)配额抽样:将总体中各单元按一定标准划分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法则没有严格限制。一般采用方便抽样的方法抽取样本单元。
3.抽样调查的一般步骤
1、确定调查问题
需要明确地定义问题
2、调查方案设计
抽样方案的设计、问卷设计
3、实施调查过程
关键是要保证原始数据的质量,需要对调查过程进行有效的管理和监控
4、数据处理分析
对数据进行统计分析;对总体参数进行估计等
5、撰写调查报告
调查活动的最终成果,是前面劳动成果的展现
4.抽样误差与非抽样误差
样本估计值和总体参数值之间的差异称为误差
1.抽样误差
由抽样的随机性造成的,用样本统计量估计总体参数时出现的误差
2.非抽样误差
除抽样误差外,由其他原因引起的样本统计量。
(1)抽样框误差:样本框不完善造成的
(2)无回答误差:调查人员没能够从被调查者那里得到所需要的数据。 ①随机因素造成的,如被调查者恰巧不在家 ②非随机因素造成的,如被调查者不愿告诉实情而拒绝回答
(3)计量误差: 由于调查所获得的数据与其真值之间不一致造成的误差。 这种误差可能是由调查人员、问卷设计、受访者等原因造成的。 【例如】 调查员在调查中有意无意诱导被调查者; 调查中的提问错误或记录答案错误; 调查人员有意作弊; 由于问卷的原因受访者对调查问题的理解有偏误; 受访者记忆不清; 受访者提供虚假数字等。
2节 几种基本概率抽样方法
五种基本的概率抽样方法
(1)简单随机抽样
1.分类
(1)有放回简单随机抽样
从总体中随机抽出一个样本单位,记录观测结果后,将其放回总体中去,再抽取第二个,以此类推,直到抽满 n 个单位为主。该方法容易造成信息重叠而影响估计效率,较少采用。
(2)不放回简单随机抽样
从包含 N 个单元的总体中逐个随机地抽取单元并不放回,每次都在所有尚未被抽入样本的单元中等概率地抽取下一个单元,直到抽取 n 个单元为止。该法每个单位最多只能被抽中一次,比有放回抽样的抽样误差低
2.方法
基本的随机抽样方法,每个单位的入样概率相同,样本估计量形式比较简单。但该抽样方法没有利用抽样框中更多的辅助信息,样本分布分散时,会增加调查的时间和费用
3.适用条件
抽样框中没有更多可以利用的辅助信息;调查对象分布的范围不广阔;个体之间的差异不是很大
4.应用举例
在调查某部门平均工资时,从该部门 10 人中随机抽取 5 人进行调查,这种抽样方法属于简单随机抽样
(2)分层抽样
1.概念
先按照某种规则把总体分为不同的层,然后在不同的层内独立、随机地抽取样本 【提示】如果每一层都是简单随机抽样,则称为分层随机抽样。为了组织调查的方便,各层还可以采用不同的抽样方法。由于每层都要抽取一定的样本单位,这样样本在总体中分布比较均匀,可以降低抽样误差
2.应用举例
在调查某部门(共 10 人)的平均工资时,先将该部门员工分为经理(4 人)和普通职员(6 人)两类,再采用随机原则分别在经理和普通职员中抽取样本,这种抽样方法属于分层抽样
【提示】分层抽样中,样本量在各层中分配的方法有等比例分配和不等比例分配两类 (1)等比例分配:该层的样本单位比例与该层中的总体单位比例一致。等比例分配操作简单,易于理解 如上例中,若在总体 10 人中抽出 5 人来调查,采用等比例分配方法,各层样本占各层总体的比例=5/10=1/2。经理层抽出 2 人(4×1/2),普通员工层抽出3 人(6×1/2)。 (2)不等比例分配:各层单位数相差悬殊时,可在总体单位少的层适当增大样本量或有些层内方差过大,为了降低抽样误差,在方差大的层中多抽,在方差小的层中少抽。 【提示】在条件具备时,如果各层的总体方差已知,不等比例抽样的抽样误差可能比等比例抽样更小。
3.适用条件
抽样框中有足够的辅助信息,能够将总体单位按某种标准划分到各层之中,实现在同一层内,各单位之间的差异尽可能小,不同层之间各单位的差异尽可能大。(层内差异小,层间差异大)
(3)系统抽样
1.概念
将总体中的所有单元按一定顺序排列,在规定范围内随机抽取一个初始单元,然后按事先规定的规则抽取其他样本单元。 最简单的系统抽样是等距抽样。 (即将总体个单位按直线排列,根据样本量确定抽样间隔,抽样间隔= / ≈ ,为最接近/的一个整数。在1~范围内随机抽取一个整数,令位 于位置上的单位为起始单位,往后每隔抽取一个单位,直至抽满)
2.应用举例
调查一个居委会 4000 户家庭人均收入,编号 1~4000,要抽取 40户,在 1~100 号中随机确定 15 号,抽取的样本为 15;15+100;15+200;15+300;……15+3900,这种抽样方法属于系统抽样中的等距抽样
3.优点
是对抽样框的要求比较简单,它只要求总体单位按一定顺序排列,系统抽样的估计效果与总体排列顺序有关
(4)整群抽样
1.概念
将总体中所有的基本单位按照一定规则划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部的基本单位,对没有抽中的群则不进行调查。 与简单随机抽样相比,整群抽样的优点是: (1)实施调查方便,可以节省费用和时间,调查效率较高; (2)抽样框编制得以简化,抽样时只需要群的抽样框,而不要求全部基本单位的抽样框
2.应用举例
2.应用举例: (1)调查某城市在职的房地产从业人员工资水平,将房地产行业所有在职人员按照所属企业分群,直接抽取企业单位,入样企业单位内所有职工 均接受调查,没有入样的企业单位员工都不调查; (2)以家庭为群,采用整群抽样估计某地区的男女比例
3.适用
如果群内各单位之间存在较大差异,群与群的结构相似,整群抽样会降低估计误差
(5)多阶段抽样
1.概念
经过两个或两个以上抽样阶段才能抽到最终样本单位,这就是多阶段抽样。如果经过两个阶段抽样,抽取到接受调查的最终单位,称为二阶段抽样;以 此类推。在大范围的抽样调查中,采用多阶段抽样是必要的
2.应用举例
某城市为调查居民对市政建设的满意度,先从该市所有居委会中随机抽取 20 个居委会,再从每个被抽中的居委会中随机抽取 30 个居民家庭进行入 户调查,该项调查采用的抽样方式是多阶段抽样,第一阶段采用整群抽样,第二阶段采用了简单随机抽样
3节 估计量和样本量
1.估计量的性质
一致性
随着样本量的增大,估计量的值如果稳定(收敛于)于总体参数的真值,这个估计量就有一致性,也称为一致估计量
无偏性
对于不放回简单随机抽样,所有可能的样本均值取值的平均值总等于总体均值
有效性
在同一抽样方案下,对某一总体参数,如果有两个无偏估计量̂1、̂2,如果̂1的可能样本取值较̂2更密集在总体参数真值附近,则认为̂1比̂2更有效,̂的方差必然小于̂的方差
在不同的抽样方法下,同一估计量也会有不同的估计效果。 在同一抽样方法下,也会有不同的估计量可供选择。
【考点提示】估计量的性质考核方式有两种: (1)3 个性质都是什么。记忆方法是一首歌曲名,即“一无所有”,“一”是指一致性;“无”是指无偏性;“有”是指有效性。 (2)每一个性质都是什么含义。一致性对应的关键词是“稳定”;无偏性对应的关键词是“等于”;有效性对应的关键词是“密集”。
一无所有
2.抽样误差的估计
一、抽样误差无法避免,但可以计算
在不放回简单随机抽样方法中,将样本均值作为总体均值的估计量。则估计量的方差为: 样本估计量的方差=(1-样本量n/总体个数N)*(总体方差S²/样本量n) =没被抽中的数量占总数量的比例*单位方差 【提示】实践中,总体方差是未知的,通常用样本方差来替代。
二、影响抽样误差的因素
1.抽样误差与总体分布有关,总体单位值之间差异越大,即总体方差越大,抽样误差越大。 2.抽样误差与样本量有关,其他条件相同,样本量越大,抽样误差越小。 3.抽样误差与抽样方式和估计量的选择也有关。例如分层抽样的估计量方差一般小于简单随机抽样。 4.利用有效辅助信息的估计量也可以有效的减小抽样误差。
3.样本量的影响因素
调查的精度
调查的精度是指用样本数据对总体进行估计时可以接受的误差水平,要求的调查精度越高,所需要的样本量就越大
总体的离散程度
在其他条件相同情况下,总体方差越大,所需要的样本量也越大
总体的规模
对于大规模的总体,总体规模对样本量的需求几乎没有影响。 但对于小规模的总体,总体规模越大,为保证相同估计精度,样本量也要随之增大
无回答情况
无回答减少了有效样本量,在无回答率较高的调查项目中,样本量要大一些,以减少无回答带来的影响
经费的制约
样本量是调查经费与调查精度之间的某种折中和平衡
其他因素
调查的限定时间、实施调查的人力资源等