导图社区 抽样技术
抽样技术的相关概念方法,整理了抽样调查简介、随机抽样、总比例P的估计、整群抽样、比率估计、关于r的属性、总体的一些标注、关于样本的标注、总体均值、总体方差、分层抽样、简单随机抽样、系统抽样的内容,一起来看吧!
编辑于2023-04-10 21:52:56 天津市抽样技术的思维导图
抽样调查简介
I. 什么是调查?抽样调查?抽样调查设计?
a. 调查是为了了解情况而进行考察的意思;b、抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象做出估计和推断的一种调查方法;c、如何获得好的样本的方法和步骤。
II. 专业术语以及定义
a、元素:1个或者多个测量项目在其实施;b、总体:所有的元素的集合;我们想要做出推断的对象;c、为了抽样,我们需要总体的一份目录;d、部分的元素的集合叫做单元;e、抽样单元:不重叠的从总体中选取的元素的集合,覆盖整个总体;f、抽样框:是所有抽样单元的目录;g、样本从抽样框里摘取的单元的集合;h、在一开始的时候,我们假设只有一个抽样框:单元就是元素,也就是一个单元里只包含一个元素。
III. 抽样调查的核心步骤
(1)建立调查的目标与目的
注意:(1)清楚的陈述目标是非常必要的;(2)调查尽可能的短;(3)不必要的提问非常的浪费;(4)可能是一个漫长的过程;(5)对于过于宽泛的目的,调查是不可能被设计出来的,需要将问题具体化。
(2)定义将要抽样的总体
一旦确立中心目的,就开始定义相关的总体。
注意:不要限制或者排除任何一部分重要的目标总体。
(3)选择适当的抽样框
首先,目标总体需要被准确的定义;然后,选择抽样框。在一个总体中,单元目录需要覆盖整个的单元,至少也应该接近于目标总体。
(4)选择合适的抽样调查设计
首先需要决定样本需要有多大。
需要知道要求精确度是多少
同时有着1-
通常我们取值
确定了样本量之后,我们要选择适当的抽样设计方案从总体中获得抽样单元。这时候,有用的信息就可以从样本当中获取。
抽样的方法很多,包括概率抽样和非概率抽样。
(5)决定获取数据的方法
个人访问
电话调查
邮件调查
在线调查
其他
(6)决定收集的变量
所有和调查目的相关的变量都要被收集,但是切记,调查在达到目的的同时,要尽可能的短小。
(7)创造与提前检验调查问卷
(8)收集,整理,分析所得到的数据
调查问卷的先验
小规模的先验调查问卷是非常有帮助的。
可以发现一些问卷当中的问题,然后进行修改:(1)用词,问题提出的顺序,版面的设计;(2)问卷的长短调整。
整理与分析数据
修正完成的问卷当中的明显错误
把数据整理到到电子表格或数据库当中
完成统计分析中的计算环节
获得所需的调查结论
还要考虑到问卷的答复率
IV. 不同类型的抽样方法
概率抽样:每一个可能的样本都有着已知的概率被选中。
好处:1、我们得出的估计量是无偏的;2、在95%的置信水平下,比例误差控制在2%的范围内
简单随机抽样
每一个可能的样本都有着相同的概率被选中
分层抽样
如果一个总体,可以被不重叠的被分为几个子总体,在合理的情况下,可以在每个子总体中进行概率抽样,特别的,当要被测量不管任何的事物的变化程度在层内变化小,而在层之间变化大的时候。
一般来说,总体变量的测量在使用分层抽样的时候,往往产生的方差较小。
非概率抽样
配额抽样
对一定的标志进行分类,然后对每个分类抽取希望数量的元素。
配额抽样是基于已知可用的数据,因此分类都能够显示出正确的比例。
根据什么进行分类?
同时也要考虑到不同的分类的人群可被访性。
使用社会地位进行配额会相当的困难——没有明确的标准进行配额
定义社会地位非常的困难,因为其本身就是很多因素的综合体。
即使定义出来的社会地位也是相当模糊的。如果社会地位用于配额控制,就会给受访者留下主观判断的空间,因此导致结果的偏差。
存在的问题
对于目标总体有没有代表性?
约访者更偏好去找更容易找到的人去进行约访。
配额抽样的反对主要论点
例如抽样误差无法计算
经常不具有代表性
社会阶层问题
严格的控制实际造作很困难——无法检查是否约访者把被约访者放在正确的分类当中。
配额抽样的优点主要论点
经济上花费更少。
不需要进行再次约访。
不用在路途上花费更多的时间。
便于掌控与管理。
实施工作更快捷。
不需要划分抽样框。
V. 调查当中的误差
种类
抽样误差
可以被控制和估计,通过仔细的设计调查
非抽样误差
无应答
可能是
问卷当中的个别问题
整个问卷
误差可能存在于接受调查的人和拒绝接受调查的人对于调查的态度不一样
注意:特别是对于使用邮寄方式进行的调查,无回应是一个严重的问题——无法知道无回应的人的特征是什么样的。
对于无回应的处理
再次访谈
酬谢与鼓励
不准确的应答
选取的偏差
出错的地方
这件事件的教育意义
如果研究当中本身存在重大的偏差,得到的结论没有任何意义。
一个小而精的设计,远远要比一个规模大,本身有偏差的设计要好得多。
对于一个糟糕设计的调查,增样本量没有任何的帮助!只会扩大问题的本身,得出更有偏差的结论。
VI. 调查问卷当中的词句的使用
问卷当中的用词
有偏差的用词
有偏差的用词产生的问题
提出的问题不够具体
使提出的问题保持具体,简单,明了!
VII. 敏感性问题
随机回答——处理敏感性问题的一种方法
对于随机回答的分析
随机回答的优点:回答问题的人更容易给出真实的答案
随机回答的缺点:因为我们不知道,对于个体来讲,他们回答的是哪个问题,因此不能够跟其他的问题相关联上。
随机抽样
基础概率
一些初等概率的概念
假设一个随机变量Y,可以取值
离散型随机变量的期望值
Y的期望值为:
离散型随机变量函数的期望值
离散型随机变量的方差
定义:
协方差
多个随机变量的方差
大小为N的有限总体
注:有的作者把公式写成1/N的形式,但是使用1/N-1会使后面要考虑到的计算公式更简单。
简单随机抽样
出现在大多数抽样方法的某些阶段。 处理分析最为简单。 适合于先前总体没有任何的结构认识。
定义
简单随机抽样是在大小为N的总体中,抽取大小为n的样本;使用这种方式,每一个大小为n的样本都有着相同的概率被选中。
另外的一种解释简单随机抽样的方式:在大小为N的总体中的每一个个体都有着相同的概率被选中进入到大小为n的样本中。
理论
假设:我们已经定义了目标总体。我们有合适的抽样框,由N个单元组成。在每一个单元里,我们测量到一个数u。那么总体就是
概率抽样
总体均值的估计
对于总体均值的估计量——样本均值
样本均值写为:
一个观测点的期望值
样本均值的期望
样本均值的方差
用途:
对于
总体均值u的置信区间
有限总体样本均值的分布情况
总体总值的确定
样本量的选择
总体总值
(sample total)的均值和方差
样本量的计算
关于样本量的确定
注意:我们在这里所计算出来的样本量是达 到相应的精确度,要求的最小的样本量。 在实际当中,往往不能获取到100%的回复 率。因此,研究人员要先前对回复率进行 一个估算。
总比例P的估计
• 我们可能想去估计总体当中某些特征的: --比例/百分比(p) --数量(a) 那么对于一个大小为n的简单随机样本来讲, 我们可以去估计: --p=总体比例 --a=Np=总体总值 • 现在,我们让r=我们在样本中的呈现出的感 兴趣的特征。 • 这时候我们对于p的估计为: • 对于总体总值a的估计为: nr p = nr a = Np = N 3 • 现在,我们定义: • 然后可得: 如果总体当中的第 个观测点未呈现感兴趣的特征 如果总体当中的第 个观测点呈现出感兴趣的特征 u i u i ii 0, 1, == N u u u p + + + N = ...... 1 2 N a = u + u +......+ u 1 2 (= u,总体均值) (=τ,总体总值) 也就是说,我们可以得到: • p=总体均值 (当一个二元变量定义为0和1 的时候) • a=总体总值
中心极限定理
• 这里,注意到和二项分布有着相似的方差 ,即p(1-p)/n. • 从这里可以看出,不放回抽样的影响是由 于(1-f). • 如果 N → ∞, f → 0 的话,不放回抽样和放回 抽样对于参数估计的性质是一样的。
• 如果p值非常靠近0或者1的话,那么正态估 计可能就是不可靠的。 • np或者n(1-p)小于30 • 且p<0.25或者p>0.75的时候,可以说正态估 计是不可靠的。
关于p的置信区间
约为100(1-a)%的置信区间:
样本量的决定
在决定样本量的时候,我们可以用到: • P的估计值。(有的时候,p的可能的取值 范围可以被用到,最后决定用产生的n的最 大值来作为p的取值) • P=0.5 (当没有可靠的p的估计范围的时候 ,并且p的取值范围可能会包含0.5) • 注意,当使用p=0.5的时候,可能会造成保 守的样本量估计,即比实际需求的要多。
整群抽样
阶段整群抽样
标注
当整群的大小相同的时候
整群抽样均值方差 与简单随机抽样均值方差的比较
• 如果组内变化程度大小远大于组间均值变 化大小,那么整群抽样的均值会更好(有 着较小的方差),和简单随机抽样的均值 相比较。因此,整群抽样可以被采用,当 • 整群(s)的均值相似 • 较大整群的方差 (我们希望每一个整群尽可能的对总体具有 代表性)
整群的大小不相等的时候
对于u的估计
• 这是一个样本的比率估计,因此可以用来 对总体比率进行估计。
总结:基于一个整群抽样样本,我们需要什么样 的信息,去估计均值和标准差? • N=总体当中的整群数量 • n=被抽取到的整群数量 • m1,m2 ,...,mn 被抽取的整群(s)大小 • y1, y2 ,..., yn 整群总值(s)
比率估计
总结
比率&回归估计
关于r的属性
• R当中的分子和分母都是随机变量。 • 这就造成了抽样分布很难获得。 • 在小的样本当中,r的分布是有偏的,并且 在一定程度上,r对R的估计是有偏的。 • 在大样本当中,这种有偏可以得到很好的 解决,并且r呈现出正态分布。
大样本情况下,r的分布
在实际中寻找Var(r)的方法
关于r的置信区间
总体的一些标注
关于样本的标注
总体均值
总体方差
分层抽样
• 这种抽样方法叫做分层抽样。 • 注意到,使用简单随机抽样的时候,样本 均值的方差为0.3158,而使用分层抽样的时 候,样本均值的方差降到了0.(当然讲述的 是一个比较极端的例子) • 对总体进行分层的目的是减小估计量的方 差
简单随机抽样
样本均值方差的推导
样本均值的方差
样本量的需求
样本量的决定
我们要求总体比例的抽样误差控制在5%以内 ,置信水平在95%。
系统抽样
特点
• 更简单 • 节省时间和体力 • 对于识别抽样单元可以有更少的错误 • 更容易使用,当抽取的样本在一个区域中 完成。 • 感觉上,系统抽样可能会比简单随机抽样 更精确。
系统抽样样本均值的方差
注意:在系统抽样中,当k=周期循环(或者 等于一个整数×周期循环)的周期时,是 无用处的。