导图社区 数据来源及调查方法
这是一篇关于数据来源及调查方法的思维导图,主要内容有调查方法:抽样和普查、概率抽样与非概率抽样、搜集数据的基本方式等。
社区模板帮助中心,点此进入>>
英语词性
安全教育的重要性
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
【华政插班生】文学常识-两宋
民法分论
数据来源及调查方法
调查方法:抽样和普查
概率抽样与非概率抽样
1 概率抽样(强调样本的代表性、统计推断):也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
定量研究
1 代表性:样本的特征与总体特征一致
2 重点:推断统计,由分析样本得到结论,推断总体的特性。
3 随机原则:每个单位都有机率被抽中,每个单位被抽中的概率是已知的
4 样本统计量的理论分布存在(中心极限定理、正态分布)
5 可依据调查结果推断总体
6 抽样调查的特点
经济性强
时效性高
适应面广
准确度高
2 概率抽样
2.1. 抽样框:通常包括所有总体单位的信息,如企业名录、学生名册、住户门牌号等
2.1.1. 名单抽样框
2.1.2. 区域抽样框
2.1.3. 时间表抽样框
2.1.4. 要求
完备性
互斥性
2.2. 简单随机抽样——最基本的方法,是其他抽样方法的基础(在规模较大的调查中,很少直接采用简单随机抽样,多结合使用):从总体中随机抽取n个单位,每个单位入抽样本的概率是相等的。例如:抓阄
2.2.1. 特点:简单、直观、对目标量进行估计及计算估计量误差都比较方便
2.2.2. 缺点
要求包含所有总体单位的名单作为抽样框,当n很大时,构成抽样框并不容易
采用这种方法抽出的单位很分散,给实施调查增加了困难
没有利用其他辅助信息以提高估计的效率
2.3. 分层抽样(等比例,等额分层):是将抽样单位按某种特征或某种规律划分为不同层次,然后从不同层中独立、随机地抽样样本。将各层的样本结合起来,对总体的目标量进行估计
2.3.1. 优点:保证了样本中包含有各种特征的抽样单位,样本结构与总体特征相近,可以提高估计的精度、在一定条件下给调查提供了方便、既可参与对总体参数的估计,也可以对各层的目标量进行估计。
2.3.2. 在实践中得到了广泛的应用
2.4. 整群抽样:将若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
2.4.1. 优点:只需要群的抽样框,简化了边际抽样框的工作量、群通常由那些地理位置邻近或隶属于同一系统的单位所构成,调查的地点相对集中,从而节省调查费用
2.4.2. 缺点:估计精度较差
2.5. 系统抽样:将总体中的所有抽样单位按一定顺序排列,在规定的范围内随机抽取一个原始单位作为初始单位
2.5.1. 优点:操作简单,如果存在辅助信息,会提高估计的精准度
2.5.2. 缺点:对估计量方差的估计比较困难。
2.6. 多阶段抽样:指两个或两个以上的阶段来完成抽取样本单位的过程。就是分阶段抽样,实用性较高,大规模抽样中,经常被采用
2.6.1. 先抽取群,但并不是调查群内所有单位,而事再进一步抽样,从选中的群众抽取若干个单位进行调查。(群事初级抽样单位,第二阶段抽取的是最终抽样单位,不是说只有两个阶段)
2.6.2. 具有整群抽样的优点,保证样本相对集中,节约调查费用,需要包含所有低阶抽样单位的抽样框,同时由于实行了再抽样,使调查单位在更广泛的范围内展开
3 非概率抽样—无需推断总体,强调样本的典型性
3.1. 典型性:样本对理论或特性、共性的反映、阐释、说明具有说服力
3.2. 重点:描述统计,描述和分析样本,得到结论。
3.3. 目的:收集特殊的个案、事件和行动,以澄清和深化理解
3.4. 特点:抽取样本时不是一句随机原则而是根据研究目的对数据的要求,采用某种方式从总体中抽取部分单位对其实施调查。
3.5. 样本统计量的分布是不确定的,不能用结果推断总体
4 非概率抽样
4.1. 方便抽样:调查过程中由调查员依据方便的原则,自行确定入选样本的单位,例如街头调查
4.1.1. 优点:容易实施,调查成本低
4.1.2. 缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体
4.2. 判断抽样:研究人员根据经验、判断和对研究对象的了解,有目的的选择一些单位作为样本,有重点抽样、典型抽样、代表抽样等方式
4.2.1. 判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性/
4.2.2. 抽样成本低,容易操作
4.2.3. 样本是人为确定的,没有一句随机的原则,调查结果不能用于推断统计
4.3. 自愿样本:被调查者自愿参加,成为样本中的一份子,向调查人员提供有关信息,例如打电话询问
4.3.1. 自愿样本与抽样的随机性无关
样本是有偏的,不能推断总体
4.4. 滚雪球抽样:先选择一组调查单位对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的限速,进行此后的调查,这个过程持续下去,就会形成滚雪球效应
4.4.1. 适合于对稀少群体和特定群体的研究
4.4.2. 优点:容易找到那些属于特定群体的被调查者,调查成本也比较低
4.5. 配额抽样:先将总体中的所有单位按一定的标志(变量)分为若干类,然后在你每个类中采用方便抽样或判断抽样的方式选取样本单位
4.5.1. 操作简单,可以保证总体不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似
4.5.2. 抽取具体样本单位时,不是依据随机原则
搜集数据的基本方式
自填式:没有调查员,回收率较低,成本较低,对填写人的要求高
电话式:地域广
面访式:面对面
数据搜集方法的选择需要考虑的问题
抽样框中的有关信息
目标总体的特征
调查问题的内容
有型辅助五的使用
实施调查的资源
管理与控制
质量要求
实验方法
实验组:是指随机抽选的实验对象的子集,在这个子集中,每个单位接收某种特别的处理
对照组:每个单位不接受实验组成员所接受的某种特别的处理
什么是好的样本
对总体有代表性
样本特征尽可能地与总体特征一致
每个被抽中的单位能够代表总体中已知的一定数量单位的特征
一组大的样本并不能确保就是具有代表性的样本
数据的误差
抽样误差:由于抽样的随机性带来的误差,所有样本可能的结果与总体真值之间的平均性差异,影响抽样误差的大小因素:样本量的大小,总体的差异性(抽样方法不一样,抽样误差就不一样)
非抽样误差:相对于抽样误差而言,除抽样误差之外,由于其他原因造成的样本观察结果与总体真值之间的差异,包括回答误差、无回答误差、调查员勿擦好、测量误差
回答误差
理解误差:不确定词语的使用、问题顺序
记忆误差:涉及一定时期内的事实
有意识误差:敏感性问题
无回答误差
无回答误差的产生:拒绝、不在家、电话没人接等
产生的原因
随机的,与调查内容无关,例如问卷丢失
系统的,与调查内容有关,例如故意不接听电话
后果:系统性的无回答,会产生估计偏差,如收入调查、电话访问无人接听
解决办法:不轻易放弃、多回访,多沟通,增大样本量
抽样误差是一种随机性误差,只存在于概率抽样中,非抽样勿擦好则不同,无论是概率抽样、非概率抽样,还是在全面调查中,都有可能产生抽样误差
抽样误差的控制
抽样误差可计算和控制(要依赖于研究员的专业水准)
非抽样误差的控制:调查员的挑选、培训、督导员的调查专业水平,调查过程的控制,调查结果需要进行检验、评估,现场调查人员进行奖惩的制度(依赖于执行力)
统计数据的质量要求
精度、准确性、关联性、及时性、一致性、最低成本