导图社区 数据的搜集
统计学第七版贾俊平第二章数据的收集知识总结,包括数据的直接来源、间接来源、搜集数据的基本方法、数据搜集方法的选择、数据的误差等。
编辑于2021-11-19 17:17:31数据的收集
直接来源
调查数据
通过调查方法得到的数据
针对社会现象
取有限总体 即总体所包含的个体单位是有限的
实验数据
通过实验方法得到的数据
针对自然现象
在实验中控制实验对象所搜集到的变量的数据
间接来源
二手资料(对原信息重新整理,可以使用的数据)
优点
搜集方便
数据采集快
采集成本低
局限性
针对性不够
资料的相关性不够
口径可能不一致
数据也许不准确,也许过时
作用
分析所要研究的问题
提供研究问题的背景
帮助研究者更好地定义问题
检验和回答某些假设和疑问
寻找研究问题的思路和途径
对二手资料评估的内容
who
why
when
how
调查方法
概率抽样
简单随机抽样
从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位的入样概率是相等的。简单随机抽样是一种最基本的抽样方法。
优点
简单、直观,在抽样框完整时,可以直接从中抽取样本,能比较方便的用样本统计量对目标量进行估计及计算估计量误差。
缺点
当总体单位个数N很大时,很难构造抽样框;抽出的单位很分散;效率低。
分层抽样
将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。
优点
精度高;在一定条件下组织实施调查方便;在对总体的参数进行估计的同时,也可以对各层的目标量进行估计。
缺点
整体差异不明显时不适用,在使用时需要与其他抽样方法综合使用。
整群抽样
将总体中若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
优点
简化了编制抽样框的工作量;调查的地点相对集中,减少调查费用,易于调查实施。
缺点
估计的精度较差;抽样误差通常比较大
系统抽样
将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先制定好的规则确定其他样本单位。
优点
操作简便;对总体内的单位进行有组织的排列,可以有效地提高估计的精度。
缺点
对估计量方差的估计比较困难。
多阶段抽样(较大规模)
首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查。
优点
样本相对集中,减少调查费用;不需要包含所有低阶段抽样单位的抽样框;由于实行了再抽样,使调查单位在更广泛的范围内展开。
非概率抽样
方便抽样
调查员根据方便原则,以最大限度降低调查成本的目的,自行确定作为样本的单位
优点
容易实施,调查成本低
缺点
样本单位的确定随意,不能对总体参数进行推断
举例
“拦截式”调查
判断抽样
调查员根据经验和对研究对象的了解,有目的地选择样本
优点
抽样成本低,易于操作
缺点
样本人为确定,不能对总体参数进行推断
举例
“平均型”,“众数型”样本
自愿样本
被调查者自愿参加,向调查人员提供有关信息
优点
提供许多有价值的信息,反映某类群体的一般看法
缺点
样本有偏,不能对总体参数进行推断
举例
网上调查
滚雪球抽样
选择一组调查单位,对其实施调查后,再调查他们提供另外一些属于研究总体的调查对象
优点
容易找到属于特定群体的被调查者,调查成本较低
缺点
耗时长,不能对总体参数进行推断
举例
微信朋友圈转发问卷
配额抽样
将总体中的所有单位分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位
优点
操作简单,样本的结构和总体的结构相似
缺点
可能出现偏斜的情况,不能对总体参数进行推断
举例
按年龄性别配额分配样本
概率抽样与非概率抽样的比较 (前者概率抽样,后者非概率抽样)
随机抽选样本(样本统计量分布存在)
不是随机抽选样本(样本统计量分布不确切)
可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间
不能做到
适合调查目的在于掌握研究对象总体的数量特征的调查
适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做准备
技术含量高,要求有较高的统计学专业知识,调查的成本比较高
操作简便,时效快,成本低,对抽样中的统计专业技术要求不是很高
搜集数据的基本方法
自填式
在没有调查员协助的情况下由被调查者自己填写,完成调查问卷
优点
调查员组织管理相对容易;
调查成本最低, 增大样本量对调查费用影响很小, 可进行大范围的调查;
减小被调查者回答敏感性问题的压力
缺点
不适合结构复杂的问卷, 对调查的内容有局限;
调查周期比较长;
难以及时调改措施解决数据收集出现的问题;
问卷回收率比较低
面访式
现场调查中调查员与被调查者面对面, 调查员提问、 被调查者回答
优点
提高调查的回答率;
提高调查数据的质量, 利于识字率低的群体调查;
调查问题组合更科学合理;
可借助其他调查工具(图片、 卡片等)丰富调查内容;
可对花费时间进行调节
缺点
调查成本高;
对调查过程的质量控制有一定难度;
对于敏感性问题, 被调查者可能不愿当面回答
电话式
调查人员通过打电话的方式向被调查者实施调查
优点
速度快, 能够在很短的时内完成调查;
成本低廉, 适合样本单位分散情况;
为调查员提供安全保障;
可及时处理调查中遇到的问题, 调查督导对访问实施监听容易
缺点
电话使用率不高的地区, 电话调查会受限制;
电话式访问的时间不宜过长;
答案过多会造成调查进度的延缓, 被调查者容易挂断电话;
操作简单,样本的结构和总体的结构相似
被访者不愿意接受调查时, 要说服调查更为困难
观察式
调查人员通过直接观测的方法获取信息
数据搜集方法的选择
数据的误差
指通过调查搜集到的数据与研究对象真实结果之间的差异
类型
抽样误差
随机性误差,只存在概率抽样中
由于抽样的随机性引起的样本结果与总体真值之间的差异
非抽样误差
概率抽样,非概率抽样以及全面调查,都可能产生非抽样误差
抽样框误差
目标总体和抽样总体不一致时产生的误差 例:电话簿,对某地区所有住户进行调查
回答误差
理解误差,不同被调查者对调查问题的理解不同 例:在调查中使用“经常”“频繁”“偶尔” 等词
记忆误差,回忆长时间数据可能不准确 例:对于记忆类问题的调查
有意识误差,调查问题敏感,不愿意告知;受利益驱动,进行数字造假 例:调查纳税情况时,被调查者往往高报,以表现自己没有漏税行为
无回答误差
随机因素造成 例:邮寄的问卷丢失, 或调查时被访者正在生病, 无法接受调查
非随机因素造成 例:被调查者不愿告诉实情而拒绝回答
调查员误差
由于调查员的原因而产生的调查误差 例:调查员粗心, 在记录调查结果时出现错误
测量误差
由于测量工具产生的误差 例:视力的测定与现场的灯光、测试距离都有关系
影响因素
抽样误差
抽样单位的数目
数目越多,误差越小;反之,误差越大
总体的变异性
变异性越大,各单位之间的差异就越大,误差也就越大; 反之,各单位之间相似,误差越小
抽样方法的选择
分为重复抽样和不重复抽样,不重复抽样误差小
抽样组织方式不同
采用不同的组织方式, 会有不同的抽样误差,通常将抽样误差作为比较各种抽样组织方式优劣的标准。
非抽样误差
如抽样框误差,无回答误差等等
误差的控制
抽样误差
改变样本量, 要求的抽样误差越小, 所需要的样本量就越大。
非抽样误差
抽样框
构造抽样框时广泛地搜集有关信息, 改进抽样框;
无回答
①预防, 即在调查前做好各方面的准备工作, 尽量把无回答降到最低程度
②在无回答单位中再抽取一个样本, 实施更有力的调查, 并以此作为无回答层的代表, 和回答层的数据结合起来对总体进行估计;
理解
要注意问卷中的措辞, 一份好的调查问卷可以有效地减少理解调查误差
记忆
要缩短调查所涉及的时间间隔;
有意识
要注重对调查过程进行控制的具体措施, 对调查结果进行检验、 评估, 对现场调查人员进行奖惩的制度等。