导图社区 第二章数据的收集
贾俊平统计学第二章数据的收集知识总结,包括数据的来源、调查方法、实验方法、数据误差等内容。
编辑于2022-08-12 11:33:16 山东省第二章 数据的收集
数据的来源
直接来源
调查数据
特点:①针对社会现象而获取的 ②取自有限总体,即总体所包含的单位有限
实验数据
特点:①大多针对自然现象而获取的 ②实验中通过控制实验对象所搜集到的数据
间接来源(二手数据)
定义:原信息已存在,对原信息重新加工,处理成统计分析可以使用的数据
优点:①数据采集快 ②采集成本低
局限性:①资料相关性不够 ②数据也许不准确 ③数据可能已过时 ④口径可能不一致
作用: 分析所要研究的问题;提供研究问题的背景,帮助研究者更好地定义问题,检验和回答某些假设和疑问,寻找研究问题的思路和途径
对二手资料进行评估的内容:
①资料是谁所搜集的?数据搜集者的实力和社会信誉度会在一定程度上影响数据的说服力
②搜集的目的是什么?为了某种特殊利益而搜集的数据,是值得怀疑的
③数据是怎样收集的?不同方法所采集到的数据体检实力和说服力都是不同的,数据的质量来源于数据产生的过程
④数据是什么时候搜集的?过时数据的说服力会受到质疑
使用二手数据的注意事项
注意数据的定义含义,计算口径和计算方法,避免错用,误用,滥用
在使用二手数据时,应注明数据来源,以尊重他人的劳动成果
调查方法
概率抽样
概率抽样
定义:遵循随机原则进行的抽样,总体中的每个单位都有一定的机会被选入样本
特点:①概率是已知的或者可以计算出来的 ②一定的概率以随机原则抽取样本,排除主观上有意识地抽取调查 ③用样本对总体目标进行估计,是要考虑到每个单位样本被抽中的概率
优点:①可以依据调查结果,得到对总体目标量进行推断的可靠程度 ②按照要求的精度,计算必要的样本单位数目
概率抽样与等概率抽样的区别
概率抽样是指每个单位都有一定的非零概率被抽中,单位之间被抽中的概率可以相等,也不等
等概率抽样是指每个单位以相等的非零概率被抽中
概率抽样的方式
简单随机抽样
抽样框:包含所有总体单位的信息,不仅提供了备选单位的名单,还是计算各个单位入样概率的依据
简单随机抽样:①从总体中一个一个的抽取单位作为样本 ②每个单位的入样概率是相等的 ③是最基本的抽样方法,是其他抽样方法的基础
特点:①简单直观 ②每个单位被抽中的概率相同,能直接用样本统计量对目标量进行估计,并计算估计量误差
局限性:①总体很大时,很难构造抽样框 ②抽出的单位很分散,给实施调查增加了困难 ③没有利用其他辅助信息以提高估计的效率
分层抽样
定义:总体按照某种特征化为不同的层,然后从不同的层中独立的,随机的抽取样本
优点:①样本结构与总体结构相近,有效地提高了估计的精度 ②层的划分是按行业或行政区进行时,组织实施调查更加方便 ③对总体进行参数估计的同时,也可以对各层的目标量进行估计
缺点:差异不明显时不适用,在使用时需要与其他抽样方法综合使用
整群抽样
定义:抽样时直接抽取群,然后对选群中的所有单位全部实施调查
优点:①简化了编制抽样框的工作量 ②调查地点相对集中,减少调查费用,易于实施调查
缺点:估计的精度较差,一般通过增加基本调查单位来提高精度
系统抽样
定义:将总体中的所有单位按一定顺序排序,在规定的范围内抽取一个单位作为初始单位,然后按照事先规定好的规则确定其他样本单位
优点:①操作简便 ②可以有效的提高估计的精度
缺点:①对估计量方差的估计比较困难
多阶段抽样
定义:先抽取群,再从群中进一步抽样
优点:①样本量相对集中,减少调查费 ②不需要包含所有低阶段抽样单位的抽样框 ③由于实行了再抽样,调查单位在更广泛的范围内开展
适用范围:大规模的抽样调查
非概率抽样
定义:不依据随机原则,而是根据研究目的对数据的要求,采用某种方式,从总体中抽取部分单位实施调查
非概率抽样的方式
概率抽样与非概率抽样的比较
①概率抽样是依据随机原则,非概率抽样不是依据随机原则 ②可以根据调查结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间;非概率抽样不可以 ③概率抽样在于掌握研究对象总体的数量特征,非概率抽样适合探索性研究 ④概率抽样成本较高,非概率抽样时效快,成本低
搜集数据
搜集数据的基本方法
数据搜集方法的选择
需要考虑的问题
①目标总体的特征 ②抽样框中的有关信息 ③调查问题的内容 ④实施调查的资源 ⑤有形辅助物的使用 ⑥质量要求 ⑦管理与控制
特点
实验方法
定义:数据的另一方法是通过实验;在实验中,通过控制变量得到观测结果
注意事项:①实验组和对照组的产生应该是随机的,匹配的 ②一个好的实验,应该在两个方面都有效,内部有效性(实验测量的准确性),外部有效性(可以将发现的因果关系进行推广)
数据误差
数据误差类型
抽样误差
是一种随机性误差,只存在于概率抽样中
非抽样误差
概率抽样,非概率抽样,全面调查,都可能产生非抽样误差
数据误差影响因素
影响抽样误差大小因素
①抽样单位的数目;如果为全面调查,就不存在抽样误差 ②总体的变异性 ③抽样方法的选择;采用不重复抽样比采用重复抽样的抽样误差小 ④抽样组织方式不同;通常将抽样误差作为比较各种抽样组织方式优劣的标准
影响非抽样误差大小因素
很多原因
误差的控制
抽样误差的控制
抽样误差是由于抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免;主要方法是改变样本量
非抽样误差的控制(抽样误差与抽样的随机性无关,所以控制比较困难)
①抽样框误差 改进抽样框 ②无回答误差 一方面是预防,另一方面采取补救措施 ③理解误差 注意问卷中的措辞,做好问卷设计 ④记忆误差 缩短调查的时间间隔 ⑤有意识误差 注重具体措施,如对调查结果进行检验评估,对调查人员进行奖惩制度