导图社区 统计学和数据思维导图
统计学和数据科学的区别. 统计学(statistics)是比较传统的学科,一般包括参数估计、假设检验、回归分析、生存分析、因子分析、时间序列、非参数统计等。
编辑于2022-09-04 17:31:49 广西壮族自治区统计学和数据
统计学的含义及其应用
什么是统计学
收集分析表述和解释数据的科学 基本研究对象是数据 关注大量可重复事物,找出统计规律 收集数据,分析数据,由数据得出有用信息帮助决策
分为两大类
描述统计
推断统计
统计学的几个基本概念
总体
全部个体或数据的集合,个体称为元素
往往只有一个
特征:唯一确定,但未知
总体参数
描述总体特征的概括性数字度量
主要有:总体均值,标准差,总体比例
分类
有限总体
总体容量:范围能够确定,元素数目有限
无限总体
元素数目无限
样本
从总体中抽取的一部分元素构成的集合
不唯一,不确定的 ,特征是已知
样本统计量
描述样本特征的概括性数字
主要有:样本均值,样本标准差,样本比例
样本容量:构成样本的元素数目
统计方法
描述统计
研究数据收集、处理、描述及可视化的统计学方法
推断统计
研究如何利用样本数据来推断总体特征的统计学方法
统计学发展简史
古典统计学时期(17世纪中叶至18世纪中叶)
国势学派
有统计学之名,无统计学之实
政治算术学派
有统计学之实,无统计学
近代统计学时期( 18世纪末到19世纪末)
数理统计学派
统计学之父:奠基人凯特勒
社会统计学派
现代统计学时期(20世纪初至今)
发展主流:描述统计学→推断统计学
变量与数据
变量
变,观察中不同的结果
数据
观察的结果记录下来就是数据
分类
数值型数据
以数字作为主要特征,数字具有明确的数值含义,能够进行运算且能测量出具体大小和差异
非数值型数据
以事物现象的属性或类别为主要特征。最大特点是:只能反映现象的属性特点不能刻画出数量的差异
分类
分类数据
没有顺序
性别
顺序数据
有一定的顺序
文化程度
表明现象之间的大小、高低、优劣关系
可以比较大小。/ 以数字的形式出现 无法计算相互之间大小的距离
由定性到定量 由低级到高级 从粗略到精细
非数值→数值
分类2
观测数据
对客观现象进行实地观测所取得的数据
一般没有人为的控制和条件约束
实验数据(样本数据)
在科学实验环境下取得的数据,受到严格的控制,非常普遍
分类3
横截面数据
同一时间节点
xxxx年的GDP
时间序列数据
不同时间段
历年GDP
面板数据
不同观测对象、不同时间段
xxxx年x地的GDP
数据的收集
两种渠道
原始数据(一手数据)
通过直接调查或实验获得
1.统计调查(观测数据)
2.实验法(实验数据)
有意识的改变或控制某些输入变量
将研究对象分为两个组,实验组(变量控制或改变),对照组(不加控制)
需要注意的问题: 两组的1.随机产生2.匹配:研究对象背景资料大体相同3.所收集的数据都是原始数据
次级数据(二手数据)
别人调查的数据,并将数据进行加工和汇总后公布的数据
常见的数据间接来源
公开出版的统计数据
尚未公开发表的统计数据(如果公开引用未发表的数据需要征得数据所有者的同。同时也要为自己发布的数据负责)
网络爬取的数据
使用间接数据注意问题
适用性和时效性
收集目的与研究目的是否相符
收集方法是否科学
原始资料提供者是否公正客观
尽量不使用过时已久的数据
使用二手数据一定要注明数据出处或来源尊重他人劳动
数据搜集的方法
统计调查(5w1h)
常用统计调查方式
普查
为某一特定目的而专门组织的一次性全面调查:人口普查,七人普,2020.11.1
基本要求:1严密的组织和高质量的普查人员队伍 2严格的时间要求 3登记工作应在整个普查范围内同时进行,保证时效性,准确性 4调查项目和指标必须集中统一 5同类普查的内容和时间在历次普查中应尽可能保持连贯性
特点:一种全面调查 一次性的专门调查 一般不宜经常举行
抽样调查
非全面调查,按照一定程序从总体中抽取一部分单位作为样本进行调查并根据样本调查结果来推断总体特征
特点:1 经济性优。抽样调查的最显著优点 2 时效性强 3 适应面广 4 准确性高 是实际中应用最为广泛的一种调查方法
抽样方法
概率抽样(最科学的抽样方法,代表性) (抽样调查)
随机抽样,总体中每个单位都有一定的机会被选入样本
等概率抽样
总体每个单位被抽中的概率都相等
不等概率抽样
特点
按照随机原则抽取样本
每个单位都有一定机会被抽中,抽中概率已知。
用样本统计量推断总体参数
可以计算并控制抽样误差的大小
概率抽样方式
简单随机抽样(纯随机抽样)
有放回抽样(重复抽样)
无放回抽样(不重复抽样)
一种最基本的抽样方式
突出特点是简单、直观
缺点:
1. 简单随机抽样需要包含总体所有单位的抽样框,并对抽样框的每一个单位编号.然后从中按照随机原则抽取
2. 抽出单位较为分散
3. 没有充分利用其他辅助信息来提高估计效率
分层抽样(类型抽样)
将抽样单位按照某种特征或某种规则划分为不同的层( 组),然后按照等比例或自由比例的方式从煤层中独立、随机的抽取样本
优点
保证样本中包含各种特征的抽样单位,样本结构与总体结构比较相信
按行业或行政区划进行划分时比较方便
既可以对总体参数进行估。也可以对课程的目标量进行估计
整群抽样
先将总体分为R个群或子总体,然后按某种方式从中随机选取r个群,再对抽中的群中所有个体调查
特点
抽取样本只需要群的抽样框,简化了编制抽样框的工作量;调查地点相对集中
缺点
精度较差,抽样误差通常比较大,需要增加基本调查对象
系统抽样(等距抽样)
将总体N个单位按某种顺序排列,按规则确定一个随机起点,再每隔一定间距逐个抽取样本单位
主要优点
操作简便,如有辅助信息有效提高估计精度
缺点
对估计量方差的估计比较困难
非概率抽样
方便抽样
调查员依据方便的原则自行确定抽入样本的单位
优点:容易实施调查成本低
缺点:样本确定带有随意性
判断抽样
调查者根据主观经验和判断选取有代表性的单位
适用于总体中的个体及不相同而样本容量又很小
配额抽样
非概率抽样方法中最常用的一种抽样方法
步骤
1 . 根据研究人员认为比较重要的一些变量把总体分类,指定每一个中的样本数额(分层) 2 . 每一类中使用方便抽样或判断抽样的方法抽取
雪球抽样
先找到最初的样本根据提供的信息去获取新的个体形成样本
往往用于对稀少的特定群体
单个单位被选中的概率不可知
统计报表
自上而下的统一布置,自下而上的逐级提供 国家取得调查资料的方法之一
分类
报送周期
月报
季报
年报
报送范围
全面
每个单位
非全面
部分单位
内容
表式(主体)
填表说明
填报范围、指标解释、分类目录、其他有关事项的规定
大型,国有企业:时间快成本低的优点
重点调查
在调查对象中选择一部分重点单位进行的一种非全面调查
关键是:准确恰当的选取重点样本
选择对总体能起主要或决定作用的因素
节省人力财力,而且及时
典型调查
有意识的选取若干具有典型意义的或者有代表性的单位(抓典型)
主要作用
补充全面调查的不足
验证全面调查数据的真实性
搜集数据的方法
询问(访谈)
面访
标准式访问
事先设计好、有固定格式的标准化问卷或表格,有顺序的依次提问
非标准式访问
自由交谈
邮寄
计算机辅助电话调查
计算机与电话相结合
座谈会
一般为六到10人,专家或有经验的人
个别深入访谈
一次只有一名被调查者参加
观察实验
观察法
直接观察
间接观察
小规模实验
数据的误差
抽样误差(代表性误差)
抽取样本的随机性造成
误差大小取决因素
总体内部的差异
总体内部差异越大,抽样误差就越大
样本容量的大小
样本容量越大,误差越小
抽样的方式与方法
重复抽样误差大,分层抽样误差小
非抽样误差
除抽样误差之外,调查中因各种原因所引起的
由于调查程序执行中的错误与不足引起的,产生各个阶段与环节
不能通过增大样本量加以控制,成因复杂,影响大
分类
抽样框误差
目标总体和抽样总体不一致时产生的误差
包括情形
丢失目标总体单元
抽样框没能覆盖全部总体单元
包含非目标总体单元
包含了一些不属于研究对象的单元
复合连接
抽样框单元与目标总体单元存在一对多或多对多现象
不正确的辅助信息
应答误差
给出答案与实际情况不相符
子主题
原因
理解、记忆、有意、被误导等
无回答误差
没有获得有关样本中个体的信息
分类
个体无回答
被调查者没有参与或拒绝接受调查
项目无回答
对其中一些调查项目没有回答
原因
被调查者
繁忙
拒访
调查者
失误
无法取得联系
地区发达程度
公民素质
计量误差
问卷设计不合理
登记错误
数据录入错误
数据的观测值与真实只之间的差异
在抽样调查中,抽样误差是不可避免的。然而在概率抽样中,抽样误差是能够计量且可以得到控制的。