导图社区 统计与数据科学(经济师中级基础统计模块知识汇总)
统计与数据科学知识汇总,包含数据统计与数据分析预判知识,数据统计、抽样调查、回归分析及时间序列分析,是学习统计与数据科学的知识归纳,经济师中级考试经济基础科目的统计模块知识汇总。
编辑于2022-07-25 16:49:03社区模板帮助中心,点此进入>>
统 计 与 数 据 科 学
统计与统计数据
统计学
统计学是关于收集、整理、分析数据和从中得出结论的科学
统计学分支
描述统计
①如何取得所需要的数据
②如何用图表或数学方法对数据进行整理和展示
③如何描述数据的一般性特征
推断统计
参数估计
利用样本信息推断总体特征
假设检验
利用样本信息判断对总体的假设是否成立
变量和数据
变量是研究对象的属性或特征,它是相对于常数而言的。
常数只有一个固定取值,而变量可以有两个或更多个可能的取值。
变量的分类
定量变量(数量变量)
数值型数据
定性变量
分类变量
分类数据
顺序变量
顺序数据
数据的来源
按收集方法
观测数据
直接调查或测量
实验数据
实验得到的数据
按来源
一手数据
数据直接来源:调查、观察或实验
二手数据
统计调查
统计调查的概念与分类
概念
按照预定的目的和任务,运用科学的统计调查方法, 有计划有组织地搜集数据信息资料的过程
分类
按调查对象范围
全面调查
全面统计报表和普查
非全面调查
非全面统计报表
抽样调查
重点调查
典型调查
按调查登记时间是否连续
连续调查
观察总体现象在一定时期内的数量变化,说明现象的发展过程,目的是了解现象在一段时期的总量。 必须在调查期内连续登记,然后再进行加总。 如工厂的产品生产、原材料的投入、能源的消耗、人口的出生、死亡等
不连续调查
间隔相当长的时间所作的调查,为了对总体现象在一定时点上的状态进行研究。 如生产设备拥有量、耕地面积等 不需要连续登记,隔一段时间登记其某时刻或某一天数量
统计调查的方式
统计报表
概念
按照国家有关法规的规定,自上而下地统一布置, 自下而上地逐级提供基本统计数据的一种调查方式。
以一定的原始数据为基础,按照统一的表式、统一的指标、 统一的报送时间和报送程序进行填报。
分类/特征
按调查对象:全面统计报表、非全面统计报表
按报送周期长短:日报、月报、季报、年报
按报表内容实施范围:国家的、部门的、地方的
普查
1.通常是一次性的或者周期性的。
2.一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏, 保证普查结果的准确性
3.数据一般比较准确,规范化程度较高,可以为抽样调查或其他调查提供基本的依据
4. 使用范围比较窄,只能调查一些最基本及特定的现象
我国的普查
①经济普查每10 年进行2次,逢 ”3、8"年份实施
对象:境内从事第二、第三产业活动的全部法人单位、 产业活动单位和个体经营户。
②人口普查每10 年进行1次,逢“0” 年份实施;
③农业普查每10 年进行1次,逢"6〞 年份实施
抽样调查
概念
从调查对象的总体中随机抽取一部分单位作为样本进行调查, 并根据样本调查结果来推断总体数量特征的一种非全面调查
特点
1.经济性(最显著优点)
2.时效性强:可以迅速、及时地获得所需要的信息。
3. 适应面广:可用于全面调查能够调查的现象, 也能调查全面调查所不能调查的现象,特别适合对一些特殊现象的调查
4. 准确性高:抽样调查的数据质量有时比全面调查更高,误差往往较小。
重点调查
非全面调查
从调查对象的总体中选择一部分重点单位进行调查。
所选择的重点单位就调查的标志值来说在总体中占绝大比重, 调查这一部分单位的情况,能够大致反映被调查对象的基本情况
适用范围很广
典型调查
1. 是一种非全面调查,根据调查的目的与要求, 在对被调查对象进行全面分析的基础上,有意识地选择若干具
有典型意义的或有代表性的单位进行的调查
2. 优点:灵活机动、通过少数典型单位即可取得深入翔实的统计资料的优点。
3.作用:弥补全面调查的不足,在一定条件下验证全面调查数据的真实性
数据科学与大数据
数据科学
数据科学是一门通过系统性研究获取与数据相关的知识体系的学科。
一方面研究数据本身的特性和变化规律,另一方面通过对数据的研究为自然科学和社会科学提供一种新的方法,揭示自然界和人类行为的现象和规律。
数据科学研究的是从“ 数据”整合成“信息”进而组织成“知识”的整个过程,包含对数据进行采集、存储、处理、分析、表现等一系列活动。
数据科学的研究对象是数据,研究目标是获得洞察力和理解力,通过对数据的分析,来解释、预测、洞见和决策,为现实世界服务。
涉及范围
统计学
机器学习
计算机科学
可视化
人工智能
领域知识
大数据
5V
Volume(大量)
Variety
数据类型繁多(结构化和非结构化数据)
Value (价值)
指的是价值密度低。价值密度的高低与数据总量的大小成反比。
Velocity(高速)
指的是处理速度快。这是大数据区分于传统数据挖掘的最显著特征。
Veracity(真实性)
指的是数据来自各种、各类信息系统网络,以及网络终端的行为
处理环节
①数据准备
②存储管理
③计算处理
④数据分析
⑤知识展现
数据挖掘
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐藏在其中但又有潜在价值的信息和知识的过程
含义
(1)数据源必须是真实的、大量的、有噪声的:
(2)发现的是用户感兴趣的知识;
(3)发现的知识是可接受、可理解、可运用的
(4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。
数据挖掘以解决实际问题为出发点,核心任务是对数据关系和特征进行探索
分类
有指导学习或监督学习
无指导学习或非监督学习
常用算法
分类
聚类分析
关联分析
趋势与演化分析
特征分析
异常分析
数据可视化
借助图形化手段清哳有效地传达与沟通信息。
优势在于简单,表现清晰,利用人对形状、颜色、运动的敏感,有效传递信息
重点分支
科学可视化
面向科学与工程领域的数据
如包含空间坐标和几何信息的三维空间测量数据
信息可视化
处理对象是非结构化、非几何的抽象数据
如金融交易、社交网络和文本数据
描述统计
集中趋势的测度
概述
指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在
测度值
均值
平均值
数据组中所有数值的总和除以该组数值的个数。
集中趋势中最主要的测度值,一组数据的重心所在,解释一组数据的平均水平。
优:充分利用数据的全部信息,均值大小受每个观测值的影响,比较稳定。
缺:容易受到极端值的影响,极端值会使得均值向极大值或极小值方向倾斜
中位数
含义:把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值。
计算
(1)当n为奇数:中位数位置是n+1/2,该位置所对应的数值就是中位数数值。
(2) 当n为偶数:中位数位置介于n/2和货n+1/2之间, 是这两个位置对应的数据的均值。
优:不受极端值的影响,抗干扰性强。适用于收入这类偏斜分布的数值型数据。
缺:没有充分利用数据的全部信息,稳定性差于均值,优于众数。
是一个位置代表值,主要用于顺序数据和数值型数据,但不适用于分类数据。
众数
含义:指一组数据中出现次数(频数)最多的变量值。
优点:不受极端值的影响,尤其是分布明显呈数的代表性更好。
缺点:没有充分利用数据的全部信息,缺乏稳定性,且可能不唯一。
适用于描述分类数据和顺序数据的集中趋势
不适用于描述定量数据的集中位置
离散程度的测度
概述
离散程度反映的是数据之间的差异桯度。
集中趋势对一组数据的代表程度,取决于该组数据的离散水平。
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;
测度值
方差
数据组中各数值与其均值离差平方的平均数
方差越小,数据值与均值的平均距离越小,均值的代表性越好
方差的单位是原数据的平方,没有解释意义。
标准差
标准差即方差的平方根。
(1) 优点:能度量数值与均值的平均距离,与原始数值具有相同计量单位
(2) 标准差与方差只适用于数值型数据,与均值一样对极端值也很敏感。
(3) 标准差的大小与数据的计量单位有关,也与观测值的均值大小有关
(4) 不能直接用标准差比较不同变量的离散程度
离散系数/变异系数/标准差系数
标准差与均值的比值
(1)主要用于不同类别数据离散程度的比较
(2)消除了测度单位和观测值水平不同的影响 因而可以直接用来比较变量的离散程度
分布形态的测度
偏态系数(SK)
偏度是指数据分布的偏斜方向和程度,描述的是数据分布对称程度。
偏态系数:测度数据分布偏度的统计量。
偏态系数取决于离差三次方的平均数与标准差三次方的比值。
偏态系数的绝对值越大,说明数据分布的偏斜程度越大
标准分数(Z分数)
1.标准分数可以给出数值距离均值的相对位置。
2. 计算方法是用数值减去均值所得的差除以标准差。
公式:标准分数Z=(数值一均值)➗标准差
标准分数(Z)越大越好
实际应用
当数据服从对称的钟形分布时, 可以运用经验法则来判断与均值的距离 在特定倍数标准差之内的数据项所占比例。
(1)约有 68%的数据与平均数的距离在1 个标准差之内,标准分数在[-1,1]范围内;
(2)约有 95%的数据与平均数的距离在2个标准差之内,标准分数在[-2,2]范围内;
(3) 约有 99%的数据与平均数的距离在3个标准差之内,标准分数在[-3,3]范围内。
变量间的相关分析
变量间的相关关系
按相关程度
完全相关
不完全相关
不相关
按相关方向
正相关
负相关
按相关形式
线性相关(近似为直线)
非线性相关(近似为曲线)
散点图
相关系数[-1,1]
相关系数:度量两个变量之间相关关系的统计量。
1. Pearson 相关系数(最常用):度量的是两个变量之闻的线性相关关系。
2. Pearson 相关系数的取值范围:-1≤ r ≤1
抽样调查
抽样调查基本概念
抽样调查基本概念
总体
调查对象的全体;
样本
总体的一部分,样本也是一个集合。
总体参数
总体指标值,根据总体中所有单位的数值计算的。
总体总量、总体均值、总体比例、总体方差
样本统计量(估计量)
根据样本中各单位的数值计算的参数的估计。
样本均值、样本比例、样本方差
抽样框
供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。
概率抽样与非概率抽样
概率抽样(随机抽样)
依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的方法
(1) 按一定的概率以随机原则抽取样本。
(2)总体中每个单元被抽中的概率是已知的,或者是可以计算出来的。
(3) 当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率。
概率抽样中,若每个单位被抽中的概率相等 则称为等概率抽样 否则称为非等概率抽样
非概率抽样(非随机抽样)
调查者根据自己的方便或主观判断抽取样本
方法
判断抽样
方便抽样
自愿样本
配额抽样
抽样调查一般步骤
1.确定调查问题
要做什么样的调查研究、为什么要做这项调查研究
2.调查方案设计
抽样方案的设计(如何抽取样本)
问卷设计(抽象问题细化为具体的问题)
3. 实施调查过程
4. 数据处理分析
对原始数据进行检查、核对
对验收合格的数据进行编码和录入
对录入的数据进行预处理
对数据进行统计分析
对总体参数进行估计
5. 撰写调查报告
抽样调查中的误差
概念
样本估计值和总体参数真值之间的差异。
误差分类
抽样误差
非抽样误差
抽样框误差
无回答误差
计量误差
几种基本概率抽样方法
简单随机抽样
分层抽样
指先按照某种规则把总体分为不同的层,然后在不同的层内独立、随机地抽取样本
如果每层中的抽样都是简单随机抽样,则称为分层随机抽样。
样本量在各层中分配的方法
等比例分配
不等比例分配
系统抽样
指先将总体中的所有单元按一定顺序排列,在规定范围内随机抽取一个初始单元, 然后按事先规定的规则抽取其他样本单元。
缺点:方差估计比较复杂,给计算抽样误差带来一定困难。
整群抽样
将总体中所有的基本单位按照一定规则划分为互不重叠的群,抽样时直接抽取群
多阶段抽样
对经过二个及二个以上抽样阶段抽样方法的统称
估计量和样本量
估计量的性质
无偏性
有效性
一致性
随着样本量的增大,估计量的值如果稳定于(或收敛于)总体参数的真值, 这个估计量就有一致性。
抽样误差的估计
抽样误差影响因素
总体分布
样本量
抽样方式
估计量的选择
样本量的影响因素
样本量的计算
回归分析
回归模型
回归分析的概念
选择一个合适的数学模型,来近似地表达交量间的依赖关系。
首先需要确定因变量丫和自变量X。
因变量:被预测或被解释的变量,一般用Y表示
自变量:用来预测或解释因变量的变量,用X表示。
回归分析重要应用:预测(利用估计的回归模型预估因变量数值)
回归分析 VS 相关分析
回归模型分类
按自变量
一元回归模型
多元回归模型
按回归模型是否线性
线性回归模型
非线性回归模型
一元线性回归模型
描述两个变量之间相关关系的最简单的回归模型,只涉及一个自变量的回归问题
回归方程
描述因变量Y的期望E(Y)如何依赖自变量X的方程。
一元线性回归方程的形式
最小二乘法
模型的检验和预测
回归模型的拟合效果分析
在使用估计的回归方程之前,需要对模型进行检验
(1)结合经济理论和经验分析回归系数的经济含义是否合理;
(2)分析估计的模型对数据的拟合效果如何:
(3) 对模型进行假设检验。
决定系数
决定系数R的平方
决定系数的取值:在0到1之间。决定系数越高,模型的拟合效果就越好
模型预测
时间序列分析
时间序列及其分类
含义
某一统计指标在各个不同时间上的数值按时间先后顺序编制形成的序列
两个基本因素
(1)被研究现象所属时间。
(2)反映该现象一定时间条件下数量特征的指标值。
分类
时间序列的水平分析
发展水平
时间序列中对应于具体时间的指标数值。
最初水平:第一项的指标值;
最末水平:最末项的指标值;
中间水平:处于二者之间的各期指标值。
根据各期指标值在计算动态分析指标时的作用来划分:
(1)基期水平:作为对比的基础时期的水平。
(2) 报告期水平:反映与研究的那一时期的水平。
平均发展水平
序时平均数或动态平均数
绝对数时间序列
增长量与平均增长量
时间序列的速度分析
发展速度与增长速度
增长速度=发展速度-1
平均发展速度
一定时期内各期环比发展速度的序时平均数
平均增长速度
平均增长速度=平均发展速度一1
速度的分析与应用
当时间序列中的指标值出现0或负数时,不宜计算速度
平滑预测法
移动平均法
使用时间数列中最近k期数据值的平均数作为下一期的预测值
指数平滑法
利用过去时间序列值的加权平均数作为预测值, 即使得第t+1期的预测值等于第t期的实际观察值与第t期预测值的加权平均值。