导图社区 中级经济师-经济基础知识笔记-23-27统计
这是一篇关于中级经济师-经济基础知识笔记-23-27统计的思维导图。该思维导图归纳总结了关于这一部分的知识点,比较系统全面。
编辑于2021-09-18 19:57:25统计
统计与数据科学
一、统计学
描述统计
研究:数据收集、整理、描述的统计学方法。
包括:
1、如何取得需要的数据
2、如何运用图表或数学方法对数据进行整理和展示
3、如何描述数据的一般特征
推断统计
研究:如何利用样本数据来推断总体特征的统计学方法。
包括:
1、参数估计
利用样本信息推断总体特征
2、假设检验
利用样本信息判断对总体的假设是否成立
二、变量和数据
变量
是研究对象的属性或特征,它是相对于常数而言的。
定量变量(数量变量)
变量的取值为数量
定性变量
分类变量
变量的取值为分类
顺序变量
变量的取值为分类且具有一定的顺序
数据
是对变量进行测量、观测的结果
三、数据的来源
观测数据和实验数据
通过直接调查或测量而收集的数据,称为观测数据。
通过实验中控制实验对象以及所处的实验环境收集到的数据,称为实验数据。
一手数据和二手数据
一手数据的主要来源:1)调查或观察;2)实验
四、统计调查
1、按调查对象的范围不同
全面调查
非全面调查
2、按调查登记的时间是否连续
连续调查
不连续调查
3、统计调查的方式
1)统计报表
收集统计数据的一种重要方式
2)普查
3)抽样调查
4)重点调查
5)典型调查
五、数据科学与大数据
大数据的4V特性
1、数据量大(Volume)
2、数据多样性(Variety)
3、价值密度低(Value)
4、数据的产生和处理速度快(Velocity)
数据挖掘(Data Mining)的常用方法
分类、聚类分析
关联分析
趋势与演化分析
特征分析
异常分析
数据可视化
科学可视化
面向科学与工程领域的数据
信息可视化
非结构化、非几何的抽象数据
描述统计
一、集中趋势的测度
指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
1、均值
也叫平均数, 计算公式
2、中位数
一组数从小到大排列,位置居中的数, 用Me表示。中位数是一个位置代表数,主要用于顺序数据和数值型数据,但不适用于分类数据。
3、众数
指一组数据中,出现频率最多的变量值
二、离散程度的测度
离散程度反映的是数据之间的差异程度,数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,反之则越好。
1、方差
是数据组中各数值与其均值离差平方的平均数,它能较好地反映出数据的离散程度,是实际中应用最广泛的离散程度测度值。
对于总体数据,有2种常用计算公式
总体方差公式∑
总体方差公式S
对于样本数据,常用的计算公式:
对于有放回的简单随机抽样中,小s样本方差是∑总体方差的无偏估计量。
对于无放回的简单随机抽样中, 小s样本方差是大S总体方差的无偏估计量。
2、标准差
标准差即方差的平方根
3、离散系数
也称“变异系数”、“标准差系数”,即:标准差与均值的比值, 记为(Coefficient Variation,CV)。
三、分布形态的测度
1、偏态系数
偏度指数据分布的偏斜方向和程度,描述的是数据分布对称程度。 偏态系数是测度数据分布偏度的统计量, 取决于离差三次方的平均数与标准差三次方的比值。偏态:Skew
若SK=0,说明数据的分布式对称的;
若SK>0,说明数据的分布式右偏的;0-0.5之间,说明轻度右偏;0.5-1之间说明中度右偏;大于1说明严重右偏。
若SK<0,说明数据的分布式左偏的;0-负0.5之间,说明轻度左偏;负0.5-负1之间说明中度左偏;小于负1说明严重左偏。
2、标准分数
也称“Z分数”,可以给出数值距离均值的相对位置, 标准分数=(数值-均值)/ 标准差。
所有数据的“标准分数的平均数”=0, “标准分数的标准差”=1
当数据服从对称的钟形分布时, 经验法表明: 约68%的数据与平均数的距离在1个标准差之内,即标准分数在[-1,+1]范围内; 约95%的数据与平均数的距离在2个标准差内,即:标准分数在[-2,+2]范围内;约99%的数据与平均数的距离在3个标准差内,即:标准分数在[-3,+3]范围内。
四、变量间的相关分析
相关关系
1、完全相关、不完全相关
2、正相关、负相关
3、线性相关、非线性相关
相关系数
Pearson相关系数
当|r|≥0.8时, 高度相关;当0.5≤|r|<0.8时, 中度相关;当0.3≤|r|<0.5时, 低度相关;当|r|<0.3时, 极弱相关,可视为无线性相关关系;当|r|=1时, 完全相关。
抽样调查
一、抽样调查基本概念
1、总体与样本
2、总体参数与样本统计量
总体参数:总体指标值,是未知的常数,是通过调查想要了解的,不受样本的抽选结果影响。
样本统计量:是根据样本中各单位的数值计算的,是对总体参数的估计,因此也称为:估计量。
3、抽样框
供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。
4、概率抽样
也称随机抽样,特点:
1)按一定的概率以随机原则抽样。
2)总体中每个单元被抽中的概率是已知的,或者是可以计算出来的。
3)当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率。
5、非概率抽样
也称非随机抽样,主要方法:
1)判断抽样
人为确定样本
2)方便抽样
3)自愿样本
4)配额抽样
将样本数量分配到各类单元中。
6、调查误差
样本估计值和总体参数真值之间的差异,称为误差。
抽样误差
由于抽样的随机性造成的。
非抽样误差
1)抽样框误差
会造成估计结果失真。
2)无回答误差
会造成估计量方差增大,甚至带来估计偏差。
3)计量误差
调查记录值与实际真值不一致。
二、几种基本概率抽样方法
1、简单随机抽样
1)有放回简单随机抽样
2)无放回简单随机抽样
适应条件
1)抽样框中没有更多可以利用的辅助信息。
2)调查对象分布的范围不广阔
3)个体之间的差异不是很大
2、分层抽样
按照某种规则,把总体分成不同的层,然后在不同的层内独立、随机地抽取样本,这样所得的样本称为:分层样本。
优点:
1)不仅可以估计总体参数,同时可以估计各层的参数。
2)便于抽样工作的组织。
3)样本在总体中分布比较均匀,可以降低抽样误差。
样本在各层中分配的方法可以归为2类:
1)等比例分配
2)不等比例分配
分层抽样的应用条件:
抽样框中有足够的辅助信息,能够将总体单位按照某种标准划分到各层之中,实现同一层内各单位之间的差异尽可能地小,不同层之间各单位的差异尽可能地大。
3、系统抽样
指先将总体中的所有单位按一定的顺序排列,在规定范围内随机抽取一个初始单元,然后按照事先规定的规则抽取其他样本单元。
等距抽样
是最简单的系统抽样,将总体N个单位按直线排列,根据样本量n确定抽样间隔,间隔为:N/n≈k, k为最接近N/n的一个整数。在1-k范围内随机抽取一个整数i,令位于i位置上的单位为起始单位,往后每间隔k抽取一个单位,直至抽满n。
系统抽样的优点:
1)操作简便
2)对抽样框的要求也比较简单
系统抽样的缺点:
方差估计比较复杂,给计算抽样误差带来了一定的困难。
系统抽样的估计效果与总体单位排列顺序有关。
按排列顺序与调查内容是否有关联性,分成:
1)按有关标识排列
“按有关标识排列的系统抽样”精度一般比“简单随机抽样”的精度高。
2)按无关标识排列
4、整群抽样
将总体所有的基本单位按照一定的规则,划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部基本单位,对没有抽中的群则不进行调查。
优点:
1)实施调查方便,可以节省费用和成本。
2)抽样框编制得以简化,抽样时只需要群的抽样框,而不要求全部基本单位的抽样框。
缺点:
如果群内各单位差异比较小,群之间差异比较大,就会使得整群抽样的抽样误差比较大。
适用情况:
适用于某些特殊群结构进行调查。 比如:群内各单位间差异比较大,但群与群之间结构相似。
5、多阶段抽样
首先从总体中采用随机抽样的方法抽取若干个小总体,称为“初级单元”; 然后再在这些选中的初级单元中抽取若干个单位,称为“二级单元”,再抽取“三级单元”“n级单元”直至需要调查的最终单位。
大范围的抽样调查中, 采用多阶段抽样是有必要的, ①大范围抽样调查中,往往没有包括所有总体单位的抽样框,或者编制这样的抽样框十分困难; ②多阶段抽样时,抽样框也可以分阶段进行准备。
多阶段抽样的设计比较复杂,多阶段抽样的抽样误差计算也比较复杂。
三、估计量和样本量
估计量的性质
1、估计量的无偏性
对于不放回简单随机抽样,所有可能的样本均值取值的平均值总是等于总体均值,这就是样本均值估计量的无偏性。
2、估计量的有效性
方差越小,用样本统计量估计总体参数的效率就越高,抽样误差越小,估计量的有效性越高。
3、估计量的一致性
若估计量的值稳定于总体参数的真值,这个估计量就有一致性,可称为:一致估计量。
抽样误差的估计
实践中大S方差未知,可以用样本方差小s方差来估计。因此,估计量方差的估计公式为:
1)抽样误差与总体分布有关,总体单位值之间差异越大,即总体方差S^2越大,抽样误差越大。
2)抽样误差与样本量n有关,其他条件相同的情况下, 样本量越大,抽样误差越小。
样本量的计算
确定样本量要考虑的因素:
1、调查精度,精度越高,所需样本量越大。
2、总体的离散程度, 离散程度越高,所需样本量越大。
3、总体的规模
4、无回答情况,无回答较高的调查项目,所需样本量要大。
5、经费的制约
简单随机抽样的样本量计算公式:
当总体规模很大,N>10,000时,N对样本量n的影响较小, 样本量n接近于n0
在置信度(1-α)=95%时,Uα值=1.96;Uα^2=3.8416
在比例估计中,若P为总体比例, 则总体方差大S^2=P(1-P), 假设P=50%,则S^2=50%(1-50%)=0.25
n0=3.8416/d2*P*(1-P)
回归分析
一、回归模型
回归分析:根据“相关关系”的具体形态,选择一个合适的数学模型,来近似地表达变量间的依赖关系。
一元线性回归模型
只涉及一个自变量的一元线性回归模型可以表示为: Y=β0+β1X+ε
β0、β1:模型参数; ε:随机变量误差项
描述因变量Y的期望E(Y)如何依赖自变量X的方程称为:回归方程, 一元线性回归方程的形式为: E(Y)= β0+β1X
一元线性回归方程的图示是一条直线, β0是回归直线的截距,β1是回归直线的斜率,表示X每变动一个单位时,E(Y)的变动量。
二、最小二乘法
是使得因变量的观测值与估计值之间的“离差(残差)平方和”最小来估计参数β0 、β1的方法。
观测值和估计值之间的离差平方和可表达为:
令离差平方和=0,满足使其最小的二乘法原则,根据微积分的极值定理,可得到拟合β0和β1的估计量:
三、模型的检验和预测
1、回归模型的拟合效果分析
1)决定系数R^2
也称“拟合优度”或“判定系数”,可以测度回归模型对样本数据的拟合程度。
决定系数是回归模型所能解释的因变量变化占因变量总变化的比利,取值范围在0到1之间。
决定系数越高, 模型的拟合效果越好,即:模型解释因变量的能力越强。
R方=1,说明回归直线可以解释因变量的所有变化; R方=0,说明模型无法解释因变量的变化,因变量的变化与自变量无关。
2)回归系数的显著性检验
在大样本假定的条件下, 回归系数的最小二乘估计量拟合β0和拟合β1渐进服从正态分布的情况下, 可以用“t检验”方法验证自变量X对因变量Y是否有显著影响。
“t检验”的原理是反证法, 在原假设拟合β1=0(自变量X对因变量Y没有影响)正确的假定下, 基于拟合β1的抽样分布,计算一次抽样情况下,得到该样本或更极端样本的概率(P值), 如果P<0.05,则可以在0.05的显著性水平下拒绝原假设,即认为拟合β1≠0,则可认为自变量X对因变量Y有显著影响。
2、模型预测
回归分析的一个重要应用就是预测, 将自变量X数据和二乘法估计出的β0和β1代入公式Y=β0+β1X,计算出Y值,就是估计预测的Y值。
3、二元回归模型案例
时间序列法
一、时间序列及其分类
绝对数时间序列
时期序列
过程总量
时点序列
瞬间水平
相对数时间序列
由绝对数时间序列派生出来的,比如:比重,增速等。
平均数时间序列
由绝对数时间序列派生出来的, 平均数。
二、时间序列的水平分析
发展水平: 基期水平,报告期水平的比较结果。
平均发展水平:
也称“序时平均数”或“动态平均数”。按序列类型不同, 计算方法不同。
1、绝对数时间序列序时平均数的计算
1)由时期序列计算序时平均数
2)由时点序列计算序时平均数
①无间隔连续性的时点数据:
②有间隔连续性的时点数据:
③间隔相等的间断点序列序时平均数:
③间隔不相等的间断点序列序时平均数:
2、相对数或平均数时间序列序时平均数的计算
增长量与平均增长量
增长量 = 报告期水平 - 基期水平
逐期增长量=报告期水平-前一期水平
累计增长量 = 报告期水平 - 某一固定时期水平
累计增长量等于相应时期逐期增长量之和, 即:
平均增长量
根据逐期增长量与累计增长量之间的关系, 平均增长量还可以表达为:
三、时间序列的速度分析
1、发展速度
发展速度 = 报告期水平 ÷ 基期水平
定基发展速度
环比发展速度
定基发展速度=相应时期内各环比速度的连乘积。
两个相邻时期定基发展速度的比率=相应时期的环比发展速度。
2、增长速度
增长速度 = 报告期增长量 ÷ 基期水平
定基增长速度
环比增长速度
3、平均发展速度
计算平均发展速度一般采用“几何平均法”, 也称“水平法”, 其原理是:一定时期内现象发展的总速度 = 各期环比发展速度的“连乘积”。
∴ 平均发展速度
四、平滑预测法
平滑法的目的就是消除时间序列的不规则成分所引起的随机波动,所以被称为平滑法,包括1)移动平均法,2)指数平滑法。
1、移动平滑法
取k期数据值的平均数作为下一期的预测值
2、指数平滑法
观测值离预测时期越久远,其权重越小,呈现出指数下降,因而称为指数平滑。