导图社区 中级经济师基础第四部分
中级经济师基础第四部分
第二十三章 统计与数据科学
统计学介绍
定义
提供了一系列用于收集、处理、分析和解释数据的方法。
描述统计
收集、整理和描述数据
如何取得所需要的数据
如何用图表或数学方法对数据进行整理和展示
如何描述数据的一般性特征
推断统计
利用样本数据来推断总体特征
包括参数估计和假设检验两大类
参数估计是利用样本信息推断总体特征;
假设检验是利用样本信息判断对总体的假设是否成立
统计调查种类
按调查对象的范围不同
全面调查
全面统计报表和普查。
非全面调查
非全面统计报表、抽样调查、重点调查和典型调查。
按调查登记的时间是否连续
连续调查
如工厂的产品生产、原材料的投入、能源的消耗、人口的出生、死亡等。
不连续调查
如生产设备拥有量、耕地面积等。
统计调查的方式
统计报表
是自上而下地统一布置、自下而上地逐级提供基本统计数据的调查方式。
普查
特点:一次性的或周期性的;规定统一的标准调查时间;准确,规范化程度较高;使用范围比较窄。
经济普查每10年进行两次,分别在每逢年份的末尾数字为3、8的年份实施。人口普查逢“0”的年份进行,农业普查逢“6”的年份进行,均为每10年一次。
经济,农业普查在1月1日0点
人口普查在11月1日0点
抽样调查
根据样本调查结果来推断总体数量特征的一种非全面调查,具有经济性、时效性强、适应面广、准确性高的特点。
重点调查
从所要调查的总体中选择一部分重点单位进行调查,属于非全面调查,调查结果不能推断总体。
重点单位是指在所要调查的数量特征上占有较大比重的单位。
典型调查
有意识地选择若干具有典型意义的或有代表性的单位进行的调查,属于非全面调查,调查结果不能推断总体。
作用:弥补全面调查的不足,在一定条件下可以验证全面调查数据的真实性。
【注意】重点调查和典型调查主要的区别是调查的着眼点不同。重点调查是选取一部分重要样本进行调查,这些重要样本在量的方面占优势;而典型调查是有目的的选取有代表性的样本进行调查,侧重该样本的质的方面。
变量及数据
变量定义
变量是研究对象的属性或特征,它是相对于常数而言的。常数只有一个固定取值,变量可以有两个或更多个可能的取值。
变量分类
定量变量(数量变量)
变量的取值是数量。如企业销售额、注册员工数。
定性变量
分类变量
变量的取值是类别。如企业所属行业、员工性别。
顺序变量
变量的取值是类别且有顺序。如员工受教育水平。
数据定义
数据是对变量进行测量、观测的结果。数据可以是数值、文字或者图像等形式。
数据分类
定量数据(数值型数据)
是对定量变量的观测结果,其取值表现为具体的数值。
如企业的销售额是1000万元。
分类数据
分类变量的观测结果,表现为类别,一般用文字来表述,也可用数字描述。
如,用1表示男性,2表示女性。
顺序数据
顺序变量的观测结果,表现为类别,一般用文字描述,也可用数字描述。
如用1表示硕士及以上,2表示本科,3表示大专及以下。
数据的来源
按收集方法
观测数据
通过直接调查或测量而收集的数据。观测数据是在没有对事物施加任何人为控制因素的条件下得到的。几乎所有与社会经济现象有关的统计数据都是观测数据,如GDP、CPI、房价等。
实验数据
通过在实验中控制实验对象以及其所处的实验环境收集到的数据。如,一种新产品使用寿命的数据,一种新药疗效的数据。自然科学领域的数据大多都是实验数据。
按来源
一手数据
来源于直接的调查和科学实验的数据,对使用者来说这是数据的直接来源。其来源主要有:调查或观察;实验。
二手数据
来源于别人的调查或实验的数据。对使用者来说这是数据的间接来源。
第二十四章 描述统计
集中趋势的测度
均值
也叫平均数,就是数据组中所有数值的总和除以该组数值的个数。
均值是集中趋势最主要的测度值,适用于数值型数据、容易受到极端值的影响,利用全部数据信息。
中位数
把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值。
如果有2个数字在最中间,取两个数的平均数
没有利用全部数据信息。主要用于顺序数据和数值型数据,特别是分布不对称的数据;但不适用于分类数据,不受极端值的影响,抗干扰性强。尤其适于收入这类偏斜分布的数值型数据。
众数
一组数据中出现次数(频数)最多的变量值,没有利用全部信息。不适用于定量变量,主要适用于分类和顺序变量,用于分布明显呈偏态的数据;众数可能不唯一。
分布形态的测度
1.偏态系数(描述的是数据分布对称程度):取决于离差三次方的平均数与标准差三次方的比值。
系数为0:数据分布是对称的。
系数为正数:数据分布右偏。
0~0.5(轻度)
0.5~1(中度)
大于1(严重)
系数为负数:数据分布左偏。
0~-0.5(轻度)
-0.5~-1(中度)
小于-1(严重)
2.标准分数:标准分数Z=(给出的数值-均值)÷标准差
约有68%的数据与平均数的距离在1个标准差之内,标准分数在[-1,1]
约有95%的数据与平均数的距离在2个标准差之内,标准分数在[-2,2]
约有99%的数据与平均数的距离在3个标准差之内,标准分数在[-3,3]
变量间的相关分析
相关的程度
完全相关
一个变量的取值变化完全由另一个变量的取值变化所确定。称这两个变量完全相关。
不完全相关
大部分相关现象均属于不完全相关。
不相关
两个变量的取值变化彼此互不影响。
相关的方向
正相关
一个变量的取值由小变大,另一个变量的取值也相应的由小变大。(两个变量同方向变化)。
负相关
一个变量的取值由小变大,另一个变量的取值由大变小(两个变量反方向变化)。
相关的形式
线性相关
pearson相关系数只适用线性相关关系。
0<r≦+1
正线性相关
-1≦r<0
负线性相关
r=1
完全正线性相关
r=-1
完全负线性相关
r=0
不存在线性相关关系,但并不能说明两变量之间没有任何关系,它们之间可能存在非线性相关关系。
|r|≧0.8
高度相关
0.5≦|r|<0.8
中度相关
0.3≦|r|<0.5
低度相关
|r|<0.3
相关程度极弱,可视为无线性相关关系
非线性相关
两个相关变量之间的关系近似于某种曲线方程的关系。
估计量的性质
一致性
随着样本量的增大,估计量的值如果稳定于总体参数的真值。
无偏性
对于不放回简单随机抽样,所有可能的样本均值取值的平均值总等于总体均值。
有效性
在同一抽样方案下,对某一总体参数,如果有两个无偏估计量θ1、θ2,如果θ1的可能样本取值较θ2更密集在总体参数真值附近,则认为θ1比θ2更有效
第二十五章 抽样调查
抽样调查基本概念
总体:调查对象的全体。
样本:由从总体中按一定原则或程序抽出的部分个体所组成。
入样单位:每个被抽中进入样本的单位。
样本量:样本中包含的入样单位的个数。
抽样框:供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。
总体参数:变量的数字特征,它是根据总体中所有单位的数值计算的。
样本统计量:根据样本中各单位的数值计算的,是对总体参数的估计,也称估计量。
简单随机抽样、分层抽样和系统抽样
简单随机抽样
最基本的随机抽样方法。
分层抽样
定义
先按照某种规则把总体分为不同的层,然后在不同的层内独立、随机地抽取样本。
适用条件
抽样框中有足够的辅助信息,能将总体单位按某种标准划分到各层中;
同层内,各单位之间的差异尽可能地小,不同层之间差异各单位的差异尽可能地大。
系统抽样
先将总体中的所有单元按一定顺序排列,在规定范围内随机抽取一个初始单元,然后按事先规定的规则抽取其他样本单元。最简单的系统抽样是等距抽样。
整群抽样
定义
将总体中所有的基本单位按照一定规则划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部的基本单位,对没有抽中的群则不进行调查。
适用条件
如果群内各单位之间存在较大差异,群与群的结果相似,整群抽样会降低估计误差。
多阶段抽样
经过二个及二个以上抽样阶段,在大范围的抽样调查中,采用多阶段抽样是必要的。
概率抽样与非概率抽样
概率抽样
1.简单随机抽样
2.分层抽样
3.系统抽样
4.整群抽样
5.多阶段抽样
1.按一定概率以随机原则抽取样本。 2.总体中每个单元被抽中的概率是已知的或者是可以计算出来。 3.当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率。若每个单位被抽中的概率相等,则称为等概率抽样;否则称为非等概率抽样。
非概率抽样
1.判断抽样
2.方便抽样
3.自愿样本
4.配额抽样
抽取样本时并不是依据随机原则。调查者根据自己的方便或主观判断抽取样本。
样本量的影响因素
调查的精度
总体的离散程度
总体的规模
无回答情况
经费的制约
调查的限定时间,实施调查的人力资源等。
第二十六章 回归分析
回归模型
回归分析与相关分析的区别
相关分析需要依赖回归分析表明现象数量相关的具体形式;
回归分析依赖相关分析表明现象数量变化的相关程度;
相关分析无法从一个变量的变化来推测另一个变量的变化情况,回归分析的数学方程式可以从已知量推测未知量。
一元线性回归模型
Y=β0+β1X+ε
ε即误差项,是一个随机变量,表示除线性关系之外的随机因素对Y的影响,是不能由X和Y的线性关系所解释的Y的变异性。
E(Y)=β0+β1X
β0是回归直线的截距;β1是回归直线的斜率,表明X每变动一个单位,E(Y)的变动量。
模型的检验与预测
对回归模型进行检验:
分析回归系数的经济含义是否合理;
分析估计的模型对数据的拟合效果如何;
对模型进行假设检验。
决定系数R^2,可以测度回归直线对样本数据的拟合程度。
决定系数的取值在0到1之间。R^2=1,说明回归直线可以解释因变量的所有变化。R^2=0,说明回归直线无法解释因变量的变化,因变量的变化与自变量无关。
决定系数越高,模型的拟合效果就越好,即模型解释因变量的能力越强.
回归分析的一个重要应用就是预测,即利用估计的回归模型预估因变量数值。
第二十七章 时间序列分析
时间序列及其分类
时间序列的基本构成因素:被研究现象所属的时间、反映该现象一定时间条件下数量特征的指标值。
时间序列按照其构成要素中统计指标值的表现形式,分为绝对数时间序列、相对数时间序列和平均数时间序列三种类型。
依据指标值的时间特点,绝对数时间序列又分为时期序列和时点序列。
时期序列 :反映现象在一段时期内发展的结果,即“过程总量”,如国内生产总值是当年各月国内生产总值相加的结果。
时点序列 :反映现象在一定时点上的瞬间水平,如年底总人口数是说明在各年年末这一时点上的人口数所达到的水平,数值累加没有意义。
发展速度与增长速度
发展速度=报告期水平/基期水平
增长速度=发展速度-1
定基发展速度与环比发展速度
定基发展速度=报告期水平/固定水平
环比发展速度=报告期水平/前一期水平
定基发展速度等于相应时期内各环比发展速度的连乘积
两个相邻时期定基发展速度的比率等于相应时期的环比发展速度
平滑预测法
平滑法的目的是“消除”时间序列的不规则成分所引起的随机波动。平滑法适用于平稳时间序列的预测,即没有明显的趋势、循环和季节波动的时间序列。
1.移动平均法
最近K期数据值的平均数作为下一期的预测值。
2.指数平滑法
预测值F(t+1)=平滑系数α×第t期实际观察值+(1-α)×第t期预测值α为平滑系数,取值范围:0≤α≤1。
指数平滑法的特点是,观测值离预测时期越久远,其权重也变得越小,呈现出指数下降的特点。