导图社区 第四部分 统计
中级经济师-经济基础-思维导图(知识点)-第四部分 (统计),统计学是关于收集、整理、分析数据和从数据中得到结论的科学。
编辑于2023-10-27 19:50:37第四部分 统计
第二十三章 统计与数据科学
第一节 统计学
统计学的含义和两大分支
关于收集、整理、分析数据和从数据中得到结论的科学
描述统计
研究数据收集、整理和描述的统计学方法
①如何取得数据 ②如何利用图表和数学方法对数据整理和展示 ③如何描述数据的一般特征
推断统计
研究如何利用样本数据推断总体特征
①参数估计——利用样本信息推断总体特征 ②假设检验——利用样本信息判断对总体的假设是否成立
第二节 变量和数据
变量的分类
变量是研究对象的属性或特征,它是相对于常数而言的。常数只有一个固定取值,变量可以有两个或 更多个可能的取值。
定量变量(数量变量)
变量的取值是数量。如企业销售额、注册员工数
定性变量
分类变量
变量的取值是类别。如企业所属行业、员工性别
顺序变量
变量的取值是类别且有顺序。如员工受教育水平
数据
数据是对变量进行测量、观测的结果。
定量数据 (数值型数据)
是对定量变量的观测结果,其取值表现为具体的数值。如企业的销售额是 1000 万元
分类数据
分类变量的观测结果,表现为类别,一般用文字来表述,也可用数字描述。如,用 1 表示“男性”,2 表示“女性”
顺序数据
顺序变量的观测结果,表现为类别,一般用文字描述,也可用数字描述。如用 1 表 示“硕士及以上”,2 表示“本科”,3 表示“大专及以下
第三节 数据的来源
观测数据和实验数据
观测数据
①直接调查或搜集得到 ②在没有对事物施加任何人为控制条件下得到
GDP、CPI、房价
实验数据
①在实验中控制实验对象及所处实验环境收集得到 ②自然科学领域
如一种新产品使用寿 命的数据;一种新药 疗效的数据
一手数据和二手数据
一手数据
一是调查或观察
二是实验
二手数据
别人调查和实验
报纸、杂志、广播、电视、历史文献及著作、网络
第四节 统计调查
统计调查的概念与分类
统计调查是按照预定的目的和任务,运用科学的统计调查方法,有计划有组织地搜集信息资料的过程。
调查是一种有计划、有方法、有程序的活动,调查的结果表现为搜集到的数据
按调查对象的范围
全面调查
对构成调查对象的所有单位进行逐一的、无一遗漏的调查
全面统计报表普查
人口普查 经济普查 农业普查
非全面调查
对调查对象中的一部分单位进行调查
非全面统计报表 抽样调查 重点调查 典型调查
(1)城市居民家庭生活水平,只对一定数量住户进行调; (2)进出口商品的质量,抽取一部分商品做检验
按调查登记的时间是否连续
连续调查
观察总体现象在一定时期内(通常是一年 内)的数量变化,说明现象的发展过程,目 的是为了解社会现象在一段时期的总量。
如工厂的产品生产、原材料 的投入、能源的消耗、人口 的出生、死亡等
不连续调查
间隔一个相当长的时间(通常是一年以上)所作的调查,为了对总体现象在一定时点上 的状态进行研究。这些指标数值在短期内,变化不大,不需要连续登记,通常是隔一段 时间登记其某时刻或某一天的数量。
生产设备拥有量、耕地面积等
统计调查的方式
统计报表
统计报表要以一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。
普查
为某一特定目的而专门组织的一次性全面调查主要用于收集处于某一时点状态上的社会经济现象的基本全貌
(1)普查通常是一次性的或者周期性的
(2)普查一般要规定统一的标准调查时间
(3)普查数据一般比较准确,规范化程度较高
(4)使用范围比较窄,只能调查基本及特定的现象
抽样调查
从调查对象的总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查
(1)经济性:最显著的优点
(2)时效性强
(3)适应面广
(4)准确性高:工作量小,各环节可以做的更细致,登记性误差往往较小
重点调查
一种非全面调查,从所要调查的总体中选择一部分重点单位进行调查。
重点单位虽然只是全部单位中的一部分,但是就调查的标志值来说在总体中占绝大比重,调查这一部分单位的情况,能够大致反映被调查对象的基本情况。
能以较少的投入、较快的速度取得某些现象主要标志的基本情况或变动趋势。
典型调查
一种非全面调查,从调查对象全部单位中有意识地选择若干具有典型意义或有代表性的单位进行调查
(1)弥补全面调查的不足 (2)在一定条件下可以验证全面调查数据的真实性
统计数据的质量评价标准
①真实性,要求统计源头数据必须符合统计调查对象的实际情况,确保统计数据有依据、可溯源。侧重于对基础数据质量的评价。
②准确性,要求统计数据的误差必须控制在允许范围内,能够为形势判断、政策制定、宏观调控等提供可靠依据。侧重于对统计数据生产科学性的评价。
③完整性,要求统计数据应当全面完整,统计范围不重不漏,统计口径完备无缺。侧重于对统计数据全面系统反映客观实际程度的评价。
④及时性,要求统计数据生产应当在符合统计科学规律的前提下,尽可能缩短从调查到公布的时间间隔。侧重于对统计数据生产效率的评价。
⑤适用性,要求统计数据能够最大限度为用户所用,统计指标紧跟时代发展、切合统计需求,侧重于对统计用户满意度的评价。
⑥经济性,要求统计数据生产应当尽可能降低成本,统计调查、行政记录、大数据等数据资源得到充分利用。侧重于对统计数据成本效益的评价。
⑦可比性,要求统计数据应当连续、可比,不同时间、空间数据生产使用规范统一的统计标准和统计原则。侧重于对统计工作标准化、规范化程度的评价。
⑧协调性,要求统计数据结构严谨、逻辑合理,各总量数据、结构数据相互之间高度匹配。侧重于对统计数据间逻辑关系的评价。
⑨可获得性,要求多渠道、多方式公布统计数据,同时公布相应的统计制度方法,加强数据解读,满足社会需求。侧重于对统计服务质量的评价。
第五节 数据科学与大数据
数据科学
数据科学这个词最早由丹麦的计算机科学领域先驱“彼得•诺尔”提出。
含义:是一门通过系统性研究获取与数据相关的知识体系的学科。
研究对象:数据,即从“数据”整合成“信息”进而组织成“知识”的整个过程,包含对数据进行采集、储存、处理、分析、表现等一系列活动。 (1)一方面研究数据本身的特性和变化规律 (2)另一方面通过对数据的研究为自然科学和社会科学提供一种新的方法,从而揭示自然界和人类行为的现象和规律
研究目标获得洞察力和理解力,通过对数据的分析、来解释、预测、洞见和决策,为现实世界服务
涉及领域:统计学、机器科学、计算机科学、可视化、人工智能、领域知识等
大数据
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
特性
数据量大
数据多样性
价值密度低
大数据价值密度的高低与数据总量的大小成反比。
数据的产生和处理速度快
大数据的处理要符合“一秒定律
数据挖掘
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。
含义
数据源必须是真实的、大量的、有噪声的;
发现的是用户感兴趣的知识;
发现的知识是可接受、可理解 、可运用的;
并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。
分类
①监督学习
监督学习的数据集中,每个观测单位既有自变量(特征 xi),又有因变量(标签yi)。根据已有的数据集,训练出模型可以根据自变量数据得到因变量预测结果的过程称为监督学习。
分类
是通过特征变量确定观测单位所属类别,因变量为分类变量。
逻辑斯特回归
支持向量机
随机森林
决策树
回归
回归是通过特征变量确定观测单位因变量取值,因变量是定量变量
线性回归
非线性回归和
分位数回归
②无监督学习
无监督学习的数据集中,每个观测单位只有自变量(特征 xi),没有因变量(标签 yi)。 无监督学习的主要任务是探索数据之间的内在联系和结构。
聚类
把一组数据按照差异性和相似性分为几个类别使得同类数据相似性尽可能大,不同 类数据相似性尽可能小,跨类的数据关联性尽可能低。
聚类分析常用于客户细分,文本归类,结构分组,行为跟踪。
常用的聚类方法包括:基于划分的方法(例如 k-均值算法)、基于分层的方法、基 于密度的方法、基于网格的方法和基于模型的方法。
降维
在不损失过多信息的前提下将 N 个相关特征降为 K 个不相关特征,使其具有更好 的解释性,也称为特征提取。
例如:根据客户的能力,品格,担保,资本,环境等特征评价客户的信用等级。
主成分析法
因子分析法
③半监督学习(新增)
半监督学习是监督学习与无监督学习相结合的一种学习方法。 半监督学习的数据集中,一部分观测单位既有自变量(特征 xi),又有因变量 (标签 yi),另一部分观测单位只有自变量(特征 xi),没有因变量(标签 yi), 而且没有标签的观测单位数量远大于有标签的观测单位数量。
常见的半监督学习有半监督分类、半监督回归、半监督聚类。
第二十四章 描述统计
第一节 集中趋势的测度
均值
均值是集中趋势最主要的测度值,它是一组数据的重心所在,解释了一组数据的平均水平。
主要适用于数值型数据但不适用于分类数据和顺序数据
易受极端值的影响,极端值的出现,会使平均数的真实性受到干扰。
中位数
主要用于顺序数据和数值型数据但不适用于分类数据
中位数是一个位置代表值,不受极端值的影响,抗干扰性强,尤其适用于收入类偏斜分布的数值型数据。
众数
适于描述分类数据和顺序数据的集中趋势,而有些情况下可 能出现双众数、多众数或者没有众数,难以描述数据的集中位置,不适用于定量数据
均值、中位数和众数的比较及适用范围
第二节 离散程度的测度
离散程度反映的是数据之间的差异程度。集中趋势的测度值是对数据水平的一个概括性的度量,它对一组数据的代表程度,取决于该组数据的离散水平。
方差
方差是数据组中各数值与其均值离差平方的平均数,它能较好地反映出数据的离散程度,是实际中应用最广泛的离散程度测度值。
方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。
标准差
即方差的的平方根。
标准差与方差是应用最广泛的统计离散程度的测度方法。
但是标准差与方差只适用于数值型数据。 此外与均值一样,它们对极端值也很敏感。
离散系数
也称为变异系数或标准差系数,即标准差与均值的比值,主要用于不同类别数据离散程度的比较
比较,记为 CV。
公式
集中趋势与离散程度的关系 (1)数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差 (2)数据的离散程度越小,集中趋势的测度值对该组数据的代表性就越好
第三节 分布形态的测度
偏态系数
偏度是指数据分布的偏斜方向和程度,描述的是数据分布对称程度。测度数据分布偏度的统计量称为偏态系数。
对称分布 (正态分布)
偏态系数等于 0
偏态分布
右偏分布
偏态系数为正值
0-0.5 轻度右偏
0.5-1 中度右偏
大于 1 严重右偏
左偏分布
偏态系数为负值
0-0.5 轻度左偏
0.5-1 中度左偏
小于-1 严重左偏
偏态系数的绝对值越大,数据分布偏斜程度越大
标准分数
标准分数也称为 Z 分数,是统计上常用的一种标准化方法。标准分数用 于某一个数值在一组数据中相对位置的度量。计算方法是用数值减去均 值所得的差除以标准差。
标准分数经验法则 经验法则表明 对于服从对称的钟形分布的标准分数: 约有 68%的标准分数在[-1,+1]范围内 约有 95%的标准分数在[-2,+2]范围内 约有 99%的标准分数在[-3,+3]范围内
第四节 变量间的相关分析
变量之间的相关关系
按相关的程度可分为:
完全相关
一个变量的取值变化完全由另一个变量的取值变化所确定称这两个变量完全相关。
不相关
两个变量的取值变化彼此互不影响。
不完全相关
两个变量之间的关系介于完全相关和不相关之间。
按相关的方向可分为
正相关
负相关
按相关的形式可分为
线性相关
非线性相关
相关系数
相关系数
相关系数是度量两个变量之间相关关系的统计量。最常用的相关系数是 pearson 相关系数。pearson 相关系数只适用线性相关关系。
pearson 相关系数的取值范围在+1 和-1 之间,即-1≦r≦1
0<r≤1
表明变量 X 和 Y 之间存在正线性相关
-1≤r<0
表明变量 X 和 Y 之间存在负线性相关
r=1
表明变量 X 和 Y 之间存在完全正线性相关
r=-1
表明变量 X 和 Y 之间存在完全负线性相关
r=0
不存在线性相关关系,但并不能说明两变量之间没有任何关系,它们之间可能存在非线性相关关系。
根据经验可将相关程度分为以下几种情况
|r|的取值
两变量之间的相关程度
|r|<0.3
相关程度极弱,可视为无线性相关关系
0.3≤|r|<0.5
可视为低度相关
0.5≤|r|<0.8
可视为中度相关
|r|≥0.8
可视为高度相关
※相关系数的绝对值越大,相关程度越高
第二十五章 抽样调查
第一节 抽样调查基本概念
抽样调查基本概念
总体
(1)总体即调查对象的全体 (2)组成总体的各个个体称作总体单元或单位
样本
(1)样本是总体的一部分,它由从总体中按一定原则或程序抽出的部分个体所组成,样本与总体一样也是一个集合 (2)每个被抽中进入样本的单位称为入样单位 (3)样本中包含的入样单位的个数称为样本量
总体参数
总体参数就是总体指标值,它是未知的常数,是根据总体中所有单位的数值 计算的,是通过调查想要了解的,不受样本的抽选结果影响。
总体总量、总体均值、总体比例、总体方差。
如研究某公司所有注册在职人员(共有 500 名)的平均工资,公司所有注册 在职人员的平均工资就是总体参数
样本统计量
是根据样本中各单位的数值计算的,是对总体参数的估计,也称估计量。 它是一个随机变量,取决于样本设计和正好被选入样本的单元特定组合
样本均值、样本比例、样本方差
如研究某公司所有注册在职人员(共有 500 名)的平均工资(总体参 数)。按一定原则从所有注册在职人员中抽取出 100 名员工进行调查, 100 名注册在职人员的平均工资就是样本统计量。用 100 名注册在职人 员的平均工资(样本统计量)对该公司所有注册在职人员的平均工资(总 体参数)进行估计
抽样框
是供抽样所用的所有抽样单元的名单,是抽样总体的具体表现
子有名录框,如企业名录、电话簿、人员名册,抽样框也可以是一张地图或 其他适当的形式,不管是那种形式,抽样框中的单位必须是有序的,便于 编号。
高质量的抽样框应提供被调查单位更多的信息,并且没有重复和遗漏。 上例中,如果以每户家庭为抽样单元,则 50 万户家庭的名单即为抽样框。
概率抽样和非概率抽样
概率抽样
也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的方法。
(1)按一定概率以随机原则抽取样本 (2)总体中每个单元被抽中的概率是已知的或者是可以计算出来 (3)当采用样本对总体参数进行估计时,要考虑每个样本单元被抽中的概率 • 如果每个单位被抽入样的概率相等,则称为等概率抽样 • 如果每个单位被抽入样的概率不同,则称为不等概率抽样
具体方式
简单随机抽样
分层抽样
系统抽样
整群抽样
多阶段抽样
非概率抽样
又称为非随机抽样,是调查者根据自己的方便或主观判断抽取样本的方法。 其最主要的特征是抽取样本时并不是依据随机原则。
具体方式
判断抽样
调查人员依据调查目的和对调查对象的了解,人为确定样本单元。 平均型样本单元
方便抽样
如“拦截式”调查(在街边或居民小区拦住行人进行调查)。
自愿样本
如网上调查。
配额抽样
将总体中的各单元准划分为若干类型,将样本数额分配到各类型中,从 各类型中抽取样本的方法没有严格限制,一般采用方便抽样
抽样调查的一般步骤
1.确定调查问题:要做什么样的调查研究,为什么要做这项调查研究
2.调查方案设计:明确如何实施调查,包括抽样方案的设计和问卷设计
3.实施调查过程
4.数据处理分析
5.撰写调查报告
抽样调查中的误差
样本估计值和总体参数真值之间的差异称为误差。一般来说调查中的误差分为抽样误差 和非抽样误差两类。
抽样误差
是由于抽样的随机性造成的,用样本统计量估计总体参数时出现 的误差。抽到不同的样本,对总体的估计就会不同,这是抽样误 差产生的根本原因。
非抽样误差
指除抽样误差外,由其他原因引起的样本统计量与总体真值之间 的差异
非抽样误差产生原因
抽样框误差
无回答误差
计量误差
第二节 几种基本概率抽样方法
简单随机抽样
简单随机抽样是最基本的随机抽样方法,操作简单,且每个单位的入样概率相同。
没有利用抽样框更多的辅助信息,用样本统计量估计总体参数的效率受到 影响,样本的分布可能十分分散,增加了调查过程中的费用和时间。
分层抽样
抽样框中有足够的辅助信息,能够将总体单位按某种标准划分到各层之中,实现在同一层内,各单位之间的差异尽可能小,不同层之间各单位的差异尽可能大。
系统抽样
系统抽样指先将总体中的所有单元按一定顺序排列,在规定范围内随机抽取一个初始单元,然后按事先规定的规则抽取其他样本单元。
(1)操作简便 (2)对抽样框的要求比较简单:它只要求总体单位按一定顺序排列,而不一定是一份具体的名录清单
方差估计比较复杂,这就给计算抽样误差带来一定困难
整群抽样
整群抽样是将总体中所有的基本单位按照一定规则划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部的基本单位,对没有抽中的群则不进行调查。
多阶段抽样
多阶段抽样是对经过二个及二个以上抽样阶段方法的统称
第三节 估计量和样本量
估计量的性质
估计量的无偏性
无偏性指的是如果对这同一个总体反复多次抽样,则要求各个样本所 得出的估计量的平均值等于总体均值。
估计量的有效性
方差越小,估计量对总体的估计,也就越准确,这个估计量也就越有效。
估计量的一致性
是随着样本量的增大,估计量的值如果稳定于总体 参数的真值,这个估计量就有一致性,可称为一致估计量。
抽样误差的估计
抽样误差的影响因素
抽样误差与总体分布有关
总体单位值之间差异越大,即总体方差越 大,抽样误差越大
抽样误差与样本量 n 有关
其他条件相同,样本量越大,抽样误差越小
抽样误差与抽样方式和估计量的选择 也有关
分层抽样的估计量方差一般小于简单 随机抽样
利用有效辅助信息的估计量也可以有效的减小抽样误差
估计量方差
样本量计算
1.调查的精度
要求的调查精度越高(误差水平越小),所需要的样本量就越大。
2.总体的离散程度
在其他条件相同情况下,总体方差越大,所需要的样本量也越大。
3.总体的规模
对于大规模的总体,总体规模对样本量的需求几乎没有影响。对小规模的总体,总体规模越大,为保证相同估计精度,样本量也要随之增大(但不是同比例的)。
4.无回答情况
无回答减少了有效样本量。在无回答率较高的调查项目中,样本量要大一些,以减少无回答带来的影响。
5.经费的制约
调查经费是影响样本量的一个十分重要的因素。事实上,样本量是调查经费与调查精度之间的某种折中和平衡。
6.其他因素
调查的限定时间,实施调查的人力资源也是影响样本量的客观因素。
第二十六章 回归分析
第一节 回归模型
回归分析就是根据相关关系的具体形态,选择一个合适的数学模型,来近似的表达变量间的依赖关系。
【回归分析的实质】是在相关分析的基础上,研究变量间的数量变化规律。
进行回归分析时,首先需要确定因变量和自变量
回归分析与相关分析的联系
①它们具有共同的研究对象(都是对变量间的相关关系进行研究),在具体应用时,常常必须互相补充。
②相关分析需要依靠回归分析来表明现象数量相关的具体形式。
③而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。
④只有高度相关时,进行回归分析寻求其相关的具体形式才是有意义的。
回归分析与相关分析的区别
①相关分析是研究变量之间相关的方向和相关的程度。相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况
②回归分析是研究变量之间相关关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定相关的数学方程式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供了一个重要方法。
一元线性回归模型
一元线性回归是描述两个变量之间相关关系的最简单的回归模型
回归模型可以用描述因变量 Y 如何依赖自变量 X 和误差项的方程 表示为: Y = β0 + β1X + ε β0、β1为模型的参数(也叫回归系数)。 即误差项,是一个随机变量,表示除 X 和 Y 的线性关系之外的随机因素对 Y 的影响。
描述因变量 Y 的期望 E(Y)如何依赖自变量 X 的方程称为回归方程
一元线性回归方程的形式为:E(Y)= β0 + β1X β0是回归直线的截距,β1为回归直线的斜率,表示 X 变化一个单位时,E(Y)的变动量。
第二节 最小二乘法
现实中,模型的参数0,1都是未知的,必须利用样本数据去估计,采用的估计方法是 最小二乘法。
最小二乘法就是使得因变量的观测值与估计值之间的离差平方和最小来估计参数0和1 的方法
第三节 模型的检验和预测
回归模型的拟合效果分析
(1)一般情况下,使用估计的回归方程之前,需要对模型进行检验: ①结合经济理论和经验分析回归系数的经济含义是否合理; ②分析估计的模型对数据的拟合效果如何(用决定系数来测度); ③对模型进行假设检验
决定系数
决定系数,可以测度回归直线对样本数据的拟合程度。
• 决定系数的取值在 0 到 1 之间。 • 决定系数越接近 1,回归直线的拟合效果越好。 • R2 = 1,说明回归直线可以解释因变量的所有变化。 R2 = 0,说明回归直线无法解释因变量的变化,因变量的变化与自变量无关。
模型预测
回归分析的一个重要应用就是预测,即利用估计的回归模型预估因变量数值。
用 t 检验方法验证自变量 X 对因变量 Y 是否有显著影响 如果 P<0.05,则可以在 0.05 的显著性水平下拒绝原假设,认为自变量 X 对因变量 Y 有显著影
第二十七章 时间序列分析
第一节 时间序列及其分类
时间序列也称动态数列,是将某一统计指标在各个不同时间上的数值按时间先后顺序编制形成的序列
绝对数时 间序列
时期序列:每一指标值反映现象在一段时期内 发展的结果,即“过程总量” 【说明】时期数通常可以累积,从而得到更长 时期内的总量、
国内生产总值 产品产量 财政收入 商品零售额
时点序列:每一指标值反映现象在一定时点上 的瞬间水平 【提示】时点数通常不能累积,各时点数累积 后没有实际意义
年底人口总数 库存量 股票价格
相对数时 间序列
两个绝对数之比
城镇人口比重
经济增长率
平 均 数 时 间序列
平均数或均值
人均国内生产总值
人均利润
第二节 时间序列的水平分析
发展水平
时间序列的水平分析指标
(一)发展水平
(二)平均发展水平
(三)增长量
(四)平均增长量
时间序列的速度分析指标
(一)发展速度
(二)增长速度
(三)平均发展速度
(二)平均增长速度
平均发展水平
发展水平也称序时平均数或动态平均数,是对时间序列中各时期发展水平计算的平均 数,它可以概括性描述现象在一段时期内所达到的一般水平。
绝对数时间序列序时平均数的计算
(1)由时期序列计算序时平均数 (采用简单算术平均数方法计算)
(2)由时点序列计算序时平均数
连续时点序列
资料逐日登记且逐日排列,采用简单算术平均数方法计算。
资料登记时间单位仍然是 1 天,实际上只在指标值发生变动时才记录一次。需采用加权算术平均数方法计算序时平均数,权数是每一指标值的持续天数。
间断时点序列
资料只要不是逐日登记, 而是隔一个较长一段时间(月、季、年)再登记一次 为间断时点序列。间断时点序列又分为两种情形,间隔相等和间隔不等。
每隔一定的时间登记一次,每次登记的间隔相等
【计算思路】采用“两次平均”:间隔相等的间断时点序列,采取两次简单算术平均(先求各个时间间隔内的简单算术平均数,再对这些平均数进行简单算术平均)。
每隔一定的时间登记一次,每次登记的间隔不相等
也采用“两次平均”的思路:第一次简单算术平均,第二次加权平均。即: 先求各个时间间隔内的简单算术平均数,再对这些平均数进行加权平均(用间隔长度作 为权数)
增长量与平均增长量
增长量
报告期发展水平与基期发展水平之差,反映报告期比基期增加(减少)的绝对数量。增长量= 报告期水平 - 基期水平
根据基期的不同确定方法,增长量可分为。
逐期增长量:报告期水平与前一期水平之差
累计增长量:报告期水平与某一固定时期(通常是时间序列最初水平)水平之差
同一时间序列中,累计增长量等于相应时期逐期增长量之和。
平均增长量
平均增长量是时间序列中逐期增长量的序时平均数,它表明现象在一定时段内平均每期增加(减少)的数量。
同一时间序列中,累计增长量等于相应时期逐期增长量之和
第三节 时间序列的速度分析
发展速度
是以相对数形式表示的两个不同时期发展水平的比值,表明报告期水平已发展到基期水平的几分之几或若干倍
定基发展速度
报告期水平与某一固定时期 水平(通常是最初水平)的比 值,用表示
环比发展速度
报告期水平与其前一期水平 的比值,用表示。
表示
定基发展速度和环比发展速度的关系
①定基发展速度等于相应时期内各环比发展速度的连乘积 推导:定基发展速度 =各环比发展速度的连乘积
②两个相邻时期定基发展速度的比率等于相应时期的环比发展速度 环比发展速度=两个相邻时期定基发展速度的比率
口诀:定基环比连乘积(定基积),环比相邻定基比(环比比)
增长速度
增长速度是报告期增长量与基期水平的比值,表明报告期比基期增长了百分之几或若干倍。
定基增长速 度
累计增长量
定基增长速度=定基发展速度 - 1
环比增长速 度
逐期增长 量
环比增长速度=环比发展速度 - 1
平均发展速度
反映现象在一定时期内逐期发展变化的一般程度,是一定时期内各期环比发展速度的序时平均数。计算平均发展速度通常采用几何平均法。
平均增长速度
反映现象在一定时期内逐期增长(降低)变化的一般程度
平均增长速度=平均发展速度-1
速度的分析与应用
当时间序列中的指标值出现 0 或负数时,不宜计算速度。
“增长 1%的绝对值”是进行这一分析的指标,它反映同样的增长速度,在 不同时间条件下所包含的绝对水平(增长 1%的时候,对应的绝对值是多少,
第四节 时间序列的分解和预测程序
时间序列 的成分
长期趋势(T)
季节变动(S)
循环波动(C)
不规则波动(I)
时间序列预测程序
第一步:确定时间序列所包含的成分;
第二步:找岀适合该时间序列的预测方法;
第三步:对可能的预测方法进行评估,以确定最佳预测方案;
第四步:利用最佳预测方案进行预测。
第五节 平滑预测法
移动平均法
移动平均法使用时间数列中最近 k 期数据值的平均数作为下一期的预测值,
指数平滑法
指数平滑法是利用过去时间序列值的加权平均数作为预测值,使得第t + 1期的预测值等于第 t 期的实际观察值与第 t 期预测值的加权平均值
Ft+1 = αYt + (1 − α)Ft