导图社区 第23章:统计与统计数据
经济师经济基础知识第23章统计与统计数据,从统计学、变量和数据、数据的来源、统计调查、数据科学与大数据五个方面作了概述。
编辑于2021-08-22 21:57:11第23章 统计与统计数据
一、统计学
1.统计学:是关于收集、整理、分析数据和从数据中得出结论的科学。
2.统计学的分支:描述统计和推断统计 (1)描述统计 1)含义:是研究数据收集、整理和描述的统计学方法。 2)内容:①如何取得所需要的数据;②如何用图表或数学方法对数据进行整理和显示;③如何描述数据的一般性特征。 (2)推断统计 1)含义:是研究如何利用样本数据来推断总体特征的统计学方法。 2)内容 ①参数估计一利用样本信息推断总体特征 ②假设检验一利用样本信息判断对总体的假设是否成立。 (3)描述统计与推断统计关系:可以一起发挥作用,具体使用哪种方法取决于要解决的问题。
二、变量和数据
1.变量 (1)含义:是研究对象的属性或特征,它是相对于常数而言的。常数只有一个固定取值,而变量可以有两个或更多个可能的取值。 (2)种类: 定量变量或数量变量:当变量的取值是数量时。如企业销售额、注册员工数量 分类变量:当变量的取值表现为类别时。如企业所属行业(定性变量) 顺序变量:当变量的取值表现为类别且具有定顺序时。如员工受教育水平(定性变量)
2、数据 (1)含义:是对变量进行测量、观测的结果。 (2)种类: 分类数据:分类变量的观测结果表现为类别,一般用文字来表述,也可用数值代码表示,对于分类数据可计算出各类别的频数 顺序数据:是对顺序变量的观测结果,也表现为类别般用文字表述,也可用数值代码表示 数值型数据:是对定量变量的观测结果,其取值表现为具体的数值;可以进行加、减、乘或除等数学运算
三、数据的来源
(一)观测数据和实验数据
1.观测数据 通过直接调查或测量而收集到的数据。 几乎所有与社会经济现象有关的统计数据都是观测数据
2.实验数据 通过在实验中控制实验对象以及其所处的实验环境收集到的数据。 自然科学领域的数据大多是实验数据
(二)一手数据和二手数据
1.直接数据或一手数据:来源于直接的调查和科学实验,对使用者来说,这是数据的直接来源
2.间接数据或二手数据:来源于别人的调查和科学实验,对使用者来说,这是数据的间接来源。
在社会经济领域,统计调查是获得数据的主要方法,也是获得手数据的重要方式。
四、统计调查
(一)统计调查的概念与分类
1.统计调查: (1)概念:是按照预定的目的和任务,运用科学的统计调查方法,有计划有组织地搜集数据信息资料的过程。 (2)特征 1)调查是一种有计划、有方法、有程序的活动; 2)调查的结果表现为搜集到的数据。
2.统计调查的分类 (1)按调查对象的范围不同 全面调查: 是对构成调查对象的所有单位进行逐一的、无一遗漏的调查。 如全面统计报表和普查 非全面调查: 是对调查对象中的一部分单位进行调查。 如非全面统计报表、抽样调查、重点调查和典型调查 (2)按调查登记的时间是否连续 连续调查: 是为了观察总体现象在一定时期内(通常是一年内)数量变化,它要求随着调查对象的发展变化,连续地进行调查登记。 如工厂的产品生产,原材料的投入、能源的消耗、人口的出生、死亡等。 连续调查的资料是说明现象的发展过程,目的是为了解社会现象在一段时期的总量 不连续调查: 是间隔一个相当长的时间(通常是一年以上)所作的调查,一般是为了总体现象在一定时点上的状态进行研究。 如生产设备拥有量、耕地面积等短期内变化不大。不需要连续登记,通常是隔一段时间登记其某时刻或某一天的数量。
(二)统计调查的方式:
(1)统计报表 1)含义:按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。 2)分类 ①按调查对象范围的不同,分为全面统计报表和非全面统计报表。目前的大多数统计报表都是全面报表。 ②按报送周期长短不同,分为日报、月报、季报、年报等。 ③按报表内容和实施范围不同,分为国家的、部门的、地方的统计报表。
(2)普查 1)含义:为某一特定目的而专门组织的一次性全面调查;掌握有关国情国力的基本统计数据;主要用于收集处于某一时点状态上的社会经济现象的基本全貌。 2)特点: ①普查通常是一次性的或者周期性的:普查涉及面广、调查单位多,需要耗费大量的人力、物力和财力,通常需要间隔较长的时间。 经济普查10年两次尾数3、8的年份;人口普查(现在是11月1日0时)逢0;农业普查(1月1日0时)逢6,每10年一次。 ②一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。 ③数据一般比较准确,规范化程度较高,可以为抽样调查或其他调查提供基本的依据。 ④使用范围比较窄,只能调查一些最基本及特定的现象。
(3)抽样调查 1)含义:从调查对象的总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查。抽样调查是实际中应用最广泛的一种调查方式和方法。 2)特征 经济性:是抽样调查的一个最显著优点。 时效性强:可以迅速、及时的获得所需要的信息。 适应面广:可用于全面调查能够调查的现象,也能调查全面调查所不能调查的现象,特别适合特殊现象的调查。如产品质量检验、农产品试验、医药的临床实验。 准确性高:登记误差往往较小。
(4)重点调查 1)从调查对象的全部单位中选择少数重点单位进行调查。重点单位虽然只是全部单位中的一部分,但就调查的标志值来说在总体中占绝大比重。重点调查的适用范围很广。 2)目的:只要求了解基本状况和发展趋势,不要求掌握全面数据,而调查少数重点单位就能满足需要时,采用重点调查比较适宜。 3)应用 ①为了及时了解全国城市零售物价的变动趋势,就可以对全国的35个大中型城市的零售物价的变化进行调查就是重点调查。 ②要及时了解全国工业企业的增加值和资产总额情况,只需对全国大中型工业企业进行重点调查即可。 ③国家统计局的全国5000家工业企业联网直报制度属于重点调查。 4)优点:能以较少的投入、较快的速度取得某些现象主要标志的基本情况或变动趋势。
(5)典型调查 1)含义:有意识的选择若干具有典型意义的或有代表性的单位进行的调查。 2)作用:①弥补全面调查的不足②在一定条件下可以验证全面调查数据的真实性。 3)优点:具有灵活机动、通过少数典型单位即可取得深入翔实的统计资料的优点 4)应用:受主观认识的影响,必须和其他调查结合起来使用。
五、数据科学与大数据
(一)数据科学
“数据科学”,最早由丹麦的计算机科学领域先驱彼得・诺尔提出。
1.含义:是一门通过系统性研究获取与数据相关的知识体系的学科。数据科学一方面研究数据本身的特性和变化规律,另一方面通过对数据的研究为自然科学和社会科学提供一种新的方法,从而揭示自然界和人类行为的现象和规律。
2.过程:数据科学研究的是从"数据"整合成"信息"进而组织成"知识"的整个过程,包含对数据进行采集、存储、处理、分析、表现等系列活动。
3.研究对象:数据
4.研究目标:获得洞察力和理解力,通过对数据的分析,来解释、预測、洞见和决策,为现实世界服务。
5.数据科学包含:统计学、机器学习、计算机科学、可视化、人工智能、领域知识等
(二)大数据
1.含义:大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高増长率和多样化的信息资产。
2.大数据具有“4V”特性 数据量大(volume):起始计量单位是PB(1024TB)、EB(1024阻,约100万TB)或ZB(1024EB,约10亿TB),未来甚至会达到YB(1024 ZB)或 BB(1024 YB)。 数据多样性(variety):大数据类型繁多,包括网络日志、音频、视频、图片、地理位置等各种结构化、半结构化和非结构化的数据。 价值密度低(value):大数据价值密度的高低与数据总量的大小成反比。 以视频为例,在连续不间断的监控中,有用数据可能仅有两秒。原始零散、复杂多样,甚至可能有数据噪声和污染的数据需要经历价值“提纯”才能得出信息、获取知识。 数据的产生和处理速度快(velocity):大数据的智能化和实时性要求越来越高,对处理速度也有极严格的要求,一般要在秒级时间范围内给出分析结果超出这个时间数据就可能失去价值,即大数据的处理要符合“一秒定律”
(三)数据挖掘
1.含义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。数据挖掘以解决实际问题为出发点,核心任务是对数据关系和特征进行探索。
2.对含义的理解 (1)数据源必须是真实的、大量的、有噪声的; (2)发现的是用户感兴趣的知识; (3)发现的知识是可接受、可理解、可运用的; (4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。
3.数据挖掘可以分为两类 有指导学习或监督学习:是对目标需求的概念进行学习和建模,通过探索数据和建立模型来实现从观察变量到目标需求的有效解释 无指导学习或非监督学习:没有明确的标识变量来表达目标概念,主要任务是探索数据之间的内在联系和结构
4.大数据算法类别 分类:确定目标对象属于哪个预定的类别,以实现对未来潜在的预测需求。例如,在邮件系统中区分出垃圾邮件在货款客户中判断出有风险客户,是一种监督学习。 ★决策树分类法、贝叶斯分类法、关联分类法、支持向量机神经网络。 聚类分析:是把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽量大,不同类的数据相似性尽可能小,跨类的数据关联性尽可能低与分类方法不同,聚类要划分的类是未知的,聚类分析是根据观察学习来确定数据之间的关系,因此是一种无监督学习。 ★基于划分的方法(例如kー均值算法)、基于分层的方法、基于密度的方法、基于网格的方法和基于模型的方法。 关联分析:是对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数据项的出现预测其他数据项的出现。 ★经典的啤酒和尿布案例,数据挖掘发现在大型超市巾购买啤酒的男士经常同时购买小孩的纸尿裤基于这一发现,超市把啤酒和纸尿裤摆放在一起,结果两种商品的销售量都有明显提升。 趋势与演化分析:Farecast系统利用近十万亿飞行数据帮助预測美国同内航班票价,对冲基金利用 Twitter数据涵过公众情绪预测股票市场,谷歌利用科歌网页信息和 Youtube搜索量预测电影票房。 特征分析、异常分析
(四)数据可视化
1.含义:即借助图形化手段清晰有效地传达与沟通信息。
2.优点:简单,表现清晰,利用人对形状、颜色、运动的敏感有效传递信息,帮助用户从数据中发现关系、规律和趋势。
3.数据可视化包含两个重点分支:科学可视化和信息可视化。在大数据时代,信息可视化面临的挑战是要在海量、动态变化的信息空间中辅助人类理解进而挖掘信息、发现知识。
中级经济师-《经济基础知识》 (共140分,84分及格)
第一部分 经济学基础(10章=29分)
第二部分 财政(7章=23分)
第三部分 货币与金融(5章=23分)
第四部分 统计(5章=21分)
第23章 统计与统计数据
第24章 描述统计
第25章 抽样调查
第26章 回归分析
第27章 时间序列分析
第五部分 会计(5章=21分)
第六部分 法律(5章=23分)