导图社区 中级经济师《统计与数据科学》
中级经济师《统计与数据科学》最新版思维导图,包括统计学的定义和分支、变量和数据、数据来源、统计调查等内容。
编辑于2022-11-02 18:02:14 重庆统计与数据科学
统计学
统计学定义
收集、整理、分析和从数据中得出结论的科学
两大分支
描述统计:研究数据收集、整理和描述的统计方法 内容:如何取得所需数据、如果和用方法对数据整理显示、如何描述数据一般特征
推断统计:研究如何利用样本数据推断总体特征的统计方法;参数估计、假设检验
变量与数据
变量:研究对象的属性或特征,可以有两个或者更多个可能的取值
定量变量(数量变量):取值是数量
定性变量:分类变量取值是类别,顺序变量取值是类别且有顺序
数据:对变量进行测量、观测的结果
定量数据:表现为具体的数据,可进行加减乘除计算
分类数据:表现为类别,一般用文字和数值代码描述,分类数据可计算出各类别的频数
顺序数据:表现为类别,一般用文字和数值代码描述
数据来源的分类
按收集方法
观测数据:直接调查或测量而收集的数据,一些与社会经济现象相关的统计数据,如GDP、CPI、房价
实验数据:从实验中收集的数据:自然科学领域多,如新产品的使用寿命、新药疗效数据
从使用者的角度
一手数据/直接数据 直接来源:调查或观察 实验
二手数据 来源于别人的调查和实验的数据
统计调查
概念
按预定目的和任务,用科学的统计调查方法,有计划有组织地搜集数据信息资料的过程 特征:调查是一种有计划、有方法、有程序的活动。调查结果表现为搜集到的数据
种类
按调查对象的范围不同
全面调查:所有单位逐一无漏调查。包括全面统计报表、普查(人口普查、经济普查:对象是第二、三产业活动)
非全面调查:一部分单位调查。包括非全面统计报表、抽样调查、重点调查和典型调查
按调查登记的时间是否连续
连续调查:在观察一定时期内的数量变化。例如产品生产、原材料投入、能源的消耗、人口出生、死亡率
不连续调查:间隔相当长时间做的调查,研究总体现象在一定时点上的状态,例如生产设备拥有量、耕地面积
统计调查方式
统计报表
含义:按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。原始数据为基础,按照统一表式、统一指标、统一报送时间和报送程序进行填报。
分类:按调查范围不同分为全面统计报表(大多数)和非全面统计报表;按时报送周期分为日报、月报、季报、年报;按报表内容和实施范围分为:国家、部门、地方的统计报表
普查
含义:为某一特定目的而专门组织的一次性全面调查。适合特定目的、特定对象的一种调查方式。用于了解处于某一时点状态上的社会经济现象的基本全貌
特点:(1)普查通常是一次性的或者周期性的;消耗大量人力物力财力,间隔时间长; (2)一般规定统一的标准调查时间,以免调查数据的重复或遗漏,保证普查结果准确性。一般每10年或5年进行一次。经济普查每10年2次,年份尾数3、8实行,1月1日0时;人口普查10年1次,年份尾数0实行,11月1日0时;农业普查10年1次,年份尾数6实行,1月1日0时(3)数据比较准确,规范化程度较高,为抽样或其他调查提供基本依据 (4)使用范围较窄,只能调查最基本及特定现象
抽样调查
根据样本调查结果来推断总体数量特征的一种非全面调查,是最广泛的一种调查方式
特点:经济性(最显著的优点)、时效性强、适应面广、准确性高
重点调查
总体中选一部分重点单位进行调查,所选择的重点单位就调查的标志值来说在总体中占绝大比重,能反映被调查对象的基本情况
特点:(1)适用范围很广,只求了解基本状况和发展趋势时比较适宜。(2)能以较少的投入、速度取得某些现象主要标志的基本情况或变动趋势。
典型调查
根据调查目的与要求,在对被调查对象进行全面分析基础上,有意识地选择若干具有典型意义或有代表性的单位进行调查
作用:通过对典型单位深入细致的调查,可以及时发现新情况、新问题;一定条件下可以验证全面调查数据的真实性。优点:灵活机动; 局限:很大程度受人们主观认识影响,需和其他调查结合使用,才能避免出现片面性
统计质量评价标准
真实性、准确性、完整性、及时性、适用性、经济型、可比性、协调性、可获得性
数据科学与大数据
数据科学
丹麦彼得 诺尔提出,一门通过系统性研究获取与数据相关的知识体系的学科,即研究数据
研究对象:数据整合成信息、再组织成知识的过程。包含数据采集、储存、处理、分析、表现等。一方面研究数据本身特性和变化规律;另一方面通过研究为自然科学和社会科学提供新方法,揭示自然界与人类行为的现象和规律
大数据
含义:无法一定时间用常规软件捕捉、处理的数据集合,需用新处理模式才具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
特性:4V,数据量大(单位PB)、数据多样性(结构化数据:二维表;非结构化数据:办公文档文本图片报表图像视频音频;半结构数据:员工简历)、价值密度低(价值密度该地与数据总量大小成反比)、数据的产生和处理速度快(1秒定律)
数据挖掘
含义:从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐藏的有潜在价值的信息和知识, 数据源必须是真实的、大量的、有噪声的;发现用户感兴趣的知识;发现的知识可接受、理解、运用的;只支持特定的发现问题
出发点:解决实际问题;核心任务:对数据关系和特征进行探索
类型:
监督学习(建模)
每个观测单位有自变量、因变量,根据已有数据集,训练出模型可以根据自变量数据得到因变量预测结果的过程。类型:分类(因变量是分类变量)和回归(因变量是定量变量,线性回归、非线性回归、分位数回归)
无监督学习
每个观测单位只有自变量,无因变量。主要任务是探索数据之间的内在联系和结构类型:聚类(一组数据按差异性和相似性分类,基于划分、分层、密度、网格、模型的方法)和降维(不损失过多信息的前提下,将n个相关特征降为k个不相关特征,即特征提取。主成分分析法、因子分析法)
半监督学习
两者之间的学习方式,半监督分类、半监督回归、半监督聚类
常用算法:分类(监督学习)、聚类分析(无监督学习)、关联分析(反复出现的关联关系和关联性进行挖掘)、趋势与演化分析、其他分析(特征分析、异常分析)