导图社区 经济基础第二十三章统计与数据科学
经济基础第二十三章统计与数据科学知识点总结,主要涵盖了统计学的基本概念、分类、统计调查的方式、数据科学与大数据的特性以及数据挖掘和数据可视化的相关知识。统计学就是一门关于数据的学科,它提供了一系列用于收集、处理、分析和解释数据的方法,概括来讲,统计学是关于收集、整理、分析数据和从数据中得出结论的科学,统计学有两个分支:描述统计和推断统计。
编辑于2024-07-03 11:16:37第一章企业战略与经营决策-企业战略类型知识点总结,包含基本竞争战略、企业成长战略、企业稳定战略、企业紧缩战略。
24版工商管理第一章企业战略和经营决策-企业战略分析,企业战略指企业在激烈的市场经济竞争环境中,在总结历史经验、调查现状、预测未来的基础上,为谋求自我生存和发展而做出的长远性、全局性的谋划。
如何提升直播间流量竞争力,详细概述了如何提升直播间流量竞争力的多方面策略。强调了提升直播间流量竞争力的全方位策略,包括优化直播场景、增强主播能力、精准选品与排品、利用数据指导决策以及加大流量投放等。通过这些策略的综合运用,可以有效提升直播间的流量承接力和转化率,从而实现销售额的增长。
社区模板帮助中心,点此进入>>
第一章企业战略与经营决策-企业战略类型知识点总结,包含基本竞争战略、企业成长战略、企业稳定战略、企业紧缩战略。
24版工商管理第一章企业战略和经营决策-企业战略分析,企业战略指企业在激烈的市场经济竞争环境中,在总结历史经验、调查现状、预测未来的基础上,为谋求自我生存和发展而做出的长远性、全局性的谋划。
如何提升直播间流量竞争力,详细概述了如何提升直播间流量竞争力的多方面策略。强调了提升直播间流量竞争力的全方位策略,包括优化直播场景、增强主播能力、精准选品与排品、利用数据指导决策以及加大流量投放等。通过这些策略的综合运用,可以有效提升直播间的流量承接力和转化率,从而实现销售额的增长。
经济基础第二十三章统计与数据科学
统计学
统计学就是一门关于数据的学科,它提供了一系列用于收集、处理、分析和解释数据的方法,概括来讲,统计学是关于收集、整理、分析数据和从数据中得出结论的科学,统计学有两个分支:描述统计和推断统计
描述统计是研究数据收集、整理和描述的统计学方法,其内容包括如何取得所需要的数据,如何用图表或数学方法对数据进行整理和展示,如何描述数据的一般性特征
例如,为了解与居民生活相关的商品及服务价格水平的变动情况,收集国家统计局发布的居民消费价格指数(CPI)数据,利用统计图形展示CPI的变化,利用增长率计算CPI的基本走势
推断统计是研究如何利用样本数据来推断总体特征的统计学方法,其内容包括参数估计和假设检验两大类
参数估计是利用样本信息推断总体特征
假设检验是利用样本信息判断对总体的假设是否成立
例如,某公司要评测顾客满意度,由于时间、人力和财力等条件的限制不可能对公司所有的顾客进行满意度调查,于是从中随机抽取一部分顾客,调查他们对该公司的质量感知、满意状况和忠诚度等信息,再对公司顾客总体满意度情况进行估计,这就需要用到参数估计方法;然后验证满意度高的顾客更倾向于成为忠诚顾客,这就是假设检验要解决的问题
变量和数据
变量是研究对象的属性或特征,它是相对于常数而言的。常数只有一个固定取值,而变量可以有两个或更多个可能的取值。研究对象从不同的角度考察,可以有许多不同的属性或特征,也就有许多变量
当变量的取值是数量时,该变量被称为定量变量或数量变量。例如,企业销售额、注册员工数量等
当变量的取值表现为类别时则被称为分类变量,比如企业所属行业
分类变量的观测结果称为分类数据,表现为类别,一般用文字来表述,也可用数值代码表示。比如用1表示“男性”,用2表示“女性
分类变量和顺序变量统称为定性变量
当变量的取值表现为类别且具有一定顺序时被称为顺序变量,比如员工受教育水平
数据的来源
1. 观测数据和实验数据
统计数据,按其收集方法,可以分为观测数据和实验数据
1. 通过直接调查或测量而收集到的数据,称为观测数据
观测数据是在没有对事物施加任何人为控制因素的条件下得到的,几乎所有与社会经济现象有关的统计数据都是观测数据,如GDP、CPI、房价等
2. 通过在实验中控制实验对象以及其所处的实验环境收集到的数据,称为实验数据
比如,一种新产品使用寿命的数据,一种新药疗效的数据。自然科学领域的数据大多是实验数据
2. 一手数据和二手数据
统计数据,就其本身的来源来看,最初都来源于调查或实验。但从使用者的角度看,数据的来源主要有两种
1. 直接的调查和科学实验,对使用者来说,这是数据的直接来源,称为直接数据或一手数据
一手数据的来源主要有两个:一是调查或观察,二是实验。在社会经济领域,统计调查是获得数据的主要方法,也是获得一手数据的重要方式
2. 别人的调查或实验的数据,对使用者来说,这是数据的间接来源,称为间接数据或二手数据
统计调查
统计调查的概念与分类
统计调查是按照预定的目的和任务,运用科学的统计调查方法,有计划有组织地收集数据信息资料的过程。调查过程有两个重要特征
1. 调查是一种有计划、有方法、有程序的活动
2. 调查的结果表现为收集到的数据
统计调查可以按不同标准分类
按调查对象的范围不同,分为全面调查和非全面调查
1. 全面调查是对构成调查对象的所有单位进行逐一的、无一遗漏的调查,包括全面统计报表和普查。
例如,人口普查就要对全国人口无一例外地进行登记调查。又如,经济普查的对象是中华人民共和国境内从事第二、第三产业活动的全部法人单位、产业活动单位和个体经营户
2. 非全面调查是对调查对象中的一部分单位进行调查,包括非全面统计报表、抽样调查、重点调查和典型调查等
例如,为了研究城市居民家庭的生活水平,可以只对一定数量的住户进行调查;为了掌握进出口商品的质量,抽取一部分商品做检验。又如,为了研究出生婴儿的性别比,可以抽选一定数量的医院、保健院,对其出生婴儿进行调查,而不必对全国每一个出生婴儿都进行调查
按调查登记的时间是否连续,分为连续调查和不连续调查
1. 连续调查是为了观察总体现象在一定时期内(通常是一年内)的数量变化,它要求随着调查对象的发展变化,连续地进行调查登记
例如,工厂的产品生产,原材料的投入,能源的消耗,人口的出生、死亡等,必须在调查期内连续登记,然后再进行加总。可见,连续调查的资料可以说明现象的发展过程,目的是了解现象在一段时期的总量
2. 不连续调查是间隔一个相当长的时间(通常是一年以上)所做的调查,一般是为了对总体现象在一定时点上的状态进行研究
例如,生产设备拥有量、耕地面积等,这些指标的数值在短期内变化不大,不需要连续登记,通常是隔一段时间登记其某时刻或某一天的数量
统计调查的方式
常用的统计调查的方式有统计报表、普查、抽样调查、重点调查和典型调查
1. 统计报表
统计报表是目前我国收集统计数据的一种重要方式。统计报表是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式统计报表要以一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报
统计报表的类型多样,按调查对象范围的不同可分为全面统计报表和非全面统计报表
全面统计报表要求调查对象中的每一个单位都填报
目前的大多数统计报表都是全面统计报表,按报送周期长短不同可分为日报、月报、季报、年报等
按报表内容和实施范围不同可分为国家的、部门的、地方的统计报表
非全面统计报表只要求调查对象中的一部分单位填报
2. 普查
普查是为某一特定目的而专门组织的一次性全面调查,如人口普查、经济普查、农业普查等
普查是适合特定目的、特定对象的一种调查方式,主要用于了解处于某一时点状态上的社会经济现象的基本全貌,为国家制定有关政策提供依据。普查作为一种特殊的数据收集方式,具有以下几个特点
1. 普查通常是一次性的或周期性的
由于普查涉及面广、调查单位多,需要耗费大量的人力、物力和财力,通常需要间隔较长的时间,一般每隔10年或5年进行一次
经济普查每10年进行两次,分别在每逢年份的末尾数字为“3”和“8”的年份实施。
人口普查逢“0”的年份进行,农业普查逢“6”的年份进行,均为每10年一次
2. 普查一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性
例如,我国前四次人口普查的标准时间定为普查年份的7月1日0时,第五次至第七次人口普查的标准时间定为普查年份的11月1日0时,农业普查的标准时间定为普查年份的1月1日0时,第四次全国经济普查的标准时间定为普查年份的1月1日0时。标准时间一般定为调查对象比较集中、相对变动较小的时间。
3. 普查的数据一般比较准确,规范化程度也较高,因此,它可以为抽样调查或其他调查提供基本依据
4. 普查的使用范围比较窄,只能调查一些最基本及特定的现象
3. 抽样调查
抽样调查是从调查对象的总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查,抽样调查具有以下几个特点
1. 经济性
这是抽样调查的一个最显著优点。由于调查的样本单位通常是总体单位中的很小一部分,调查的工作量小,因而可以节省大量的人力、物力、财力和时间
2. 时效性强
抽样调查可以迅速、及时地获得所需要的信息。由于工作量小,调查的准备时间、调查时间、数据处理时间等都可以大大缩短,从而提高数据的时效性。与普查等全面调查相比,抽样调查可以频繁地进行,随着事物的发生和发展及时取得有关信息,以弥补普查等全面调查的不足
3. 适应面广
抽样调查可以获得更广泛的信息,它适用于对各个领域、各种问题的调查。从适用的范围和问题来看,抽样调查可用于调查全面调查能够调查的现象,也能调查全面调查所不能调查的现象,特别适合对一些特殊现象的调查,如产品质量检验、农产品实验、医药的临床实验等。从调查的项目和指标来看,抽样调查的内容和指标可以更详细、深入,能获得更全面、更广泛和更深入的数据
4. 准确性高
抽样调查的数据质量有时比全面调查更高,因为全面调查的工作量大,环节多,登记性(或调查)误差往往很大,而抽样调查由于工作量小,可使各环节的工作做得更细致,误差往往很小
4. 重点调查
重点调查是一种非全面调查,它是在所要调查的总体中选择一部分重点单位进行的调查。所选择的重点单位虽然只是全部单位中的一部分,但就调查的标志值来说在总体中占绝大部分比重,调查这一部分单位的情况,能够大致反映被调查对象的基本情况。重点调查的适用范围很广。当调查目的只要求了解基本状况和发展趋势,不要求掌握全面数据,而调查少数重点单位就能满足需要时,采用重点调查就比较适宜
例如,为了及时了解全国城市零售物价的变动趋势,就可以对全国35个大中型城市的零售物价的变化进行调查,这种调查就是重点调查。又如,要及时了解全国工业企业的增加值和资产总额情况,只需对全国大中型工业企业进行重点调查即可。因为虽然大中型工业企业数占全国工业企业数不到5%,但是这些大中型企业的增加值和资产总额却均占全国工业的60%以上。
5. 典型调查
典型调查是一种非全面调查,它是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查。典型调查的主要作用有
1. 通过对典型单位深入细致的调查,可以及时发现新情况、新问题
2. 在一定条件下可以验证全面调查数据的真实性。例如,在一次重大普查之后,可以选择若干个典型单位,检查统计数据的准确程度
统计质量评价标准
国家统计局制定的《国家统计质量保证框架(2021)》,针对统计数据生产全过程,从真实性、准确性、完整性、及时性、适用性、经济性、可比性、协调性和可获得性九个方面,确定了统计数据的质量评价标准
1. 真实性,要求统计源头数据必须符合统计调查对象的实际情况,确保统计数据有依据、可溯源。侧重于对基础数据质量的评价
2. 准确性,要求统计数据的误差必须控制在允许范围内,能够为形势判断、政策制定、宏观调控等提供可靠依据。侧重于对统计数据生产科学性的评价
3. 完整性,要求统计数据应当全面完整,统计范围不重不漏,统计口径完备无缺。侧重于对统计数据全面系统反映客观实际程度的评价
4. 及时性,要求统计数据生产应当在符合统计科学规律的前提下,尽可能缩短从调查到公布的时间间隔。侧重于对统计数据生产效率的评价
5. 适用性,要求统计数据能够最大限度为用户所用,统计指标紧跟时代发展、切合统计需求。侧重于对统计用户满意度的评价
6. 经济性,要求统计数据生产应当尽可能降低成本,统计调查、行政记录、大数据等数据资源得到充分利用。侧重于对统计数据成本效益的评价
7. 可比性,要求统计数据应当连续、可比,不同时间、空间数据生产使用规范统一的统计标准和统计原则。侧重于对统计工作标准化、规范化程度的评价
8. 协调性,要求统计数据结构严谨、逻辑合理,各总量数据、结构数据相互之间高度匹配。侧重于对统计数据间逻辑关系的评价
9. 可获得性,要求多渠道、多方式公布统计数据,同时公布相应的统计制度方法,加强数据解读,满足社会需求。侧重于对统计服务质量的评价
数据科学与大数据
数据科学
数据科学(data science )是一门通过系统性研究获取与数据相关的知识体系的学科。数据科学一方面研究数据本身的特性和变化规律,另一方面通过对数据的研究为自然科学和社会科学提供一种新的方法,从而揭示自然界和人类行为的现象和规律
数据科学研究的是从“数据”整合成“信息”进而组织成“知识”的整个过程,包含对数据进行采集、存储、处理、分析、表现等一系列活动
数据科学的研究对象是数据,研究目标是获得洞察力和理解力,通过对数据的分析,来解释、预测、洞见和决策,为现实世界服务。数据科学涉及的范围非常广泛,例如统计学、计算机科学、可视化、人工智能、领域知识等
大数据
大数据(big data )指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要运用新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据具有“4V”特性:
1. 数据量大(Volume )
大数据的起始计量单位是PB(1024TB)、EB(1024PB,约100万TB)或ZB(1024EB,约10亿TB),未来甚至会达到YB(1024ZB)或BB(1024YB)
2. 数据多样性(Variety )
大数据类型繁多,包括网络日志、音频、视频、图片、地理位置等各种结构化、半结构化和非结构化的数据
1. 结构化数据是指存储在数据库里,可以用二维表结构实现表达的数据
2. 非结构化数据是指数据结构不规则或不完整,没有预定义的数据,包括所有格式的办公文档、文本、图片、报表、图像、音频、视频等
3. 半结构化数据是介于完全结构化数据和完全非结构化数据之间的数据,具有一定的结构性,例如员工简历,有的简历只有教育情况,有的简历包括教育、婚姻、户籍、出入境情况等很多信息
3. 价值密度低(Value )
大数据价值密度的高低与数据总量的大小成反比。以视频为例,在连续不间断的监控中,有用数据可能仅有一两秒。原始零散、复杂多样,甚至可能有数据噪声和污染的数据需要经历价值“提纯”,才能得出信息、获取知识
4. 数据的产生和处理速度快(Velocity )
大数据的智能化和实时性要求越来越高,对处理速度也有极严格的要求,一般要在秒级时间范围内给出分析结果,超出这个时间数据就可能失去价值,即大数据的处理要符合“1秒定律”
数据挖掘
数据挖掘(datamining )就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。该定义包含以下几层含义
1. 数据源必须是真实的、大量的、有噪声的
2. 发现的是用户感兴趣的知识
3. 发现的知识是可接受、可理解、可运用的
4. 并不要求发现放之四海而皆准的知识,仅支持特定的发现问题
常见的数据挖掘方法可分为监督学习、无监督学习和半监督学习
监督学习的数据集中,每个观测单位既有自变量(特征x),又有因变量(标签y)。根据已有的数据集,训练出模型可以根据自变量数据得到因变量预测结果的过程称为监督学习。模型学习的好坏可以根据因变量的实际值和预测值之间的差异判断
监督学习中有两大类典型任务:分类和回归
1. 分类是通过特征变量确定观测单位所属的类别,因变量是分类变量。例如,根据用户的满意度、财务信息判断用户合约到期后是否会续约,根据发件人、主题、内容等信息判断邮件是否为垃圾邮件。常用的分类方法有逻辑斯特回归、决策树、随机森林和支持向量机等
2. 回归是通过特征变量确定观测单位因变量的取值,因变量是定量变量。例如,根据钻石的克拉数、颜色、切割工艺等信息预测钻石的价格,根据房屋面积、位置、楼层等信息预测房价。常用的回归方法有线性回归、非线性回归和分位数回归等
无监督学习的数据集中,每个观测单位只有自变量(特征x),没有因变量(标签y)。无监督学习的主要任务是探索数据之间的内在联系和结构。无监督学习中有两大类典型任务:聚类和降维
1. 聚类是指把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽可能大,不同类的数据相似性尽可能小,跨类的数据关联性尽可能低
聚类分析常用于客户细分、文本归类、结构分组、行为跟踪等。与分类不同,聚类要划分的类是未知的,聚类是根据观察学习来确定数据之间的关系,因此是一种无监督学习。常用的聚类方法包括基于划分的方法(例如k均值聚类算法)基于分层的方法、基于密度的方法、基于网格的方法和基于模型的方法
2. 降维是指在不损失过多信息的前提下将N个相关的特征降为k个不相关的特征(其中k<N),使其具有更好的解释性,因此降维也称为特征提取
例如,根据客户的能力、品格、担保、资本、环境等特征评价客户的信用等级。常用的降维方法包括主成分分析法、因子分析法等
半监督学习是监督学习与无监督学习相结合的一种学习方法。半监督学习的数据集中,一部分观测单位既有自变量(特征x)又有因变量(标签y),另一部分观测单位只有自变量(特征x)没有因变量(标签y),而且没有标签的观测单位数量远大于有标签的观测单位数量
半监督学习的成本低于监督学习,准确性又高于无监督学习。因此,半监督学习正越来越受到人们的重视。常见的半监督学习有半监督分类、半监督回归、半监督聚类。