导图社区 统计与数据科学
统计与数据科学包括五个章节,统计学的定义及两大分支,变量和数据的分类,数据来源的分类,统计调查的种类和方式,数据科学与大数据。
编辑于2022-10-24 16:17:49 北京市23章 统计与数据科学
1节 统计学的定义及两大分支
统计学的定义
统计学是一门关于数据的学科,概括来讲,统计学是关于收集、整理、分析数据和从数据中得出结论的科学。
统计学的两大分支
统计学的两大分支是 描述统计和推断统计
描述统计:
研究数据收集、整理和描述的统计方法。其内容包括: (1)如何取得所需要的数据 (2)如何用图表或数学方法对数据进行整理和展示 (3)如何描述数据的一般特征
为了解与居民生活相关的商品及服务价格水平的变动情况,收集统计局发布的cpi 数据,利用统计图展示cpi ,利用增长率计算cpi的走势
推断统计:
研究如何利用样本数据推断总体特征的统计方法。其内容包括: (1)参数估计:利用样本信息推断总体特征 (2)假设检验:利用样本信息判断对总体假设是否成立
某公司评测顾客满意度,随机抽取部分顾客进行调查,再对顾客总体满意度进 行评估,此时需要用到参数估计法,然后验证满意度高的客户更倾向于成为忠 诚客户
描述统计 推断统计(参数统计、假设检验)
2节 变量和数据的分类
变量
一、概念: 变量是研究对象的属性或特征,它是相对于常数而言的。常数只有一个固定取值,变量可以有两个或更多个可能的取值。
二、变量的分类
1、定量变量(数量变量): 变量的取值是数量。如企业销售额、注册员工数
2、定性变量:
分类变量 :变量的取值是类别。如企业所属行业、员工性别
顺序变量 :变量的取值是类别且有顺序。如员工受教育水平
数据 (变量的观测结果)
一、概念:数据是对变量进行测量、观测的结果。数据可以是数值、文字或者图像等形式。
二、数据的类别
1、定量数据(数值型数据) :是对定量变量的观测结果,其取值表现为具体的数值。 如企业的销售额是 1000 万元
2、分类数据 :分类变量的观测结果,表现为类别,一般用文字来表述,也可用数字描述。 如,用1表示“男性”,2表示“女性”
3、顺序数据 :顺序变量的观测结果,表现为类别,一般用文字描述,也可用数字描述。 如用1表示“硕士及以上”,2表示“本科”,3表示“大专及以下”
定量 分类 顺序
3节 数据来源的分类
一、按收集方法
1、观测数据:通过直接调查或测量而收集的数据。几乎所有与社会经济现象有关的统计数据都是观测数据。 如 GDP、CPI、房价等(与经济有关是数据)
2、实验数据:通过在实验中控制实验对象以及其所处的实验环境收集到的数据。 如,一种新产品使用寿命的数据,一种新药疗效的数据。自然科学领域的数据大多都是实验数据
二、从使用者的角度
1、一手数据:来源于直接的调查和科学实验的数据,对使用者来说这是数据的直接来源。其来源主要有:调查或观察、实验 【提示】在社会经济领域,统计调查时获得数据的主要方法,也是获得一手数据的重要方式。
2、二手数据: 来源于别人的调查或实验的数据。对使用者来说这是数据的间接来源
收集方法:观测、实验数据 使用者角度:一手、二手数据
4节 统计调查的种类和方式
一、统计调查的概念与分类
统计调查过程有两个重要特征: 一是调查是一种有计划、有方法、有程序的活动; 二是调查的结果表现为搜集到的数据。
(一)按调查对象的范围不同
1、全面调查: 对构成调查对象的所有单位进行逐一的、无一遗漏的调查,包括:
(1)全面统计报表
(2)普查 ①人口普查: 对全国人口无一例外进行登记调查 ②经济普查: 对象是中华人民共和国境内从事第二、第三产业活动的全部法人单位、产业活动单位和个体经营户。
2、非全面调查: 对调查对象中的一部分单位进行调查。包括:非全面统计报表、抽样调查、重点调查和典型调查
(二)按调查登记的时间是否连续
1、连续调查(时期数——视频) 观察总体现象在一定时期内的数量变化,说明现象的发展过程,目的是为了解社会现象在一段时期的总量。 如工厂的产品生产、原材料的投入、能源的消耗、人口的出生、死亡等
2、不连续调查(时点数——照片) 间隔相当长的时间(通常一年以上)所作的调查,为了对总体现象在一定时点上的状态进行研究。 如生产设备拥有量、耕地面积等
二、统计调查方式 在我国常用的统计调查方式有: 统计报表、普查、抽样调查、重点调查和典型调查。
(一)统计报表
:按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。 统计报表要以一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。 1、按调查对象范围的不同分为全面统计报表和非全面统计报表。目前的大多数统计报表都是全面报表。 2、按报送周期长短不同可分为日报、月报、季报、年报等; 3、按报表内容和实施范围不同可分为国家的、部门的、地方的统计报表。
(二)普查:
为某一特定目的而专门组织的一次性全面调查,主要用于收集处于某一时点状态上的社会经济现象的基本全貌。 (1)普查通常是一次性的或者周期性的 (笔画记忆法) ①经济普查每 10 年进行 2 次,逢年份末尾数字为 3、8 的年份实施; ②人口普查每 10 年进行 1 次,逢“0”年份实施; ③农业普查每 10 年进行 1 次,逢“6”年份实施
(2)普查一般要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。 【提示】第五、六、七次人口普查的标准时间为普查年份的11月1日0时。农业普查和经济普查的标准时间为普查年份的 1月1日0时。标准时间一般定为调查对象比较集中、相对变动较小的时间。
(3)普查数据一般比较准确,规范化程度较高。
(4)使用范围比较窄,只能调查基本及特定的现象。
(三)抽样调查
从调查对象的总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查。 特点: (1)经济性:最显著的优点 (2)时效性强 (3)适应面广 (4)准确性高:工作量小,各环节可以做的更细致,登记性误差往往较小
(四)重点调查(定量:水果重量)
从调查对象的总体中选择少数重点单位进行调查。所选择的重点单位就调查的标志值来说在总体中占绝大比重。 重点调查的适用范围很广,以较少的投入、较快的速度取得某些现象主要标志的基本情况或变动趋势。 目的:只要求了解基本状况和发展趋势,不要求掌握全面的数据。 (1)为了及时了解全国城市零售物价的变动趋势,就可以对全国的 35 个大中型城市的零售物价的变化进行调查,这就是重点调查 (2)要及时了解全国工业企业的增加值和资产总额情况,只需对全国大中型工业企业进行重点调查即可 (3)重点调查能以较少的投入、较快的速度取得某些现象主要标志的基本情况或变动趋势,例如国家统计局的全国 5000家工业企业联网直报制度就属于重点调查。
(五)典型调查(定性:水果腐烂程度)
根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查 作用: (1)弥补全面调查的不足 (2)在一定条件下可以验证全面调查数据的真实性 优点:灵活机动、通过少数典型单位即可取得深入翔实的统计资料。典型调查不是统计活动所特有的方法,但从统计过程来说,是一种必不可少的方法。 运用典型调查主要在于了解与统计数字有关的生动的具体情况,即与现象数量有关的社会条件及其相互联系,以便进行深入的统计分析。
分类: 调查对象范围不同:全面调查、非全面调查 调查登记时间是否连续:连续调查、不连续调查 方式:统计报表、普查、抽样调查、重点调查和典型调查。
5节:数据科学与大数据
数据科学
提出者:数据科学这个词最早由丹麦的计算机科学领域先驱“彼得•诺尔”提出。
含义 :是一门通过系统性研究获取与数据相关的知识体系的学科。
研究对象:数据,即从“数据”整合成“信息”进而组织成“知识”的整个过程,包含对数据进行采集、储存、处理、分析、表现等一系列活动。 (1)一方面研究数据本身的特性和变化规律 (2)另一方面通过对数据的研究为自然科学和社会科学提供一种新的方法,从而揭示自然界和人类行为的现象和规律。
研究目标: 获得洞察力和理解力,通过对数据的分析、来解释、预测、洞见和决策,为现实世界服务。
涉及领域: 统计学、机器科学、计算机科学、可视化、人工智能、领域知识等。
大数据
一、大数据的含义: 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
二、大数据的特性——4V
1、数据量大(Volume)
大数据的起始计量单位是 PB(1024TB,大约 50 多万部电影)、EB(约 100 万 TB) 或 ZB,未来甚至会达到 YB 或 BB。 【补充知识:数据的计量单位由小到大是 B、KB、MB、GB(大概一部普通电影 2GB)、TB(1024GB,大约存储 500 部电影)、PB、EB 等】
2、数据多样性(Variety)
类型繁多,包括网络日志、音频、视频、图片、地理位置等各种结构化、半结构化和非结构化的数据。 (1)结构化数据是指存储在数据库里,可以用二维表结构实现表达的数据。 (2)非结构化数据是指数据结构不规则或不完整,没有预定义的数据. 包括所有格式的办公文档、文本、图片、报表、图像、音频信息、视频信息等; (3)半结构化数据是介于完全结构化数据和完全非结构化数据之间的数据,具有一定的结构性. 例如员工简历,有的简历只有教育情况,有的简历包括教育、婚姻、户籍、出入境等很多信息。
3、价值密度低(Value)
大数据价值密度的高低与数据总量的大小成反比。例如视频,在连续不间断的监控中,有用数据可能仅有一两秒。
4、数据的产生和处理速度快(Velocity)
大数据的处理要符合“1 秒定律”大数据的智能化和实时性要求越来越高,一般要在秒级时间范围内给出分析结果,超出这个时间数据就可能失去价值。
数据挖掘
一、含义
从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。包含以下几层含义: (1)数据源必须是真实的、大量的、有噪声的 (2)发现的是用户感兴趣的知识 (3)发现的知识是可接受的、可理解、可运用的 (4)并不要求发现放之四海而皆准的知识,只支持特定的发现问题。
二、出发点和核心任务
:数据挖掘以解决实际问题为出发点;核心任务是对数据关系和特征进行探索。
三、类型
1、指导学习或监督学习
监督学习是对目标需求的概念进行学习和建模,通过探索数据和建立模型来实现从观察变量到目标需求的有效解释。
2、无指导学习或非监督学习
无监督学习没有明确的标识变量来表达目标概念,主要任务是探索数据之间的内在联系和结构。
四、常用的算法
1、分类
(1)含义:确定目标对象属于哪个预定类别,以实现对未来潜在的预测需求。分类技术属于一种监督学习,即使用已知类别的训练数据建立分类模型的方法。
(2)实际应用:在邮件系统中区分出垃圾邮件,在贷款客户中判断出有风险客户等。
(3)常用方法:决策树分类法、贝叶斯分类法、关联分类法、支持向量机、神经网络等。
2、聚类分析
(1)含义:把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽量大,不同类的数据相似性尽可能小,跨类的数据关联性尽可能低。聚类是一种无监督学习。其要划分的类是未知的,聚类分析是根据观察学习来确定数据之间的关系。
(2)实际应用:用于客户细分、文本归类、结构分组、行为跟踪等问题。
(3)方法:基于划分的方法、基于分层的方法、基于密度的方法、基于网格的方法和基于模型的方法。
3、关联分析
(1)含义:是对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数据项的出现预测其他数据项的出现。
(2)实际应用:啤酒尿布案例,数据挖掘发现大型超市中购买啤酒的男士经常同时购买小孩纸尿裤,基于这一发现,超市把啤酒和纸尿裤摆放在一起,结果两种商品的销售量明显提升。
(3)方法:购物篮分析,目的是发现交易数据中不同商品之间的联系规则,让营销商制定更好的营销策略。
4、趋势与演化分析
包括数据变化趋势、序列模式分析、周期性分析以及相似程度分析等内容。统计学的回归分析方法经常用于这类问题的分析。
5、其他分析方法:特征分析、异常分析等。
数据可视化
一、含义
含义:借助图形化手段清晰有效地传达与沟通信息。 优势在于简单,表现清晰。利用人对形状、颜色、运动的敏感,有效传递信息,帮助用户从数据中发现关系、规律和趋势。
二、两个重要分支
1、科学可视化
面向科学与工程领域的数据,如包含空间坐标和几何信息的三维空间测量数据、计算机模拟数据和医学影像数据。重点探索以几何、拓扑和形状特征来呈现数据中蕴含的规律。
2、信息可视化
处理对象是非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据。大数据时代,信息可视化面临的挑战是要在海量、动态变化的信息空间中辅助人类理解进而挖掘信息、发现知识。
数据科学 大数据 数据挖掘 数据可视化