导图社区 第二十三章统计与统计数据
2021年经济基础的知识总结,包括数据科学的研究对象是数据研究目标是获得洞察力和理解力通过对数据的分析,来解释、预测、洞见和决策,未显示世界服务,数据科学涉及的范围广泛,如统计学、机器学习、计算机科学、可视化人工智能领域知识。
2021年经济基础的知识总结,包括市场供给、供给的含义、影响供给的因素、供供给曲线的形状及变动、均衡价格、弹性等内容。
2021年经济基础的知识总结,包括市场结构类型结构、完全竞争市场中生产者的行为、完全垄断市场中生产者的行为、垄断竞争市场和寡头垄断市场中生产者的行为等内容。
2021年经济基础的知识总结,包括中央银行制度、中央银行的职责和业务活动特征、中央银行的主要业务、货币政策定义、货币政策目标、货币政策工具、货币政策的中介目标、货币政策传导机制、近年来我国货币政策的实践等内容。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
第二十三章统计与统计数据
数据科学大数据
数据科学
数据科学的研究对象是数据 研究目标是获得洞察力和理解力 通过对数据的分析,来解释、预测、洞见和决策,未显示世界服务
数据科学涉及的范围肥肠广泛,例如:统计学、机器学习、计算机科学、可视化、人工智能、领域知识
大数据收
具有4V特性
数据量大
起始计量单位是PB、EB或ZB
数据多样性
大数据类型繁多 摆阔网络日志、音频、视频、图片、地理位置等个钟结构化、半结构化和非机构化的数据
结构化数据可用二维表结构实现表达的数据
非结构化数据:数据结构不规则或不完整,没有预定义的数据,包括所有格式的办公文档、文本、图片、报表、图像、音频信息、视频信息
半结构数据
结余完全结构化数据和完全非结构化数据之间的数据,具有一定的结构性,例如员工简历
价值密度低
大数据价值密度的高低与数据总量的大小陈反比
数据的产生和处理速度快
一般在秒级时间范围:1秒定律
数据挖掘
包含4层含义
数据源必须是真实的、大量的、有噪声的
发现的是用户感兴趣的知识
发现的知识是可接受、可理解、可运用的
并不要求发现放之四海而皆准的知识,仅支持特定的发现问题
数据挖掘以解决实际问题为出发点,核心任务是对数据关系和特征进行探索
数据挖掘可以分为两类
监督学习
通过探索数据和建立模型来实现从观察变量到目标需求的有效解释
无监督学习
主要任务是探索数据之间的内在联系和结构
数据挖掘常用的算法有
分类
确定目标对象属于哪个预定的类型,以实现对未来潜在的预测需求。例如:在邮件系统中分出垃圾邮件,在贷款客户中判断出有风险客户
分类是一种监督学习 已知类别
常用的分类技术包括:决策树分类法、贝叶斯分类法、关联分类法、支持向量机、神经网络等
聚类分析
聚类分析是一种无监督学习 未知的
聚类分析常用于客户细分、文本归类、结构分组、行为跟踪等问题
常用的聚类方法包括:基于划分方法、基于分层方法、基于密度方法、基于网络方法和基于模型方法
关联分析
一个典型例子就是购物蓝分析
经典的啤酒和尿布案例
消费者行为海量数据的关联分析在电商精准销售中得到广泛应用
趋势与演化分析
包括数据变化趋势、序列模式分析、周期性分析以及相似程度分析等内容
统计学的回归分析方法经常用于这类问题的分析
特征分析
异常分析
数据可视化
优势在于简单、表现清晰、利用人对形状、颜色、运动的敏感、有效传递信息、帮助用户从数据中发现关系、规律和趋势
包含两个人重点分支
科学可视化
面向科学与工程领域的数据。如:空间坐标、几何信息的三维空间测量数据、计算机模拟数据、医学影像数据
信息可视化
处理对象是非结构化、非几何的抽象数据。如金融交易、社交网络、文本数据
在大数据时代,信息可视化面临的挑战是要在海量、动态变化的信息空间中辅助人类理解进而挖掘信息、发现知识
统计调查
按调查对象的范围不同
全面调查
对调查对象进行逐一的、无一遗漏的调查 保护全面通缉报表和普查(人口普查、经济普查)
非全面调查
是对调查对象中的一部分单位进行调查 包括非全面统计报表、抽样调查、重点调查和典型调查
按调查登记的时间是否连续
连续调查
观察总体现象在一定时期内的数量变化 如工厂的产品生产 原材料的投入 能源的消耗 人口的出生 死亡等
不连续调查
间隔相当长的时间所作的调查 一般是为了对总体现象在一定时点上的状态进行研究 如生产设备拥有量、耕地面积等
统计调查的方式
统计报表
按照国家有关法规的规定,自上而下地统一布置,自上而下地逐级提供基本统计数据的一种调查方式
以一定的原始数据为基础,按照捅一刀表式、同意的指标、同意的报送时间和报送程序进行填报
调查对象范围的不同分为全面通缉报表和非全面统计报表
目前大多数统计报表都是全面报表
普查
为某一特定目的而专门组织一次性全面调查 如人口普查、经济普查、农业普查
普查的特点
一次性的或者周期性的
经济普查每十年进行两次 分别年份为3、8的年份实施
人口普查逢0的年份进行 每10年一次
农业普查逢6的年份进行 每10年一次
一般需要规定同意的标准调查时间
避免调查数据的重复或遗漏 保证普查结果的准确性
前四次人口普查标准时间为7月1日 第五第六次标准时间为11月1日
农业普查标准时间为1月1日 第四次标准时间为1月1日
规范化程度较高 可以为抽样调查或其他调查提供基本的依据
普查的使用范围比较窄 只调查一些最基本及特定的现象
抽样调查
根据样本调查结果来推断总体特征的一种非全面调查 实际应用最广泛
经济型
时效性强
适应面广
准确性高
重点调查
一种非全面调查 选择一部分重点单位 调查的标志值来说在总体中占绝大比重
调查适用范围广
了解基本状况和发展趋势 调查少数重点单位就能满足需要 采用重点调查比较适宜
典型调查
一种非全面调查 有意识的选择具有典型意义或有代表性的调查
作用:弥补全面调查的不足
在一定条件下可以验证全面调查数据的真实性
数据的来源
按收集方法
观测数据
通过直接调查或测量而收集的数据
几乎所有与社会经济现象有关的统计数据都是观测数据,如GDP、CPI、房价
实验数据
通过在实验中控制实验对象以及所处的实验环境收集到的数据
自然科学领域的数据都是实验数据 如一种新产品使用寿命、一种新药疗效的数据、
按来源
一手数据
来源于直接的调查和科学实验的数据
调查或观察
实验
二手数据
来源于别人的调查或实验的数据 间接来源
变量与数据
数据是对边框进行测量、观测的结果
定性变量
分类数据
分类变量的观测结果称为分类数据,表现为类别,一般用文字来表述也可用数值代码表示
顺序数据
顺序数据是对顺序变量的观测结果,也表现为类别,一般用文字表述,也可用数值代码表示
定量变量
数值型数据
数值型数据是对定量变量的观测结果,其取值表现为具体的表示大小或多少数值
统计学
描述统计
研究数据收集、整理和描述的统计方法
如何取得所需要的数据
如何用图表或数学方法对数据进行整理和展示
如何描述数据的一般特征
推断统计
研究如何利用数据推断总体特征
参数估计:利用样本信息推断总体特征
假设检验:利用样本信息判断对总体假设是否成立