导图社区 DAMA数据管理知识体系指南 第十四章 大数据和数据科学
这是一篇关于DAMA数据管理知识体系指南 第十四章 大数据和数据科学的思维导图,主要内容有大数据和数据科学、信息收敛三角、业务驱动因素等。
初中数学知识大全:从基础到应用一网打尽! 涵盖数与代数(整数、分数、方程等)、几何(平面与空间图形)、函数(一次、二次、反比例函数及其应用)、统计与概率(数据整理、图表分析、概率计算)三大核心板块,并融入行程、工程、利润等实际应用题解析。通过系统梳理定义、性质、图像及综合应用,帮助学生构建完整知识框架,轻松应对各类题型。
可能是最全的数学知识结构图,目的是让大家有一个全貌了解,到具体的概念和公式就不涉及了,可以自行查询百度。
这是一篇关于DAMA数据管理 第五章 数据建模和设计的思维导图,主要内容有数据建模简介、常见数据模式、数据建模业务驱动因素等。
社区模板帮助中心,点此进入>>
项目时间管理6大步骤
项目管理的五个步骤
安全教育的重要性
电商部人员工作结构
个人日常活动安排思维导图
暮尚正常运转导图
产品经理如何做好项目管理
西游记主要人物性格分析
车队管理
17种头脑风暴法
DAMA数据管理 第十四章 大数据和数据科学
大数据和数据科学
1. “大”的含义也是相对的。也就是说,大数据和数据科学都是促使 人们产生、存储和分析海量数据的重大技术变革
2. 大数据不仅指数据的量大,也指数据的种类多
3. 数据科学已经存在了很长时间,它过去常常被称为“应用统计学“
信息收敛三角
业务驱动因素
期望抓住从多种流程生成的数据集中发现的商机,是 提升一个组织大数据和数据科学能力的最大业务驱动 力。
大数据可以通过对更多、更大的数据集进行探索来激 发创新,这些数据可用来定义预判客户需求的预测模 型,并实现产品和服务的个性化展示。
数据科学可以提升运营水平。
机器学习算法可以将那些复杂且耗时的活动实现自动 化,从而提升组织效率、削减成本、降低风险。
A/B测试驱动产品设计
大数据的特征
1)数据量大(Volume)。
大数据通常拥有上千个实体或数十亿个记录中的元素。
2)数据更新快(Velocity)。
指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
3)数据类型多样/可变(Variety/Variability)。
指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。
4)数据黏度大(Viscosity)。
指数据使用或集成的难度比较高。
5)数据波动性大(Volatility)。
指数据更改的频率,以及由此导致的数据有效时间短。
6)数据准确性低(Veracity)。
指数据的可靠程度不高。
大数据和数据科学语境关系图
对比商务智能与数据科学
数据科学的过程阶段
1、定义大数据战略和业务需求
2、选择数据源
3、获得和接收数据源
4、制定数据假设和方法
5、集成和调整进行数据分析
6、使用模型探索数据
7、部署和监控
大数据技术
数据存储的挑战
DW/BI和大数据概念架构
数据湖
基于服务的架构
机器学习
分类:每个点是个样本,在图上表示出来,如身高/体重,一个点表示一个人,分类,基于类别标签,是有监督学习方式
回归:根据历史波段预测未来波段波动情况,线性问题等,线性回归、SDM、神经网络等
聚类:没有类别标签,是无监督学习方式,如新闻文本进行分类
还有其他一些辅助技术:模型融合、数据降维、数据特征工程等
数据可视化
大数据战略与工具
大数据战略的评估标准
1)组织试图解决什么问题,需要分析什么。
2)要使用或获取的数据源是什么。
3)提供数据的及时性和范围。
4)对其他数据结构的影响以及与其他数据结构的相关性。
5)对现有建模数据的影响。
战略交付成果应考虑管理以下要素
信息生命周期
元数据
数据质量
数据采集
数据访问和安全性
数据治理
数据隐私
学习和采用
运营
开源大数据系统
Google GFS
Google Big Table
HBase
Map Reduce
分布式
MPP SQL on Hadoop
大规模并行处理(MPP)