导图社区 DAMA-CDGA数据治理工程师-14.大数据与数据科学
大数据与数据科学:期望抓住从多种流程生成的数据集中发现商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。
编辑于2024-03-05 20:32:22不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
社区模板帮助中心,点此进入>>
不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
14.大数据与数据科学
引言
大数据不仅指数据的量大,也指数据的种类多,以及数据产生的速度快
传统的商务智能BI提供“后视镜”式的报告,通过分析结构化的数据展示过去的趋势
在某些情况下,BI模式被用来预测未来的行为,但它不具备高可信度
想要利用大数据,就必须改变数据的管理方式
大多数数据仓库都基于关系模型,而大数据一般不采用关系模型组织数据
大多数数据仓库都依赖ETL(抽取、转换、加载)的概念
大数据的解决方案,如数据湖,则依赖ELT的概念--先加载后转换
业务驱动因素
期望抓住从多种流程生成的数据集中发现商机,是提升一个组织大数据和数据科学能力的最大业务驱动力
原则
与大数据管理相关的原则尚未形成,但有一点非常明确:组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理
基本概念
数据科学
数据科学家提出了一个关于行为的假设,即特定的行为是可以在具体行动之前的数据中被观察到的
之后,数据科学家分析大量的历史数据,以确定假设在过去真实发生的频率,并从统计学上验证模型可能得准确性
如果一个假设在足够高的频率下是有效的,并且它预测的行为是有用的,那么这个模型就可能成为操作智能过程的基础来预测未来的行为,甚至可能是实时的预测
依赖于
丰富的数据源
信息组织和分析
信息交付
展示发现和数据洞察
数据科学的过程
定义大数据战略和业务需求
选择数据源
采集和提取数据资料
设定数据假设和方法
集成和调整数据进行分析
使用模型探索数据
部署和监控
大数据
数据量大
大数据通常拥有上千个实体或数十亿个记录中的元素
数据更新快
指数据被捕获、生成或共享的速度
数据类型多样
指抓取或传递数据的形式
数据粘度大
指数据使用或集成的难度比较高
数据波动大
指数据更改的频率,以及由此导致的数据有效时间短
数据准确性低
指数据的可靠性不高
大数据架构组件
DW/BI与大数据处理之间的最大区别在于
在传统数据仓库中,数据在进入仓库时进行整合(提取、转换、加载)
在大数据环境中,数据在整合之前就进行接收和加载(提取、加载、转换)
大数据来源
结构化数据+非结构化数据
数据湖
数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可以提供多种场景应用
例如,可以提供
数据科学家可以挖掘和分析数据的环境
原始数据的集中存储区域,只需很少的转换(如果需要的话)
很少转换是因为ELT
数据仓库明细历史数据的备用存储区域
信息记录的在线归档
可以通过自动化的模型识别提取数据的环境
数据湖可以作为Hadoop或其他数据存储系统、集群服务、数据转换或数据集成等数据处理工具的一种复合配置来实施
风险
数据湖的风险在于,它可能很快会变成数据沼泽--杂乱、不干净、不一致
为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要
基于服务的架构
基于服务的体系架构正在成为一种立即提供数据的方法,并使用相同的数据源来更新完整、准确的历史数据集
SBA架构与数据仓库有些类似
它会把数据发送到操作性数据存储ODS中以实现即时存取
同时也会将数据发送到数据仓库中以实现历史积累
层次
批处理层
数据湖为批处理提供服务,包括近期和历史的数据
加速层
只包括实时数据
服务层
提供连接批处理和加速层数据的接口
数据被加载到批处理层和加速层
所有分析计算都在批处理层和加速层的数据上执行,这种设计可能需要再两个独立的系统中实现
批处理层通常被称为随时间变化的结构组件(这里每个事务都是一个插入),而在加速层(通常被称为操作型数据存储在ODS)中,所有事务都是更新的
此体系架构可以同时创建当前状态和历史层的方式预防同步问题
机器学习
监督学习
是基于复杂的数学理论,特别是统计学、组合学和运筹学
通过是基于规则(如将SPAM邮件和非SPAM邮件分开)
无监督学习
通常成为数据挖掘
基于找到那些隐藏的规律
加强学习
没有教师的认可就实现了目标优化
语义分析
媒体监控和文本分析是从大量的非结构化或半结构化数据中检索并获得见解的自动化方法,用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法
使用自然语言处理NLP分析短句或句子察觉情绪,并揭示情绪的变化,以预测可能得场景
数据和文本挖掘
数据挖掘是一种特殊的分析方法,它使用各种算法揭示数据中的规律
它最初是机器学习的一个分支,属于人工智能的一个子领域
标准化的查询和报表工具能发现一些具体的问题,而数据挖掘工具通过揭示规律来帮助发现未知的关系
文本挖掘使用文本分析和数据挖掘技术来分析文档,将内容自动进行分类,成为工作流导向和领域专家导向的知识本体
因此电子文本媒体可以在不重构或格式化的情况下被分析
技术
剖析
尝试描述个人、群体或人群的经典行为,用于建立异常检测应用程序的行为规范
剖析结果是许多无监督学习组件的输入
数据缩减
是采用较小的数据集来替换大数据集
较小的数据集中包含了大数据集中的大部分信息
较小的数据集更易于分析或处理操作
关联
关联式一种无监督的学习过程,根据交易涉及的元素进行研究,找到它们之间的关联
例如互联网推荐
聚类
基于数据元素的共享特征,将他们聚为不同的簇
例如客户细分
自组织映射
预测性分析
预测分析是基于可能事件与可变因素的概率模型开发,当它接收到其他信息时,模型会触发组织的反应
预测模型最简单的形式是预估
规范性分析
比预测性分析更近一步,它对将会影响结果的动作进行定义而不仅仅是根据已发生的动作预测结果
规范性分析预计将会发生什么,何时发生,并暗示它将会发生的原因
由于规范性分析可以显示各种决策的含义,因此可以建议如何利用机会或规避风险
非结构化数据分析
随着更多非机构化数据的产生,非结构化数据分析变得越来越重要
如果没有将非结构化数据纳入分析模型中,则无法进行某些分析
但是如果没有某种方法将要关注的元素与无关元素隔离开来,非结构化数据的分析也会非常困难
扫描和标记是向非结构化数据添加“钩子”的一种方法,它允许对相关架构化数据进行连接的筛选
运营分析
也称为运营BI或流式分析,其概念是从运营过程与实时分析的整合中产生的
运营分析包括跟踪和整合实时信息流,根据行为预测模型得出结论,并触发自动响应和报警
运营分析解决方案包括对行为模型填充所需历史数据的准备
数据可视化
可视化是通过使用图片或图形表示来解释概念、想法和事实的过程
压缩并封装特征数据,使其更易于查看
可以以静态格式(如已发布的报告),或需要创新的手段来调整可视化效果
数据混搭
将数据和服务结合在一起,以可视化的方式展示见解或分析结果
活动
定义大数据战略和业务需求
战略评估标准
组织试图解决什么问题,需要分析什么
要使用或获取的数据源是什么
提供数据的及时性和范围
对其他数据结构的影响以及与其他数据结构的相关性
对现有建模数据的影响
选择数据源
获取和接收数据源
制定数据假设和方法
集成和调整数据进行分析
使用模型探索数据
填充预测模型
训练模型
评估模型
创建数据可视化
部署和监控
揭示洞察和发现
使用附加数据源迭代
工具
MPP无共享技术和架构
基于分布式文件的数据库
数据库内算法
大数据云解决方案
统计计算和图形语言
数据可视化工具集
方法
解析建模
大数据建模
实施指南
战略一致性
就绪评估/风险评估
组织和文化变迁
大数据与数据科学治理
可视化渠道管理
数据科学和可视化标准
数据安全
元数据
数据质量
度量指标
技术使用指标
加载和扫描指标
学习和故事场景