导图社区 DAMA-CDGA数据治理工程师-11.数据仓库和商务智能
数据仓库和商务智能赋能组织将不同来源的数据整合到公共的数据模型中,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能。
编辑于2024-03-05 20:28:30不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
社区模板帮助中心,点此进入>>
不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
11.数据仓库和商务智能
引言
数据仓库技术
赋能组织将不同来源的数据整合到公共的数据模型中,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能
还是减少企业建设大量决策支持系统的一种手段
提供了一种减少数据冗余、提高信息一致性、让企业能利用数据做出更优决策的方法
业务驱动因素
数据仓库建设的主要驱动是运营支持职能、合规需求和商务智能活动
商务智能能为组织、客户、产品提供洞察
通过商务智能能获得决策知识并采取行动的组织,能提升其运营效率,增强竞争优势
商务智能从回顾性评价发展到预测分析领域
目标
支持商务智能活动
赋能商业分析和高效决策
基于数据洞察寻找创新方法
原则
聚焦业务目标
确保数据仓库用于组织最优先级的业务并解决业务问题
以终为始
让业务优先级和最终交付的数据范围驱动数据仓库内容的创建
全局性思考、局部性行动
让最终的愿景指导体系架构,通过集中项目快速迭代构建增量交付,从而实现更直接的投资回报
总结并持续优化
以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不替换细节数据
提升透明度和自主服务
上下文信息越丰富,数据消费者越能从数据中获取更多数据价值
向利益相关方公开集成的数据及其流程信息
与数据仓库一起建立元数据
数据仓库的成功的关键是能够准确的解释数据
协同
与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动
不要千篇一律
为每种数据消费者提供正确的工具和产品
基本概念
商务智能
第一层含义
指的是一种理解组织诉求和寻找机会的数据分析活动
第二层含义
指的是支持这类数据分析活动的技术集合
数据仓库
两个重要组成部分
一个集成的决策支持数据库
与之相关的用于收集、清理、转换、存储来自各种操作和外部源数据的软件程序
数据集市是数据仓库中数据子集的副本
数据仓库包括为任何支持商务智能目标的实现提供数据的数据存储或操作提取
数据仓库建设
指的是数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程
数据仓库建设流程的重点,是通过强制业务规则、维护适当的业务数据关系,在运营的数据上实现一个集成的、历史的业务环境
传统的数据仓库建设
主要关注结构化数据
现代商务智能和数据仓库
包含半结构化数据和非结构化数据
非结构化数据
是指无法通过数据模型预定义的数据
形式多样
存在于电子邮件、自由格式文本、视频、网页、照片
数据仓库的建设方法
一种是Bill Inmon
Inmon把数据仓库定义为“面向主题的、整合的、随时间变化的、包含汇总的和明细的、相对稳定的历史数据集合,支持管理决策数据集合”
用规范化的关系模型来存储和管理数据
不受数据量影响
一种是Kimball
Kimball把数据仓库定义为“为查询和分析定制的交易数据的副本”
称为多维数据模型
不适用于数据量大,会导致数据跑不动
共同点
数据仓库存储的数据来自其他系统
存储行为包括以提升数据价值的方式整合数据
数据仓库便于被访问和分析
组织建设数据仓库,因为他们需要让授权的利益相关方访问可靠、集成的数据
数据仓库建设的目的有很多,涵盖工作流支持、运营管理和预测分析
侧重点
是BI,但是也可以做AI
企业信息工厂
数据仓库和业务系统的区别
面向主题
数据仓库是基于主要业务实体组织的,而不关注功能或应用
整合的
数据仓库中的数据是统一的、内聚的
保持相同的关键结构,结构的编码和解码、数据定义和命名规范在整个数据仓库中都是一致的
因为数据是整合的,数据仓库并不是简单的运营数据的副本
相反,数据仓库变成了一个数据记录的系统
随时间变化的
数据仓库存储的是某个时间段的数据
数据仓库中的数据像快照一样,每一张快照都反映了某个时间点的数据状态
这意味着基于某个时间段的数据查询总是得到相同的结果,无论什么时候去查询
稳定的
数据仓库中,数据记录不会像在业务系统里那样频繁更新
相反,新数据只会追加到老数据后面
一组记录可以代表同一个交易的不同状态
聚合数据和明细数据
数据仓库中的数据包括原子的交易明细,也包括汇总后的数据
业务系统很少聚合数据
数据仓库中,汇总数据可以是持久的保存在一个表里,也可以非持久的、以视图的形式展现
历史的
业务系统的重心是当前的数据
数据仓库还包括历史数据,通常要消耗很大的存储空间
CIF组成部分
应用程序
应用程序处理业务流程
应用程序产生的明细数据流转到数据仓库和操作型数据存储中,继而用作分析
数据缓存区
介于业务系统源数据库和目标数据仓库之间的一个数据库
暂存区是用于数据抽取、转换、加载的地方,对最终用户透明
暂存区中的大部分数据都是短时保存的,通常只有相对少的一部分数据是持久性数据
集成和转换
在集成层,来自不同数据源的数据被转换整合为数仓和ODS里的标准企业模型
操作型数据存储(ODS)
操作型数据存储是业务数据的集成数据库
数据可能来自应用系统,也可能来自其他数据库
操作型数据存储中通常包括当前的或者近期的(30~90天)数据,而数据仓库还包括历史(通常是很多年的)数据
操作型数据存储的数据变化快,而数据仓库的数据相对稳定
不是所有组织都会建设操作型数据存储,操作型数据存储的存在满足了企业对低延时数据的需求
操作型数据存储可以作为数据仓库的主要来源,还可以用于对数据仓库做审计
数据集市
数据集市为后续数据分析提供基础
这里说的数据通常是数据仓库的子集,用于支持特定分析或特定种类的消费者
操作型数据集市(OpDM)
操作型数据集市是专注于运营决策支持的数据集市
它直接从操作型数据存储而不是从数据仓库获取数据
具有与操作型数据存储相同特性
包含当前或近期的数据,这些数据是经常变化的
数据仓库
数据仓库为企业数据提供了一个统一的整合入口,以支持管理决策、战略分析和规划
数据从应用程序和操作型数据存储流入数据仓库,然后流到数据集市,这种流动通常是单向的
需要更正的(不符合要求的)数据将被拒绝进入
理想的情况是在其源头系统完成更正,然后通过ETL流程系统重新加载
运营报告
运营报告从数据存储中输出
参考数据、主数据和外部数据
数据仓库和数据集市中的数据与应用程序中的数据不同
数据的组织形式是按照主题域而不是按功能需要
数据是整合的数据,而不是孤立的烟囱数据
数据是随时间变化的系列数据,而非仅当前的值
数据在数据仓库中的延迟比在应用程序中高
数据仓库中提供的历史数据比应用程序中提供的历史数据多
多维数据仓库
它不是以关系模型的规范化要求组织的
多维模型通常称为星型模型,由事实表和维度表组成
事实表和许多维度表关联,整个图看上去就像星星一样
多个事实表将通过“总线”共享公共的维度或遵循一致性的维度,类似计算机中的总线
通过插入遵循维度的总线,可以将多个数据集市集成为企业级的数据集市
Kimball的数据库比Inmon的数据库的可扩展性更强
组件
业务源系统
数据存储区域
数据展示区域
数据访问工具
数据仓库架构组件
流程
从源系统流动到数据存储区,数据可以在这里被清洗,当数据集成并存储在数据仓库或操作数据存储中时,可以对其进行补充丰富
在数据仓库中,可以通过数据集市或数据立方体访问数据,生成各种各样的报表
大数据流程区别
虽然大多数仓库在将数据放入报表之前进行数据整合,但大数据解决方案会在整合数据之前先将数据加载进来
大数据的商务智能除了各种传统类型的报表外,还可能包括预测分析和数据挖掘
源系统
包括要流入数据仓库/商务智能环境的业务系统和外部数据
包括客户关系管理系统、财务系统、人力资源系统、外部的DaaS服务等
数据仓库必须有
数据集成
包括抽取、转换和加载、数据虚拟化以及将数据转换为通用格式的位置的其他技术
数据仓库必须有
数据存储区域
暂存区
暂存区是介于数据源和集中式数据存储库之间的中间数据存储区域
数据在这里短暂存留,以便可以对其进行转换、集成并准备加载到数仓
参考数据和主数据一致性维度
参考数据和主数据可以存储在单独的存储库中
数据仓库为主数据提供数据,这个单独的存储库为数据仓库提供同样维度数据
中央数据仓库
数据仓库必须有
完成转换和准备流程后,数据仓库中的数据通常会保留在中央或原子层中
这一层保留所有历史的原子数据以及批处理运行后的最新实例化数据
操作型数据存储ODS
能支持较低的延迟,因此可以支持业务应用
由于操作型数据存储包含一个时间窗口的数据而不是全部历史记录,因此可以比数据仓库有更快的刷新频率
数据集市
通常用于数据仓库环境的展示层,还用于呈现数据仓库部门级或功能级子集,以便对历史信息进行报表、查询和分析
数据集市面向特定主题域、单个部门或单个业务流程
它还可以是构成虚拟化数据仓库的基础,合并的数据集市构成了最终的数据仓库实体
数据立方体
存在三种经典的支持在线分析处理系统实现方法
基于关系型数据库的
基于多维数据库的
混合型数据库的
加载处理的方式
涉及两种主要的数据集成处理类型
历史数据
通常只需要加载一次,或者为了处理数据问题加载有限的几次,然后再也不会加载
持续不断地数据更新
需要始终如一的规划和执行,以保证数据仓库中包含最新的数据
历史数据
数据仓库的一个优势是它可以捕获所存储数据的详细历史记录
批量变更数据捕获
通常,数据仓库是通过每天晚上的批处理窗口进行一次数据加载服务
时间戳或日志表加载是最常见的技术方式
在处理没有原生时间戳功能的遗留系统或某些批量恢复条件时,会用到全量加载
准实时和实时数据加载
操作型商务智能(或运营分析)的出现推动了更低延迟的需求,将更多实时的或准实时的数据集成到数据仓库中,新的架构方法随之出现,用于处理易于变化的数据
批处理的替代方案解决数据仓库中对数据可用性延迟越来越短的要求,有涓流式加载、消息传送、流式传送三种主要的替代方案,它们在等待处理时的数据累积位置不同
涓流式传送(源端累积)
与夜间窗口批量加载不同,涓流式加载是以更频繁的节奏或者以阈值的方式进行加载
这种方式允许在白天就做一些批处理操作,而不必集中到晚上进行专门的批处理窗口
消息传送(总线累积)
当极小的数据报发布到消息总线时,实时或近实时的消息交互就非常有用
源系统和目标系统彼此独立
DaaS应用中经常使用
流式传送(目标端累积)
与在源端定时或按阈值加载不同,目标端系统用缓冲区或队列方式收集数据,并按顺序处理
活动
理解需求
定义和维护数据仓库/商务智能架构
确定数据仓库/商务智能技术架构
确定数据仓库/商务智能管理流程
开发数据仓库和数据集市
通常来说,数据仓库/商务智能建设项目有三条并存的构建轨迹
数据
支持业务分析必需的数据
这条轨迹涉及识别数据的最佳来源、设计如何修正、转换、集成、存储和提供给应用程序使用的数据规则
技术
支持数据存储和迁移的后端系统及流程
商务智能工具
数据消费者从已部署的数据产品中获得有意义的数据洞察所必需的应用套件
将源映射到目标
修正和转换数据
加载数据仓库
实施商务智能产品组合
根据需要给用户分组
将工具和用户要求相匹配
维护数据产品
概述
构建好的数据仓库和面向客户的商务智能工具是一个数据产品
对现有数据仓库平台的增强(扩展、补充或修改)应该逐步增强实现
在不断变化的工作环境中可维护增量的范围和执行重点工作项的关键路径可能是一个挑战
应与业务合作伙伴共同确定优先级,并将重点放在必须增强的工作上
发布管理
发布管理对整理的开发过程至关重要,增加新功能,增强生产部署,并确保为已部署的资产提供定期维护
这个过程将使数据仓库保持是最新的、清洁的,并以最佳状态运行
这是一项持续的改进工作
管理数据产品开发生命周期
每次迭代都将扩展现有增量,或加入业务团队提出的新功能
监控和调优加载过程
监控整个系统的加载处理,并了解性能瓶颈和性能的依赖路径
在需要的地方和时刻使用数据库调优技术,包括分区、备份调优和恢复策略调整
监控和调优商务智能活动和性能
透明性和可见性是推动数据仓库、商务智能监控的关键原则
越公开数据仓库、商务智能活动的详细信息,数据消费者越能看到和理解正在发生的事情,就越不需要对最终客户提供直接支持
工具
元数据存储库
数据字典和术语
数据字典是支撑数据仓库使用的必须组件
字典用业务术语来描述数据,包括使用该数据所需的其他信息
通常,数据字典的内容直接来自逻辑数据模型
数据和数据模型的血缘关系
记录的数据血缘关系有多种用途
调查数据问题的根本原因
对系统变更和数据问题进行影响分析
根据数据来源确定数据的可靠性
数据集成工具
数据集成工具用于加载数据仓库
在选择工具时,还需要考虑系统管理的如下功能
过程审计、控制、重启和调度
在执行时有选择的提取数据元素并就将其传递给下游系统进行审计的能力
控制哪些操作可以执行或不执行,并重新启动哪些失败或中止的进程
商务智能工具的类型
概述
运营报表
是商务智能工具的应用,分析短期(月度)和长期(年度)的业务趋势
运营报表还可以帮助发现趋势和模型,使用战术商务智能工具支持短期业务决策
业务绩效管理
包括对组织目标一致性的指标的正式评估,此评估通常发生在高管层面
描述性自助分析
为前台提供商务智能工具,其分析功能可指导运营决策
运营报表
运营报表指的是业务用户直接从交易系统、应用程序或数据仓库生成报表
这通常是一个应用程序的功能
通常,当报表只是简单的报表或用于启动工作流的时候,通常是即席查询
业务绩效管理
绩效管理是一套集成的组织流程和应用程序,旨在优化业务战略的执行
在这个领域形成了另一种专业化的管理方式:创建以仪表盘、仪表盘形式展现的记分卡,便于让用户在管理和执行之间保持一致的信息互动
运营分析应用
概述
在线分析处理OLAP是一种为多维分析查询提供快速性能的方法
OLAP这一术语在某种程度上源于对OLTP在线交易处理的明显区别
常见的OLAP操作包括
切片
切片是多维数组的子集,对应不在子集中的维度的一个或多个成员的单个值
切块
切块是数据立方体上两个以上维度的切片,或者是两个以上的连续切片
向上/向下钻取
是一种特定的分析技术,用户可以在不同数据级别间导航
范围从最概况(向上)到最详细(向下)
向上卷积
卷积涉及计算一个或多个维度的所有数据关系
透视
透视图会更改报表或页面的展示维度
OLAP实现方法
关系型联机分析处理(ROLAP)
ROLAP通过在关系数据库RDBMS的二维表中使用多维技术来支持OLAP
星型架构是ROLAP环境中常用的数据库设计技术
多维矩阵型联机分析处理(MOLAP)
MOLAP通过使用专门的多维数据库技术支持OLAP
混合型联机分析处理(HOLAP)
是ROLAP和MOLAP的结合
HOLAP实现允许部分数据以MOLAP形式存储,而一部分数据存储在ROLAP中
方法
驱动需求的原型
对数据进行剖析将有助于原型设计,并降低与非预期数据相关的风险
自助式商务智能
自助服务式商务智能产品的基本交付方式
它通常会将用户活动放在受管门户中,根据用户的权限提供各种功能
包括消息传递、报警、查看预定的生产报表、仪表盘、计分卡等
报表可以按照标准计划推送到门户,供用户在空闲时检索
用户还可以通过在门户中执行报表来提取数据,这些门户跨组织边界共享内容
可查询的审计数据
为了维护数据血缘关系,所有的结构和流程都应该能够创建和存储审计信息,并能进行细粒度的跟踪和报告
实施指南
就绪评估/风险评估
数据仓库应该能够实现以下几点
明确数据敏感性和安全性约束
选择工具
保障资源安全
创建抽取过程以评估和接收源数据
版本路线图
配置管理
组织和文化变革
数据仓库/商务智能治理
业务接受度
预先需要考虑一些非常重要的架构子组件及其支持活动
概念数据模型
数据质量反馈循环
端到端的元数据
端到端可验证数据血缘
客户/用户满意度
服务水平协议
报表策略
报表策略包括标准、流程、指南、最佳实践和程序,它将确保用户获得清晰、准确和及时的信息
报表策略应解决以下问题
安全访问
确保只有获得授权的用户才能访问敏感数据
描述用户交互、报告、检查或查看其他数据的访问机制
用户社区类型和使用它的适当工具
报表摘要、详细信息、例外情况以及频率、时间、分布和存储式的本质
通过图形化输出发挥可视化功能的潜力
及时性和性能之间的权衡
卓越中心
卓越中心可以提供培训、启动设置、设计最佳实践、数据源提示和技巧,以及其他的解决方案或功能,以帮助企业用户实现自助服务模式
除知识管理外,该中心还可以为开发人员、设计人员、分析师和订阅用户组织提供及时的交流
度量指标
使用指标
数据仓库中使用的度量指标包括注册用户数、连接用户数或并发用户数
这些度量指标表示组织中有多少人正在使用数据仓库
主题域覆盖率
主题域覆盖百分比衡量每个部门访问仓库的程度,还强调哪些数据是跨部门共享的,哪些还不是但也可能是共享的
响应时间和性能指标
大多数查询工具会测量响应时间
通过工具检索响应或性能指标