导图社区 DMBOK数据管理知识体系-第二版13-17章
数据管理知识体系,DMBOK第二版13-17章,数据质量、大数据和数据科学、数据管理成熟度评估、数据管理组织与角色期望、数据管理与组织变革
编辑于2023-07-17 13:57:33 北京市社区模板帮助中心,点此进入>>
DMBOK第二版 13-17章
第13章 数据质量
13.1 引言
定义:为确保满足数据消费者的需求,应用数据管理技术进行规划,实施和控制等管理活动。
导致低质量数据产生的因素:
组织缺乏对低质量数据影响的理解等、缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。
13.1.1 业务驱动因素
建议正式数据质量管理的业务驱动因素包括:
1)提高组织数据价值和数据利用的机会
2)降低低质量数据导致的风险和成本
3)提高组织效率和生产力
4)保护和提高组织的声誉
许多直接成本均与低质量数据有关:
1)无法正确开具发票
2)增加客服电话质量,降低解决问题的能力
3)因错失商业机会造成收入损失
4)影响并购后的整合进展
5)增加受欺诈的风险
6)由错误数据驱动的错误业务决策造成损失
7)因缺乏良好信誉而导致业务损失
13.1.2 目标和原则
目标:
1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求
2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
3)定义和实施测量、监控和报告数据质量水平的过程
4)通过过程和系统改进,识别和提倡提高数据质量的机会
原则:
1)重要性
改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定
2)全生命周期管理
数据质量管理应覆盖从创建或采购直至处置的数据全生命周期,包括其系统内部和系统之间流转时的数据管理。
3)预防
预防数据错误和降低数据可用性
4)根因修正
对流程和支持它们的系统进行更改
5)治理
必须支持高质量数据的开发
6)标准驱动
所有利益相关方都会有数据质量要求
7)客观测量和透明度
8)嵌入业务流程
流程中实施数据质量标准
9)系统强制执行
强制执行数据质量要求
10)与服务水平关联
纳入管理水平协议(SLA)
13.1.3 基本概念
1、数据质量
既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。挑战之一是,与质量相关的期望并不总是已知的。
2、关键数据
根据以下要求评估关键数据:
1)监管报告
2)财务报告
3)商业政策
4)持续经营
5)商业战略
3、数据质量维度
是数据的某个可测量的特性。
数据质量维度提供了可定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质量和持续改进的成效。为了衡量数据质量,组织需要针对重要业务流程和可以测量的参数建立特征。
Strong-Wang 数据质量的四个大类和15个指标
(1)内在数据质量
1)准确性
2)客观性
3)可信度
4)信誉度
(2)场景数据质量
1)增值性
2)关联性
3)及时性
4)完整性
5)适量性
(3)表达数据质量
1)可解释性
2)易理解性
3)表达一致性
4)简洁性
(4)访问数据质量
1)可访问性
2)访问安全性
Thomas《信息时代的数据质量》
(1)数据模型
1)内容
①数据关联性
②获取价值的能力
③定义清晰性
2)详细程度
①特征描述颗粒度
(2)属性域的精准度
1)构成
①自然性
②可识别性
③同一性
④最小必要冗余性
2)一致性
①模型各组成部分的语义一致性
②跨实体类型属性的结构一致性
3)应变性
①健壮性
②灵活性
4)数据值
①准确性
②完备性
③时效性
④一致性
5)数据表达
①适当性
②可解释性
③可移植性
④格式精确性
⑤格式灵活性
⑥表达空值的能力
⑦有效利用存储
⑧数据的物理实例与其格式一致
Larry English 《改善数据仓库和业务信息质量》
(1)固有质量特征
1)定义的一致性
2)值域的完备性
3)有效性或业务规则一致性
4)数据源的准确性
5)反映现实的准确性
6)精确性
7)非冗余性
8)冗余或分布数据的等效性
9)冗余或分布数据的并发性
(2)实用质量特征
1)可访问性
2)及时性
3)语境清晰性
4)可用性
5)多源数据的可整合性
6)适当性或事实完整性
DAMA UK白皮书 数据质量的6个核心维度:
1)完备性
存储数据量与潜在数据量的百分比
2)唯一性
在满足对象识别的基础上不应多次记录实体实例(事物)
3)及时性
数据从要求的时间点起代表现实的程度
4)有效性
如数据符合其定义的语法(格式、类型、范围),则数据有效
5)准确性
数据正确描述所描述的“真实世界”对象或事件的程度
6)一致性
比较事物多种描述与定义的差异
DAMA UK白皮书的其他特征
1)可用性
数据是否可理解、简单、相关、可访问、可维护,且达到正确的精度水平
2)时间问题
是否稳定,是否对合法的变更请求作出及时响应
3)灵活性
是否具有可比性,是否与其他数据有很好的兼容性?是否具备可用的分组和分类?是否能被重用?是否易于操作?
4)置信度
数据治理、数据保护和数据安全等管控是否到位?数据的可信性如何
5)价值
数据是否有良好的成本/收益实例?是否得到了最佳应用?是否危及人们的安全、隐私或企业的法律责任
一组普遍的数据质量维度定义:
准确性
数据正确表示真实实体的程度
完备性
是指是否存在所有必要的数据
完备性可以在数据集、记录或列级进行测量
一致性
可以指确保数据值在数据集内和数据集之间表达的相符程度。它也可以表示系统之间或不同时间的数据集大小和组成的一致程度。
完整性
包括与完备性、准确性和一致性相关的想法。在数据中,完整性通常指的是引用完整性或数据集内部的一致性
合理性
合理性是指数据模式符合预期的程度。
及时性
及时性的概念与数据的几个特性有关
唯一性/数据去重
唯一性是指数据集内的任何实体不会重复出现
有效性
是指数据值与定义的值域一致。
4、数据质量和元数据
5、数据质量ISO标准
ISO将质量数据定义为:“符合规定要求的可移植数据”
ISO 8000定义了数据供应链中任何组织都可以测试的一些特性,从而可以客观地确定数据与ISO8000之间是否具有一致性
6、数据质量改进生命周期
计划Plan执行Do检查Check行动Act
7、数据质量业务规则
1)定义一致性
2)数值存在和记录完备性
3)格式符合性
4)值域匹配性
5)范围一致性
6)映射一致性
7)一致性规则
指根据这些属性的实际值,在两个或多个属性之间关系的条件判定。
8)准确性验证
将数据值与记录系统或其他验证来源中的相应值进行比较
9)唯一性验证
10)及时性验证
表明与数据可访问性和可用性预期相关特征的规则
聚合检查的示例包括:
1)验证文件中记录数量的合理性
2)验证从一组交易中计算出的平均金额的合理性
3)验证指定时间段内交易数量的预期差异
8、数据质量问题的常见原因
(1)缺乏领导力导致的问题
有效管理数据质量的障碍包括:
1)领导和员工缺乏意识
2)缺乏治理
3)缺乏领导力和管理能力
4)难以证明改进的合理性
5)测量价值的工具不合适或不起作用
(2)数据输入过程中引起的问题
1)数据输入接口问题
2)列表条目放置
3)字段重载
4)培训问题
5)业务流程的变更
6)业务流程执行混乱
(3)数据处理功能引起的问题
1)有关数据源的错误假设
2)过时的业务规则
3)变更的数据结构
(4)系统设计引起的问题
1)未能执行参照完整性。
参照完整性对于确保应用程序或系统级别的高质量数据是必要的。如果没有强制执行参照完整性,或者关闭了验证,则有可能出现各种数据质量问题:
①产生破坏唯一性约束的重复数据
②既可以包含,又可以排除在某些报表中的孤儿数据,导致同样的计算生成多个值
③由于参照完整性要求已还原或更改,无法升级
④由于丢失的数据被分配为默认值而导致数据准确性
2)未执行唯一性约束
表或文件中的多个实例副本预期包含唯一实例
3)编码不准确和分歧
数据映射或格式不正确,或处理数据的规则不准确,处理过的数据就会出现质量问题
4)数据模型不准确
如果数据模型内的假设没有实际数据的支持,则会出现数据质量问题,包括实际数据超出字段长度导致数据丢失、分配不正确ID或键值等
5)字段重载
随着时间的推移,为了其他目的重用字段,而不是更改数据模型或代码,可能会导致混淆的值集、不明确的含义。
6)时间数据不匹配
采用不同的日期格式
7)主数据管理薄弱
不成熟的主数据管理可能为数据选择不可靠的数据源
8)数据复制
①单源-多个本地实例
②多源-单一本地实例
(5)解决问题引起的问题
9、数据剖析
是一种用于检查数据和评估质量的数据分析形式。使用统计技术来发现数据集合的真实结构、内容和质量。剖析引擎生成统计信息,可以识别数据内容和结构中的模式:
1)空值数
2)最大/最小值
3)最大/最小长度
4)单个列值的频率分布
5)数据类型和格式
还包括跨列分析,识别不符合格式要求的水平,以及意外格式识别
10、数据质量和数据处理
(1)数据清理
1)实施控制以防止数据输入错误
2)纠正源系统中的数据
3)改进数据录入的业务流程
(2)数据增强
是给数据集添加属性以提高其质量和可用性的过程。通过集成组织内部的数据集可以获得,也可以通过购买外部数据
1)时间戳
2)审计数据
3)参考词汇表
4)语境信息
5)地理信息
6)人口统计信息
7)心理信息
如偏好、成员资格、休闲活动、交通方式
8)评估信息
针对资产评估、库存和销售数据
(3)数据解析和格式化
数据解析时使用预先确定的规则来解释其内容或值的分析过程
(4)数据转换和标准化
数据转换建立在标准化技术的基础之上。通过将原始格式和模式中的数据值映射到目标表述形式来指导基于规则的转换。
标准化是分析人员经过反复分析语境、语言学,以及公认的最常见的惯用语等,为获取规则而进行的一种特殊的格式转换。
13.2 活动
13.2.1 定义高质量数据
从不同角度探讨这个问题:
1)了解业务战略和目标
2)与利益相关方面谈,以识别痛点、风险和业务驱动因素
3)通过资料收集和其他剖析形式直接评估数据
4)记录业务流程中的数据依赖关系
5)记录业务流程的技术架构和系统支持
13.2.2 定义数据质量战略
1)了解并优先考虑业务需求
2)确定满足业务需求的关键数据
3)根据业务需求定义业务规则和数据质量标准
4)根据预期评估数据
5)分享调查结果,并从利益相关方哪里获得反馈
6)优先处理和管理问题
7)确定并优先考虑改进机会
8)测量、监控和报告数据质量
9)管理通过数据质量流程生成的元数据
10)将数据质量控制集成到业务和技术流程中
13.2.3 识别关键数据和业务规则
识别能描述或暗示有关数据质量特征要求的业务规则。
完整性规则反映了字段是强制的还是可选的。
13.2.4 执行初始数据质量评估
POC的步骤包括:
1)定义评估的目标
2)确定要评估的数据,
3)识别数据的用途和数据的使用者
4)利用待评估的数据识别已知风险,包括数据问题对组织的潜在影响。
5)根据已知和建议的规则检查数据
6)记录不一致的级别和问题类型
7)根据初步发现进行额外的深入分析,以便:
①量化结果
②根据业务影响优化问题
③提出关于数据问题根本原因的假设
8)与数据管理专员、领域专家和数据消费者会面,确认问题和优先级
9)使用调查结果作为规划的基础
①解决问题,找到根本原因
②控制和改进处理流程,以防止问题重复发生
③持续控制和汇报
13.2.5 识别改进方向并确定优先排序
数据剖析和分析的步骤:
定义目标、了解数据使用和风险,根据规则衡量,记录并与领域专家确认结果,利用这些信息确定补救和改进工作的优先级。
剖析是分析数据质量的第一步。
13.2.6 定义数据质量改进目标
确定改进 的投资回报率:
1)受影响数据的关键性
2)受影响的数据量
3)数据的龄期
4)受问题影响的业务流程数量和类型
5)受问题影响的消费者、客户、供应商或员工数量
6)与问题相关的风险
7)纠正根本原因的成本
8)潜在的工作成本
13.2.7 开发和部署数据质量操作
1、管理数据质量规则
预先定义规则将:
1)对数据质量特征设定明确的期望
2)提供防止引入数据问题的系统编辑和控制要求
3)向供应商和其他外部方提供数据质量要求
4)为正在进行的数据质量测量和报告创建基础
规则应该是:
1)记录的一致性
2)根据数据质量维度定义
3)与业务影响挂钩
4)数据分析支持
5)由领域专家确认
6)所有数据消费者都可以访问
2、测量和监控数据质量
进行业务数据质量的原因:
1)向数据消费者通报质量水平
2)管理业务或技术流程,改变引入的变更风险
ValidDQI(r)=TestExecution(r)-ExceptionsFound(r)/TestExecution(r)
I nvalidDQI(r)=ExceptionFound(r)/TestExecutions(r)
r为正在测试的规则
3、制定管理数据问题的操作过程
(1)诊断问题
1)在适当的信息处理流程下查看数据问题,并隔离出现缺陷过程的位置
2)评估是否存在任何可能导致错误的环境变化
3)评估是否有其他过程问题导致了数据质量事件
4)确定外部数据是否存在影响数据质量的问题
(2)制定补救方案
1)纠正非技术性根本原因,如缺乏培训、缺乏领导支持、责任和所有权不明确等
2)修改系统以消除技术类的根本原因
3)制定控制措施以防止问题发生
4)引入额外的检查和监测
5)直接修正有缺陷的数据
6)基于变更的成本和影响对比更正后的数据的价值分析,不采取任何操作
(3)解决问题
1)评估替代方案的相对成本和优点
2)推荐计划中的一个备选方案
3)提供开发和实施该解决方案的计划
4)实施该解决方案
事件跟踪系统将收集与解决问题、分配工作、问题数量、发生频率,以及做出响应、给出诊断、计划解决方案和解决问题所需时间相关的性能数据。这些指标可以为当前工作流的有效性、系统和资源利用率提供有价值的洞察,它们是重要的管理数据点。
进行有效的跟踪需要做到以下几点:
1)标准化数据质量问题和活动
2)提供数据问题的分配过程
3)管理问题升级过程
4)管理数据质量解决方案工作流
4、制定数据质量服务水平协议
规定了组织对每个系统中数据质量问题进行响应和补救的期望。
数据质量SLA中定义的数据质量控制操作包括:
1)协议涵盖的数据元素
2)与数据缺陷相关的业务影响
3)与每个数据元素相关的数据质量指标
4)从每个已确定指标的数据元素出发,识别数据价值链上每个应用程序系统中的质量期望
5)测量这些期望的方法
6)每次测量的可接受性阈值
7)如果不满足可接受性阈值,应通知数据管理专员
8)预期解决或补救问题的时间和截止日期
9)升级策略,以及可能的奖励和惩罚
13.3 工具
13.3.1 数据剖析工具
13.3.2 数据查询工具
13.3.3 建模和ETL工具
13.3.4 数据质量规则模板
13.3.5 元数据存储库
13.4 方法
13.4.1 预防措施
预防方法包括:
1)建立数据输入控制
创建数据输入规则,防止无效或不准确的数据进入系统
2)培训数据生产者
确保上游系统的员工了解其数据对下游用户的影响,对数据的准确性和完整性进行激励或基础评估,让其不仅仅追求录入速度
3)定义和执行规则
4)要求数据供应商提供高质量数据
检查外部供应商的流程,以检查其结构、定义、数据源和数据出处
5)实施数据治理和管理制度
确保定义并执行以下内容的角色和责任:参与规则、决策权和有效管理数据和信息资产的责任。
6)制定正式的变更控制
确保在实施之前对存储数据的所有变更进行定义和测试
13.4.2 纠正措施
1)自动修正
自动更正技术包括基于规则的标准化、规范化和更正。修改后的值是在没有人工干预的情况下获取或生成和提交的。
2)人工检查修正
使用自动工具矫正和纠正数据,并在纠正提交到持久存储之前进行人工检查。
3)人工修正
在缺乏工具、自动化程度不足或者确定人工监督能更好地处理变更的情况下,人工更正是唯一的选择。
13.4.3 质量检查和审核代码模块
创建可共享、可连接、可重用的代码模块,开发人员可以从存储库中拿到它们,重复执行数据质量检查和审计过程
13.4.4 有效的数据质量指标
1)可度量性
数据质量指标可被量化
2)业务相关性
3)可接受性
4)问责/管理制度
关键利益相关方
5)可控制性
应触发行动来改进数据
6)趋势分析
一段时间内测量数据质量改进的情况
13.4.5 统计过程控制
SPC是一种通过分析过程输入、输出或步骤的变化测量值来管理过程的方法。SPC基于假设:当一个具有一致输入的过程被一致执行时,它将产生一致的输出。它使用集中趋势(变量的值接近其中心值的趋势,如平均值、中值或模式)和围绕中心值可变性(如范围、方差、标准偏差)的度量来确定过程中的偏差公差。
主要工具是控制图,是一个时间序列图,包括平均值的中心线,以及描述测算的上下控制界限。
SPC通过识别过程中的变化来衡量过程结果的可预测性。
第一步是对过程进行度量,以识别和消除特殊原因
第二步是尽可能早地发现异常变化,因为早期发现问题简化了对问题根源的调查过程
13.4.6 根本原因分析
是一个理解导致问题发生的因素及其作用原理的过程。目的是识别潜在的条件,这些条件一旦消除,问题也将消失。
13.5 实施指南
数据质量项目的实施计划:
1)有关数据价值和低质量数据成本的指标
2)IT/业务交互的操作模型
3)项目执行方式的变化
4)对业务流程的更改
5)为补救和改进项目提供资金
6)为数据质量运营提供资金
13.5.1 就绪评估/风险评估
1)管理层承诺将数据作为战略资产进行管理
2)组织对数据质量的当前理解
3)数据的实际情况
4)与数据创建、处理或使用相关的风险
5)可扩展数据质量监控的文化和技术就绪。
13.5.2 组织与文化变革
首先是提高数据对组织作用和重要性的认识。
培训应着重于:
1)导致数据问题的常见原因
2)组织数据生态系统中的关系以及为什么提高数据质量需要全局方法
3)糟糕数据造成的后果
4)持续改进的必要性
5)要“数据语言化”,阐述数据对组织战略与成功、监管报告和客户满意度的影响。
13.6 数据质量和数据治理
数据质量团队的利益相关方合作:
1)风险与安全人员可以帮助识别与数据相关的组织弱点
2)业务流程工程和培训人员,可以帮助团队实施流程改进
3)业务和运营数据专员以及数据所有者,他们可以识别关键数据、定义标准和质量期望,并优先处理数据问题
治理组织可以通过以下方式加快数据质量方案的工作:
1)设定优先级
2)确定和协调有权参与各种数据质量相关决定和相关活动的人
3)制定和维护数据质量标准
4)报告企业范围内数据质量的相关测量
5)提供有助于员工参与的指导
6)建立知识共享的沟通机制
7)制定和应用数据质量和合规政策
8)监控和报告绩效
9)共享数据质量检查结果,以提高认识,确定改进机会,并就改进达成共识
10)解决变化和冲突,提供方向性指导
13.6.1 数据质量制度
1)制度的目的、范围和适用性
2)术语定义
3)数据质量团队的职责
4)其他利益相关方的责任
5)报告
6)策略的实施,包括与之相关的风险、预防措施、合规性、数据保护和数据安全性等
13.6.2 度量指标
1)投资回报
2)质量水平
测量一个数据集内或多个数据集之间的错误或不满足甚至违反需求情况的数量和比率
3)数据质量趋势
随着时间的推移,针对阈值和目标的质量改进,或各阶段的质量事件
4)数据问题管理指标
①按数据质量指标对问题分类与计数
②各业务职能部门及其问题的状态
③按优先级和严重程度对问题排序
④解决问题的时间
5)服务水平的一致性
包括负责人员在内的组织单位对数据质量评估项目干预过程的一致性。
6)数据质量计划示意图
现状和扩展路线图
第14章 大数据和数据科学
14.1 引言
14.1.1 业务驱动
期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。
14.1.2 原则
组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。
14.1.3 基本理念
1、数据科学
数据科学将数据挖掘、统计分析和机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。
数据科学依赖于:
1)丰富的数据源
具有能够展示隐藏在组织或客户行为中不可见模式的潜力
2)信息组织和分析
用来领会数据内容,结合数据集针对有意义模式进行假设和测试的技术
3)信息交付
4)展示发现和数据洞察
分析和揭示结果,分享洞察观点
2、数据科学的过程
1)定义大数据战略和业务需求
每一步输出是下一步输入。可衡量的需求
2)选择数据源
3)采集和提取数据资料
4)设定数据假设和方法
5)集成和调整数据进行分析
模型的可行性部署取决于源数据的质量。
6)使用模型探索数据
对集成的数据应用统计分析和机器学习算法进行验证、训练,并随着时间的推移演化模型。
7)部署和监控
可以将产生有用信息的那些模型部署到生产环境中,以持续监控它们的价值和有效性。
3、大数据
1)数据量大(Volume)
2)数据更新快(Velocity)
3)数据类型多样/可变(Variety、Variability)
4)数据黏度大(Viscosity)
数据使用或集成的难度比较高
5)数据波动性大(Volatility)
数据更改的频率,以及由此导致的数据有效时间短
6)数据准确性低(Veracity)
数据的可靠程度不高
4、大数据架构组件
5、大数据来源
6、数据湖
1)数据科学家可以挖掘和分析数据的环境
2)原始数据的集中存储区域,只需很少量的转换
3)数据仓库明细历史数据的备用存储区域
4)信息记录的在线归档
5)可以通过自动化的模型识别提取流数据的环境
7、基于服务的架构
基于服务的体系架构(Services-Based Architecture ,SBA)正在成为一种立即提供数据的方法,并使用相同的数据源来更新完整、准确的历史数据集。
1)批处理层
数据湖作为批处理层提供服务,包括近期的历史和数据
2)加速层
只包括实时数据
3)服务层
提供连接批处理和加速层数据的接口
8、机器学习
探索了学习算法的构建和研究,它可以被视为无监督学习和监督学习方法的结合。
无监督学习通常被称为数据挖掘,而监督学习是基于复杂的数学理论,特别是统计学、组合学和运筹学
机器学习三种类型
1)监督学习
基于通用规则(如将SPAM邮件与非SPAM邮件分开)
2)无监督学习
基于找到的那些隐藏的规律(数据挖掘)
3)强化学习
基于目标的实现(如在国际象棋中击败对手)
9、语义分析
使用自然语言NLP分析短语或句子、语义察觉情绪,并揭示情绪的变化,以预测可能的情景
10、数据和文本挖掘
数据挖掘是一种特殊的分析方法,它使用各种算法揭示数据中的规律。
1)剖析
剖析尝试描述个人、群体或人群的典型行为,用于建立异常检测应用程序的行为规范,如欺诈检测和计算机系统入侵监控。剖析结果事许多无监督学习组件的输入。
2)数据缩减
数据缩减是采用较小的数据集来替换大数据集,较小数据集中包含了较大数据集中的大部分重要信息。
3)关联
关联是一种无监督的学习过程,根据交易涉及的元素进行研究,找到它们之间的关联。
4)聚类
基于数据元素的共享特征,将它们聚合为不同的簇。
5)自组织映射
是聚类分析的神经网络方法,有时被称为Kohonen网络或拓扑有序网络,旨在减少评估空间中的维度,同时尽可能地保留距离和邻近关系,类似于多维度缩放
降维就像从等式中移除一个变量而不影响结果,使得这些问题变得更容易被解决,数据更容易被展示出来,
11、预测分析
预测分析是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。
最简单形式是预估。有许多基于回归分析做预估并从平滑算法中受益的技术,平滑数据的最简单方法是通过移动平均值,甚至是加权平均值。
12、规范分析
规范分析比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。
13、非结构化数据分析
结合了文本挖掘、关联分析、聚类分析和其他无监督学习技术来处理大型数据集。监督学习技术也可用于在编程过程中提供方向、监督和指导,利用人为干预在必要时解决歧义问题。
14、运营分析
运营分析也称为运营BI或流式分析,其概念是从运营过程与实时分析的整合中产生的。包括用户细分、情绪分析、地理编码以及应用于数据集的其他技术,用于营销活动分析、销售突破、产品推广、资产优化和风险管理
15、数据可视化
可视化是通过使用图片或图形表示来解释概念、想法和事实的过程。数据可视化通过视觉概览来帮助理解基础数据。
16、数据混搭
DataMashups 将数据和服务结合在一起,以可视化的方式展示见解或分析结果。许多虚拟化工具通过一些功能实现混搭,通过公共数据元素关联数据源,这些元素最初用于将名称或描述性文本关联到存储的代码。
14.2 活动
14.2.1 定义大数据战略和业务需求
大数据战略必须包括以下评估标准:
1)组织视图解决什么问题,需要分析什么
2)要使用或获取的数据源是什么
3)提供数据的及时性和范围
4)对其他数据结构的影响以及与其他数据结构的相关性
5)对现有建模数据的影响。包括扩展对客户、产品和营销方法的知识。
14.2.2 选择数据源
了解以下基本事实:
1)数据源头
2)数据格式
3)数据元素代表什么
4)如何连接其他数据
5)数据的更新频率
管理数据源
1)基础数据
2)粒度
3)一致性
4)可靠性
5)检查/分析新数据源
14.2.3 获得和接收数据源
迭代地识别当前数据资产基础和这些数据源的差距,使用分析、可视化、挖掘或其他数据科学方法探索这些数据源,以定义模型算法输入或模型假设。
14.2.4 制定数据假设和方法
数据科学能够发现数据的意义和其中蕴含见解的答案集。制订数据科学方案需要构建统计模型,找出数据元素和数据集内部以及二者之间的相关性和趋势。
模型的效果取决于输入数据的质量和模型本身的及安全性。
14.2.5 集成和调整数据进行分析
准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用。
一种方法是使用共有键整合数据的通用模型;另一种方法是使用数据库引擎内的索引扫描和连接数据,以获得相似性和记录连接的算法和方法。
14.2.6 使用模型探索数据
1、填充预测
使用历史信息预先填充配置预测模型,这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素。
2、训练模型
需要通过数据模型进行训练。训练包括基于数据重复运行模型以验证假设,将导致模型更改。训练需要平衡,通过针对有限数据文件夹的训练避免过度拟合。
转换到生产之前,必须完成模型验证。通过训练和验证的模型偏移量来解决任何填充失衡或数据偏差问题。
3、评估模型
将数据放入平台并准备分析后,数据科学就开始。
需要用到数据科学实践中的一个道德组件
4、创建数据可视化
设定可视化的目的和参数:
时间点状态、趋势与异常、移动部分之间的关系、地理差异及其他
14.2.7 部署和监控
1、揭示洞察和发现
通过数据可视化来展示和发现和数据洞察是数据科学研究的最后一步,洞察应与行动项目相关联,这样组织才能从数据科学工作中受益。
2、使用附加数据源迭代
从特定的一组数据源中学习的过程,通常会导致需要不同的或额外的数据源,以支持得到的结论并向现有模型中添加洞察。
14.3 工具
其他改变查看数据和信息方式的技术:
1)数据库内的高级分析
2)非结构化数据分析(Hadoop,MapReduce)
3)分析结果与操作系统的集成
4)跨多媒体和设备的数据可视化
5)链接结构化和非结构化信息的语义
6)使用物联网的新数据源
7)高级可视化能力
8)数据扩展能力
9)技术和工具集的协作
14.3.1 MPP无共享技术和架构
大规模并行处理(MPP)的无共享数据库技术,已成为面向数据科学的大数据集分析标准平台。
在MPP数据库中,数据在多个处理服务器之间进行分区,每个服务器都有自己的专用内存来处理本地数据。处理服务器之间的通信通常由管理节点控制,并通过网络互联进行。因为该架构没有磁盘共享,也不发生内存争用,因此称作“无共享”。
该技术还支持数据库内分析功能——在处理器级执行分析功能(如K-Means,回归分析的的能力)。
14.3.2 基于分布式文件的数据库
基于文件的解决方案中使用的模型称为MapReduce。该模型有三个主要步骤:
1)映射(Map)
识别和获取需要分析的数据
2)洗牌(Shuffle)
依据所需的分析模式组合数据
3)归并(Reduce)
删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。
14.3.3 数据库内算法
数据库内算法(In-database algorithm)使用类似MPP的原则,MPP无共享架构中的每个处理器可以独立运行查询,因此可在计算节点级别实现新形势的分析处理。
14.3.4 大数据云解决方案
14.3.5 统计计算和图形语言
R语言是用于统计计算和图形的开源脚本语言环境。它提供了各种各样的统计技术,如线性和非线性建模、经典统计检验、时间序列分析、分类和聚类。
14.3.6 数据可视化工具集
这些工具的优势:
1)复杂的分析和可视化类型
2)内置可视化最佳实践
3)交互性,实现视觉发现
14.4 方法
14.4.1 解析建模
要通过其他应用程序共享和执行模型,需查找支持预测模型标记语言(PMML)的工具,这是一种基于XML的文件格式。
利用API接口直接进入存储层HDFS,可以提供各种数据访问技术,如SQL、内容流、机器学习和用于数据可视化的图形库,
解析模型与不同的分析深度相关联:
1)描述性建模以紧凑的方式汇总或表示数据结构。这种方法并不总能验证因果假设或预测结果,但确实能够使用算法定义或改善变量之间的关系,从而为这种分析提供输入。
2)解释性建模是数据统计模型的应用,主要是验证关于理论构造的因果假设。虽然它使用类似于数据挖掘和预测分析的技术,但其目的不同。它不能预测结果,只是将模型结果与现有数据相匹配。
预测分析的关键是通过训练模型来学习,学习方法的效果取决于它在测试集上的预测能力。
避免过度拟合——这种情况发生在用于训练模型的数据集不具有代表性,模型过于复杂,或者将少量噪声数据具有的特性当做大部分数据的共性时。
训练误差会随着模型复杂性的提高而持续降低,并且可以降至零。数据集随机分成三个部分:训练集、测试集和校验集。训练集用于拟合模型,测试集用于评估最终模型的泛化误差,校验集用于预测选择的误差。
14.4.2 大数据建模
大数据建模是一项技术挑战,对想要描述和管控数据的组织而言至关重要。
对数据仓库进行物理建模的主要驱动因素是为查询性能而启用数据填充。
14.5 实施指南
管理大数据:确保数据源可靠、具有足够的元数据以支持数据使用、管理数据质量、确定如何整合来自不同源的数据,以及确保数据安全且受到保护。实施大数据环境的差异与一组未知问题有关:如何使用数据、哪些数据有价值、需要保留多长时间。
14.5.1 战略一致性
战略交付成果应考虑管理以下要素:
1)信息生命周期
2)元数据
3)数据质量
4)数据采集
5)数据访问和安全性
6)数据治理
7)数据隐私
8)学习和采用
9)运营
14.5.2 就绪评估/风险评估
1)业务相关性
2)业务准备情况
3)经济可行性
4)原型
5)可能最具挑战性和决策将围绕数据采购、平台开发和资源配置进行。
6)数字资料存储有许多来源,并非所有来源都需要内部拥有和运营。
7)市场上有多种工具和技术,满足一般需求僵尸一个挑战
8)及时保护具有专业技能的员工,并在实施过程中留住顶尖人才,可能需要考虑替代方案,包括专业服务、云采购或合作。
9)培养内部人才的时间可能会超过交付窗口的时间
14.5.3 组织与文化变迁
跨职能角色:
1)大数据平台架构师
硬件、操作系统、文件系统和服务
2)数据摄取架构师
数据分析、系统记录、数据建模和数据映射,提供或支持将源映射到Hadoop集群以进行查询和分析
3)元数据专家
元数据接口、元数据架构和内容
4)分析设计主管
最终用户分析设计、最佳实践依靠相关工具集指导实施,以及最终用户结果集简化
5)数据科学家
提供基于统计和可计算性的理论知识,交付适当的工具和技术,应用到功能需求的架构和模型设计咨询。
14.6 大数据和数据科学治理
大数据需要业务和技术控制,解决以下问题:
1)寻源
来源有哪些,什么时候接入源,什么是特定研究的最佳数据来源
2)共享
组织内部和外部要签订的数据共享协议和合同、条款和条件
3)元数据
数据在源端意味着什么,如何解释输出端的结果
4)丰富
是否丰富数据,如何丰富数据,以及丰富数据的好处
5)访问
发布什么,向谁发布,如何以及何时发布
14.6.1 可视化渠道管理
14.6.2 数据科学和可视化标准
标准包括:
1)分析范例、用户团体、主题域的工具标准
2)新数据的请求
3)数据集流程标准
4)采用中立的、专业的陈述过程,避免产生有偏见的结果,并确保所有要素都以公平一致的方式完成,包括:
①数据包含和排除
②模型中的假设
③结果统计有效性
④结果解释的有效性
⑤采用适当的方法
14.6.3 数据安全
14.6.4 元数据
元数据特征化数据的结构、内容和质量,包括数据的来源、数据的血缘沿袭、数据的定义、以及实体和数据元素的预期用途。技术元数据可以从大数据工具中获取,包括数据存储层、数据整合、MDM甚至源文件系统。考虑实时数据、静态数据和计算性数据元素,就要明确源端的数据沿袭关系。
14.6.5 数据质量
数据质量是与预期结果偏差的度量:差异越小,数据满足期望越好,质量就越高。
高级数据质量工具集的功能:
1)发现
信息驻留在数据集中的位置
2)分类
基于标准化模式存在哪些类型的信息
3)分析
如何填充和构建数据
4)映射
可以将哪些其他数据集与这些值匹配
14.6.6 度量指标
1、技术使用指标
使用技术分析手段查找数据热点(最常访问的数据),以便管理数据分发和保持性能。
2、加载和扫描指标
定义了提取率以及与用户社区的交互。
3、学习和故事场景
常用的测量方法包括:
1)已开发模型的数量和准确性
2)已识别的机会中实现的收入
3)避免已识别的威胁所降低的成本
第15章 数据管理成熟度评估
15.1 引言
能力成熟度评估(Capability Maturity Assessment ,CMA)是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。
基于评估结果,组织可以制定路线图以实现以下目标:
1)与过程、防范、资源和自动化相关的高价值改进机会
2)符合业务战略的能力
3)为定期基于模型评估能力开展治理项目
数据管理成熟度评估(DMMA)可用于全面评估数据管理,也可用于聚焦单个知识领域甚至单个过程。
15.1.1 业务驱动因素
1)监管
最低成熟度水平要求
2)数据治理
出于规划与合规性目的,数据治理需要进行成熟度评估
3)过程改进的组织就绪
组织认识到要改进其实践过程应从评估其当前状态开始。
4)组织变更
组织变更会带来数据管理挑战。DMMA为应对这些挑战制订了规划。
5)新技术
技术的进步提供了管理和使用数据的新方法。
6)数据管理问题
15.1.2 目标和原则
在实现其主要目标时,DMMA可以对文化产生积极影响。它有助于:
1)向利益相关方介绍数据管理概念、原则和实践
2)厘清利益相关方在组织数据方面的角色和责任
3)强调将数据作为关键资产进行管理的必要性
4)扩大对整个组织内数据管理活动的认识
5)有助于改进有效数据治理所需的协作
目标:
1)全面发现和评估整个组织的关键数据管理活动
2)向利益相关方介绍数据管理的概念、原则和实践,并在更广泛的背景下确定其作为数据创建者和管理者的角色和职责
3)建立或加强可持续的企业范围数据管理计划,以支持运营和战略目标
15.1.3 基本概念
1、评价等级及特点
1)0级:无能力。
2)1级:初始/临时
使用有限的工具集进行通用的数据管理,很少或根本没有治理活动。数据处理高度依赖于少数专家,角色和责任在各部门中分开定义。每个数据所有者自主接收、生成和发送数据控件的应用不一致。
3)2级可重复
有一致的工具和角色定义来支持流程执行。评估标准可能包括对任意一个流程进行控制,如记录数据质量问题。
4)3级 已定义
新兴数据管理能力。将引入可扩展的数据管理流程将其制度化,并将数据管理视为一种组织促成因素。
5)4级 已管理
从1-3级增长中获得的经验积累使组织以及数据模型和系统控制的一致性。
6)5级 已优化
当数据管理实践得到优化时,由于流程自动化和技术变更管理,它们是高度可预测的,这个成熟度级别的组织会更关注于持续改进。支持跨流程查看数据
2、评估标准
评估标准:
1)一级:是否有数据建模实践以及多少个系统
2)二级:要求定义企业数据建模方法
3)三级:考察该方法的实施推广进度
4)四级:查看建模标准是否得到了有效的执行
5)五级:要求有适当的方式来改进建模实践
可根据语境关系图中的类别制定标准:
1)活动
2)工具
3)标准
4)人员和资源
3、现有DMMA框架
(1)CMMI数据管理成熟度模型(DMM)
1)数据管理策略
2)数据治理
3)数据质量
4)平台与架构
5)数据操作
6)支持流程
(2)EDM委员会DCAM
(3)IBM数据治理委员会成熟度模型
1)结果
2)使能因素
3)核心内容
4)支持内容
(4)斯坦福数据治理成熟度模型
该模型区分基础部分(意识、形式化、元数据)和项目部分(数据管理、数据质量、主数据)。在每部分,该模型都清楚地说明了人员、政策和能力的驱动因素,而且阐明了每个成熟度级别的特征,并为每个级别提供了定性和定量的测量。
(5)Gartner的企业信息管理成熟度模型
建立了评估愿景、战略、度量、治理、角色和责任、生命周期和基础架构的标准。
15.2 活动
15.2.1 规划评估活动
1、定义目标
任何组织当其决定数据管理成熟度评估时,其实已经实在努力改进。
2、选择框架
根据当前状况和评估目标的假设审查这些框架,以便选择一个对组织有帮助意义的框架。
3、定义组织范围
1)局部评估
2)企业评估
侧重于组织中广泛存在的、有时是不连贯的部分。
可以由多个局部评估组成,也可以是一个独立的任务。
4、定义交互方法
5、计划沟通
1)数据管理成熟度评估的目的
2)评估应如何进行
3)他们参与的是什么部分
4)评估活动的时间表
15.2.2 执行成熟度评估
1、收集信息
至少包括评估标准的正式评级,还可以包括访谈和焦点小组的成果、系统分析和设计文档、数据调查、电子邮件字符串、程序手册、标准、策略、文件存储库、批准工作流、各种工作产品、元数据存储库、数据和集成参考架构、模板和表单。
2、执行评估
改进需要遵循的过程:
1)审查评级方法,并为每个工作产品或活动给定初步评级
2)记录支持证据
3)与参与者一起讨论,就每个领域的最终评分达成共识
4)记录关于模型标准的声明和评审员的解释,作为评级的说明
5)开发可视化工具,展示说明评估结果。
15.2.3 解释结果和建议
1、报告评估结果(评估报告应包括:)
1)评估的业务因素
2)评估的总体结果
3)按主题分类有差距的评级
4)弥补差距的建议方法
5)所观察到的组织的优势
6)进展的风险
7)投资和成果选项
8)衡量进展的治理和指标
9)资源分析与未来潜在效用
10)可在组织内使用或重复使用的组件
2、制定管理层简报
15.2.4 制订有针对性的改进计划
1)对特定数据管理功能进行改进的系列活动
2)实施改进活动的时间表
3)一旦活动实施,DMMA评级的预期改善情况
4)监督活动,包括在时间线上逐渐成熟的监督
15.2.5 重新评估成熟度
1)通过第一次评估建立基线评级
2)定义重新评估参数,包括组织范围
3)根据需要,在公布的时间表上重复DMM评估
4)跟踪相对于初始基线的趋势
5)根据重新评估结果制定建议
15.3 工具
1)数据管理成熟度框架
DMM框架
2)沟通计划
利益相关方的参与模式、要共享的信息类型和时间表等。
3)协作工具
允许共享评估结果。
4)知识管理和元数据存储库
15.4 方法
15.4.1 选择DMM框架
1)易用性
2)全面性
3)可扩展性和灵活性
4)内置的未来演进路径
5)行业不可知论与行业特定论
6)抽象或详细程度
7)非规定性
8)按主题组织
9)可重复
10)由中立的独立组织支持
11)技术中立
12)培训支持
15.4.2 DAMA-DMBOK框架使用
15.5 实施指南
15.5.1 就绪评估/风险评估
缺乏组织认同
缺乏DMMA专业知识
缺乏沟通计划或标准
组织中缺乏“数据说话”
关于数据的对话很快就转移到关于系统的讨论
用于分析的资产不完整或已过期
关注点太过狭小
难以接近的工作人员或系统
出现诸如监管变化的意外情况
15.5.2 组织和文化变革
15.6 成熟度管理治理
15.6.1 DMMA过程监督
属于数据治理团队。
15.6.2 度量指标
1)DMMA评级
2)资源利用率
3)风险敞口
对风险情景作出反应的能力,反映了组织相对于其DMMA评级的能力。
4)支出管理
①数据管理可持续性
②实现主动性的目标和目的
③沟通的有效性
④教育和培训的有效性
⑤变更采用的速度
⑥数据管理价值
⑦对业务目标的贡献
⑧降低风险
⑨提高运营效率
5)DMMA的输入
计数、覆盖范围、可用性、系统数量、数据量、涉及的团队等。
6)变革速度
指一个组织提高自身能力的速度
第16章 数据管理组织与角色期望
16.1 引言
16.2 了解现有的组织和文化规范
1)数据在组织中的作用
2)关于数据的文化规范
3)数据管理和数据治理实践
4)如何组织和执行工作
5)汇报关系的组织方式
6)技能水平
16.3 数据管理组织的结构
16.3.1 分散运营模式
数据管理职能分布在不同的业务部门和IT部门。
优点:
组织结构相对扁平,数据管理组织与业务线或IT部门具有一致性。这种一致性通常意味着对数据要有清晰的理解,相对容易实施或改进。
缺点:
让过多的人员参与治理和制定决策,实施协作决策通常比集中发布号令更加困难。分散模式一般不太正式,可能难以长期性维持。
16.3.2 网络运营模式
通过RACI矩阵,利用一系列的文件记录联系和责任制度,使分散的非正规性组织变得更加正式,称为网络模式。他作为人和角色之间的一系列已知连接运行,可以表示为“网络”。
优点:
分散模式(结构扁平、观念一致、快速组建)
缺点:
需要维护和执行与RACI相关的期望
16.3.3 集中运营模式
最成熟且最正式的数据管理运营模式。所有工作都由数据管理组织掌控。参与数据治理和数据管理的人员直接向负责治理、管理职责、元数据管理、数据质量管理、主数据和参考数据管理、数据架构、业务分析等工作的数据管理主管报告。
优点:
它为数据管理或数据治理建立了正式的管理职位,且拥有一个最终决策人。因为职责是明确的,所以决策更容易。
缺点:
实施集中模式通常需要重大的组织变革。将数据管理的角色从核心业务流程正式分离,存在业务知识逐渐丢失的风险。
16.3.4 混合运营模式
包含分散模式和集中模式的优点。在混合模式中,一个集中的数据管理卓越中心与分散的业务部门团队合作,通常通过一个代表关键业务部门的执行指导委员会和一系列针对特定问题的技术工作组来完成工作。
优点:
可以从组织的顶层制定适当的指导方向,并且有一位对数据管理或数据治理负责的高管。
缺点:
组织的建立,通常这种模式需要配备额外的人员到卓越中心。
16.3.5 联邦运营模式
提供了额外的集中层/分散层,这在大型全球企业中通常是必需的。联邦模式提供了一个具有分散执行的集中策略。因此,对于大型企业来说,它可能是唯一可行的模式。一个负责整个组织数据管理的主管领导,负责管理企业卓越中心。
优点
使组织能够根据特定的数据实体、部门挑战或区域优先级来确定优先级
缺点
管理起来较复杂,层次太多,需要在业务线的自治和企业的需求之间取得平衡,而这种平衡会影响企业的优先级。
16.3.6 确定组织的最佳模式
运营模式是改进数据管理和数据治理实践的起点。引入运营模式之前,需要了解它如何影响当前组织以及它可能会如何发展。评估当前组织结构是集中的、分散的,还是混合的、层级化的或相对扁平的?
16.3.7 DMO替代方案和设计考虑因素
大多数组织在转向正式的DMO数据管理组织之前,都处于分散模式。当一个组织看到数据质量改进带来的影响时,它可能已开始通过数据管理RACI矩阵来制定责任制度,并演变成网络模式。
构建运营模式时。需要注意:
1)通过评估当前状态来确定起点
2)将运营模式与组织结构联系起来
3)考虑:
①组织复杂性+成熟度
②领域复杂性+成熟度
③可扩展性
4)获得高层支持——这是可持续发展模式的必要条件
5)确保任何领导机构都是决策机构
6)考虑试点规划和分批次实施
7)专注于高价值、高影响力的数据域
8)使用现有资源
9)永远不要采用一刀切的方法
16.4 关键成功因素
16.4.1 高管层的支持
16.4.2 明确的愿景
16.4.3 积极的变更管理
16.4.4 领导者之间的共识
16.4.5 持续的沟通
16.4.6 利益相关方的参与
16.4.7 指导和培训
16.4.8 采用度量策略
如何制定度量标准如下:
1)是否采用
2)改进的程度,或相对于之前状态的增量
3)数据管理的有利方面。数据管理如何影响结果可测量的解决方案
4)改进的流程和项目
5)识别并规避的风险
6)数据管理的创新方面。如何从根本上改变业务的方式
7)可信度分析
16.4.9 坚持指导原则
指导原则阐明了组织的共同价值观,是战略愿景和使命的基础,也是综合决策的基础。
16.4.10 演进而非革命
有助于最大限度地减少重大变化或大规模高风险项目。
16.5 建立数据管理组织
16.5.1 识别当前的数据管理参与者
首先回顾现有的数据管理活动,如谁创建和管理数据,谁评估数据质量,甚至谁的职位头衔中包括“数据”二字。
16.5.2 识别委员会的参与者
无论组织选择哪种运营模式,一些治理工作都需要由数据治理指导委员会和工作组来完成。
16.5.3 识别和分析利益相关方
利益相关方是指能够影响数据管理规划或被其影响的任何个人或团体。利益相关方可以在组织内部或外部。
利益相关方需要回答以下问题:
1)谁将受到数据管理的影响
2)角色和职责如何转变
3)受影响的人如何应对变化
4)人们会有哪些问题和顾虑
考虑以下几点:
1)谁控制关键资源
2)谁可以直接或间接阻止数据管理计划
3)谁可以影响其他关键因素
4)利益相关方是否会支持即将发生的变化
16.5.4 让利益相关方参与进来
16.6 数据管理组织与其他数据相关机构之间的沟通
16.6.1 首席数据官
1)建立组织数据战略
2)使以数据为中心的需求与可用的IT和业务资源保持一致
3)建立数据治理标准、政策和程序
4)为业务提供建议(以及可能的服务)以实现数据能动性,如业务分析、大数据、数据质量和数据技术
5)向企业内外部利益相关方宣传良好的信息管理原则的重要性
6)监督数据在业务分析和商务智能中的使用情况
16.6.2 数据治理
16.6.3 数据质量
数据质量管理是数据管理实践和组织的关键能力。
16.6.4 企业架构
数据管理通过以下几种方式进行交互:
1)通过数据治理
2)通过ARB
3)点对点
企业架构实践包括:
1)技术架构
2)应用架构
3)信息(或数据)架构
4)业务架构
16.6.5 管理全球化组织
1)遵守标准
2)同步流程
3)明确责任制度
4)培训和交流
5)有效地监控和度量
6)发展规模经济
7)减少重复性工作
16.7 数据管理角色
16.7.1 组织角色
IT数据管理提供从数据、应用程序和技术架构到数据库管理的一系列服务。集中式数据管理服务组织专注于数据管理,该组织团队可能包括数据管理执行官...
联邦式数据管理服务会包括一组IT单元,而每个单元分别侧重于数据管理的某个方面。
16.7.2 个人角色
1、执行官角色
首席数据官CDO
2、业务角色
主要关注数据治理功能,尤其是管理职责。
3、IT角色
1)数据架构师
2)数据建模师
3)数据模型管理员
4)数据库管理员
5)数据安全管理员
6)数据集成架构师
7)数据集成专家
8)分析/报表开发人员
9)应用架构师
10)技术架构师
11)技术工程师
12)桌面管理员
13)IT审计员
4、混合角色
1)数据质量分析师
2)元数据专家
3)BI架构师
4)BI分析师/管理员
5)BI项目经理
第17章 数据管理和组织变革管理
17.1 引言
成功的数据管理实践需要:
1)根据信息价值链调整数据责任制度,以此来学习横向管理
2)将垂直的(筒仓)数据责任制度转变为共享的信息管理工作
3)将局部业务关注点或IT部门工作中的信息质量演变为整个组织的核心价值
4)将对信息质量的思考从“数据清洗与数据质量记分卡”提升转变为组织的基本能力
5)对不良数据管理引发的代价和规范化数据管理带来的价值进行衡量
实现组织变更要必须了解:
1)为什么变革会失败
2)有效变革的触发因素
3)变革的障碍
4)人们是如何经历变革过程的
17.2 变革法则
1)组织不变革,人就变,
2)人们不会抗拒变革,但抵制被改变
3)事情之所以存在是惯性所致
4)除非有人推动变革,否则很可能止步不前
5)如果不考虑人的因素,变革将很容易
17.3 并非管理变革:而是管理转型过程
变革管理的终极目标是说服人们踏上变革之旅。首要任务的理解目标。
过渡时应注意的关键点:
(1)告别过去
1)帮助大家理解当前的问题,以及变革的必要性
2)了解谁有可能失去什么
3)损失是主观的
4)期待并接受悲伤的迹象,公开地并具有同情心地承认损失
5)定义什么已经结束了,什么还未结束
6)带着尊重善待过去
7)展现如何结束某些事情可以确保对人们重要的事情能够得以继续并改善
8)向人们提供信息,然后以不同的方式反复地做
9)使用利益相关方来规划如何以最佳方式对待不同的个体
(2)相持阶段
1)认识到这是每个人必须经历的新旧交替的困难阶段
2)让人们参与进来一起工作,给他们时间和空间去试验和测试新的想法
3)帮助人们让他们感受到自己仍受重视
4)赞美有好想法的人,即使并非每个好想法都能产生预期效果。
5)向人们传达信息,以各种方法一遍又一遍地传达
6)对考验中的想法和已做出的决定的结果提供反馈意见
(3)崭新开始
1)不要在恰当的时机到来之前急于开始
2)确保人们知道新系统中所扮演的角色
3)确保政策、程序和优先次序清晰明确,避免传递含糊的信息
4)计划庆祝新的开始,对已经做出改变者予以表扬
5)向人们传达新开始的信息,以各种方法一遍又一遍地传达。
17.4 科特的变革管理八大误区
17.4.1 误区一:过于自满
1)高估了自己推动巨大只变革的能力
2)低估了让人们走出舒适区的难度
3)未能预见他们的行为和方法可能会引发抵触而强化现状
4)冲向人们不敢踏足的地方。
5)将紧迫性与焦虑混为一谈,这反过来又会导致恐惧和阻力,利益相关方会因此故步自封
17.4.2 误区二:未能建立足够强大的指导联盟
17.4.3 误区三:低估愿景的力量
17.4.4 误区四:10倍、100倍或1000倍地放大愿景
17.4.5 误区五:允许阻挡愿景的障碍存在
1)心理障碍
2)组织结构
3)积极抵抗
17.4.6 误区六:未能创造短期收益
17.4.7 误区七:过早宣布胜利
17.4.8 误区八:忽视将变革融入企业文化
确定组织文化变革的两个关键因素是:
1)有意识地向人们展示特定行为和态度是如何影响绩效的
2)投入充足时间将变革方法嵌入后续管理
17.5 科特的重大变革八步法
除了八大误区之外,还提出阻碍变革管理的常见因素:
1)内向型文化
2)瘫痪的官僚机构
3)狭隘性政治
4)信任度低
5)缺乏团队合作
6)狂妄自大
7)欠缺领导力或者领导力失败
8)对未知的恐惧
17.5.1 树立紧迫感
在信息管理方面,促使紧迫感产生的因素有如下几种:
1)监管变化
2)信息安全的潜在威胁
3)业务连续性风险
4)商业策略的改变
5)兼并与收购
6)监管审计或诉讼风险
7)技术变革
8)市场竞争对手能力变化
9)媒体对组织或行业信息管理问题的评论
1、自满的根源
2、提高紧迫感
3、谨慎使用危机
4、中层和基层管理人员的作用
5、紧迫感的程度
17.5.2 指导联盟
要变革成功,需要避免两种特定情况
1)唯CEO论或者唯领导论
2)低可信度的委员会
指导联盟的四个关键特征:
1)职位权力
2)专家意见
3)可信性
4)领导力
出现的关键问题包括:
1)需要多少人来协助定义和指导这种变化
2)应该让谁参与或邀请谁来加入指导联盟
变革领导者需要避免削弱团队的有效性、职能和影响力的行为:
1)唱反调
2)分散注意力
3)自私自利
1、在联盟中发挥有效领导力的重要性
2、信息管理环境中的示例
3、建立有效团队
信任和共同目标
4、避免群体思维
组织可能正在陷入群体思维中:
1)无人提出异议
2)缺乏其他选择
3)不同的观点很快消失,永远消失
4)对可能挑战思维的信息未积极探寻原因
防止群体思维,重要的是:
1)鼓励所有参与者遵循科学的数据收集方法,以帮助了解问题的性质和原因
2)建立一份标准清单,评估所有决定
3)学会有效合作,避免为快速完成工作而采取群体思维的捷径
4)鼓励集思广益
5)领导要最后发言
6)积极寻找外部知识,并将他们引入会议
7)一旦确定解决方案,团队不仅要制定行动计划,还要制定一个“B计划”
5、信息管理环境中的示例
6、共同目标
17.5.3 发展愿景和战略
1、为何需要愿景(好的愿景的特质:)
1)明确性
2)动力性
3)一致性
2、有效愿景的特性
1)充满想象
2)吸引力
3)可行性
4)重点突出
5)灵活性
6)可交流性
3、建立有效愿景
1)初稿
2)指导联盟的角色
3)团队合作的重要性
4)头脑和心灵的作用
5)过程的混乱
6)时间框架
7)最终产品
17.5.4 沟通传达变革愿景
通常出现以下问题:
1)沟通无效或者沟通不充分
2)沟通不畅
3)沟通不深入
有效传播愿景的7大因素:
1)保持简单
2)使用比喻、类比和例子。
3)适用不同场合
4)重复、重复、再重复
5)以身作则
6)解释表面上的不一致
7)给予和索取
1、信息管理环境中的示例
2、保持简单
3、在多种场合中运用愿景
4、重复、重复、再重复
5、言行一致
6、信息管理环境中的示例
7、解释不一致
8、信息管理场景中的示例
9、倾听和被倾听
10、信息管理场景中的示例
17.6 变革的秘诀
变革平衡公式:C=(D*V*F)>R。描述了组织需要在适当的地方克服变革阻力的因素。对现状的不满程度(D)、对更好替代方案的愿景(V)、实现目标所采用的第一步行动(F)相结合,这三个因素的合力足以克服组织中的阻力(R)时,就会发生变革(C)
重要的是要意识到按按钮和拉操纵杆的内在风险:
1)组织内部对工作方式日益不满是一个强有力的工具,需要谨慎使用,以免增加阻力
2)开发未来的愿景将需要一个具体而生动的愿景
3)在描述变革第一步时,确保他们是可实现的,并明确地将变革与愿景联系起来
4)采取行动减少阻力,避免增加对变革的阻力。
17.7 创新扩散和持续变革
创新扩散:实施变革需要了解新的想法是如何在组织中传播开来的过程。是一种试图解释新思想和新技术如何、为何以及何种速度在文化中扩散的理论。认为:变革是由很小占比的创新者引起的。
17.7.1 随着创新扩散而需克服的挑战
第一个关键大挑战,是突破早期使用者阶段
第二个关键的挑战,是当创新从晚期大众进入落伍者阶段,团队需要接受的是他们不必让100%的人接受新的做事方式
17.7.2 创新扩散的关键要素
1)创新
2)沟通渠道
3)时间
4)社会系统
17.7.3 创新采纳的五个阶段
知悉
个人首先接触到创新
说服
对创新感兴趣
决策
权衡创新利弊
实施
采用创新
确认
继续使用挖掘
17.7.4 接受或拒绝创新变革的影响因素
1)可测试性
对新工具或新技术进行验证的难易程度
2)可观测性
创新可见度
17.8 持续变革
17.8.1 紧迫感/不满意感
17.8.2 构建愿景
17.8.3 指导联盟
17.8.4 相对优势和可观测性
17.9 数据管理价值的沟通
17.9.1 沟通原则
总体沟通计划和单独沟通计划都应该:
1)有明确的目标和期望的结果。
2)由支持所需结果的关键消息构成
3)为受众/利益相关方量身定制
4)通过适合受众/利益相关方的媒介传达
沟通的总体目标可以归结为:
1)通知
2)教育
3)设定目标或愿景
4)定义问题的解决方案
5)促进变革
6)影响或激励行动
7)获得反馈
8)获得支持
数据管理沟通应致力于:
1)传达数据管理项目的有形和无形价值
2)描述数据管理职能如何为业务战略和最终成果作出贡献
3)分享数据管理如何为企业降低成本、增加收益,降低风险或提高决策质量的具体示例
4)进行基础数据管理概念的教育培训,以提升组织内部对数据管理的认知。
17.9.2 受众评估与准备
1)解决问题
2)解决痛点
3)视变革为改进
4)成功愿景
5)避免专业术语
6)分享案例
7)变恐惧为行动力
17.9.3 人的因素
17.9.4 沟通计划
沟通计划要素:
信息
目标/目的
受众
风格
渠道、方法、媒介
时机
频率
材料
沟通者
预期反应
指标
预算和资源计划
17.9.5 保持沟通