导图社区 DAMA-CDGA数据治理工程师-13.数据质量
数据质量管理指所有数据管理的原则都应该有助于提高数据质量,支持组织使用高质量数据应该是所有数据管理原则的目标。
编辑于2024-03-05 20:31:04不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
社区模板帮助中心,点此进入>>
不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
13.数据质量
引言
原则
1、重要的数据先开始
2、PDCA
3、评估数据治理的维度
4、根因分析
5、数据质量报告
概述
实现数据价值的前提是数据本身是可靠和可信的,换句话说,数据应该是高质量的
所有数据管理的原则都应该有助于提高数据质量,支持组织使用高质量数据应该是所有数据管理原则的目标
与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一个持续性工作
业务驱动因素
包括
提高组织数据价值和数据利用的机会
降低低质量数据导致的风险和成本
提高组织效率和生产力
保护和提高组织的声誉
希望从数据中获取价值的组织认识到,高质量数据比低质量数据更有价值
使用劣质数据充满风险
高质量数据本身不是目的,它只是组织获取成功的一种手段
目标
根据数据消费者的需求,开发一种受管理的方法,使数据适合要求
定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
定义和实施测量、监控和报告数据质量水平的过程
原则
重要性
数据质量管理关注对企业及其客户最重要的数据,改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定
全生命周期管理
数据治理管理应覆盖从创建或采购直至处置的数据全生命周期
数据链中的每个环节都应确保数据具有高质量的输出
预防
数据质量方案的重点应放在预防错误和降低数据可用性等情形上,不应放在简单的纠正记录上
根因修正
提高数据质量不只是纠正错误,因为数据质量问题通常与流程或系统设计有关,所有提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决
治理
数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境
标准驱动
对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义
客观测量和透明度
数据质量水平需要得到客观、一致的测量
嵌入业务流程
业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准
系统强制执行
系统所有者必须让系统强制执行数据质量标准
与服务水平关联
数据治理报告和问题管理应纳入服务水平协议
基本概念
数据质量
既指高质量数据的相关特性
也指用于衡量和改进数据质量的过程
高质量
数据满足数据消费者应用需求
低质量
数据不满足数据消费者应用需求
数据质量取决于数据的场景和数据消费者的需求
关键数据
大多数组织都有大量的数据,但并非所有的数据都同等重要
数据质量管理的一个原则是将改进的重点集中在对组织和客户最重要的数据上
这样做可以明确项目范围,并使其能够对业务需求产生直接的、可测量的影响
评估关键数据
监管报告
财务报告
商业政策
持续经营
商业战略
数据质量维度
人物
Strong-Wang
Thomas Redman
Larry English
数据质量维度是数据的某个可测量的特征
数据质量维度提供了定义数据质量要求的一组词汇
通过这些维度定义可以评估初始数据质量和持续改进的成效
维度是衡量规则的基础
DAMA核心维度
完备性
存储数据量与潜在数据量的百分比
唯一性
在满足对象识别的基础上不应多次记录实体实例
及时性
数据从要求的时间点起代表现实的程度
有效性
如数据符合其定义的语法(格式、类型、范围)则数据有效
准确性
数据正确描述所描述的“真实世界”对象或事件的程度
一致性
比较事物多种表述与定义的差异
数据治理和元数据
元数据对于管理数据质量至关重要
数据质量取决于它如何满足数据消费者的需求
数据质量是为了满足预期,而元数据是阐明期望的主要手段
管理良好的元数据还可以支持改进数据质量工作
数据治理ISO标准
数据质量改进生命周期
提高数据质量需要提高能够评估输入和输出之间的关系,以确保输入满足过程的要求,并且输出符合预期
计划阶段P
数据质量团队评估已知问题的范围、影响和优先级,并评估解决这些问题的备选方案
这一阶段应该建立在分析问题根源的坚实基础上,从问题产生的原因和影响的角度了解成本/效益,确定优先顺序,并制订基本计划以解决这些问题
执行阶段D
数据质量团队负责努力解决引起问题的根本原因,并做出对持续监控数据的计划
检查阶段C
这一阶段包括积极监控按要求测量的数据质量
只要满足定义的质量阈值,就不需要采取其他行动
如果数据低于可接受的质量阈值,则必须采取额外措施使其达到可接受的水平
处理阶段A
这一阶段是指处理和解决新出现的数据质量问题的活动
随着问题原因的评估和解决方案的提出,循环将重新开始
通过启动一个新的周期来实现持续改进
新周期始于
现有测量值低于阈值
新数据集正在调查中
对现有数据集提出新的数据质量要求
业务、标准或期望变更
第一次正确获取数据的成本,远比获取错误数据并修复数据的成本要低
从一开始就将质量引入数据管理过程的成本,低于对其将进行改造的成本
数据质量业务规则类型
数据质量业务规则描述了组织内有用的数据和可用数据的存在形式
这些规则需要符合质量维度要求,并用于描述数据质量要求
数据质量问题的常见原因
缺乏领导力导致的问题
许多数据治理问题是由于缺乏对高质量数据的组织承诺造成的,而缺乏组织承诺本身就是在治理和管理的形式上缺乏领导力
有效管理数据质量的障碍包括
领导和员工缺乏意识
缺乏治理
缺乏领导力和管理能力
难以证明改进的合理性
测量价值的工具不合适或不起作用
数据输入过程引起的问题
数据处理功能引起的问题
系统设计引起的问题
解决问题引起的问题
数据剖析
数据剖析是一种用于检查数据和评估质量的数据分析形式
数据剖析使用统计技术来发现数据集合的真实结构、内容和质量
剖析引擎生成统计信息,分析人员可以使用这些统计信息识别数据内容和结构中的模式
例如
空值数
最大/最小值
最大/最小长度
单个列值的频率分布
数据类型和格式
虽然剖析是理解数据的有效方法,但只是提高数据质量的第一步,它使组织能够识别潜在的问题
解决问题还需要其他形式的分析,包括业务流程分析、数据血缘分析和更深入的数据分析,这些分析有助于隔离出问题的根本原因
数据治理和数据处理
虽然数据治理改进工作的重点是防止错误,但也可以通过某种形式的数据处理来提升数据质量
数据清理
数据清理或数据清洗,可以通过数据转换使其符合数据标准和域规则
清理包括检测和纠正数据错误,使数据质量达到可接受的水平
通过清理不断地修正数据,这个过程需要花费成本,并且会带来风险
在理想的情况下,随着时间的推移,数据问题的根本原因已经得到解决,对数据清理的需求应该减少
在某些情况下,通过中游系统作出持续修改也是必要的,因为在中游系统中重新处理数据比任何其他替代方案的代价都要小
方式
实施控制以防止数据输入错误
纠正源系统中的数据
改进数据录入的业务流程
数据增强
数据增强或丰富是给数据集添加属性以提高其质量和可用性的过程
示例
时间戳
记录数据项创建、修改或停用的日期和时间,有助于跟踪历史数据事件,能使分析人员定位到问题的时间范围
审计数据
审计可以记录数据血缘,这对于历史跟踪和验证很重要
参考词汇表
增强对数据的理解和控制
语境信息
添加上下文语境信息,并标记数据以审查和分析
地理信息
可以通过地址标准化和地理编码增强地理信息,如区域编码、市政、街区、经纬度
人口统计信息
可以通过人口统计信息增强客户数据,如年龄、婚姻、性别、收入等
心理信息
用于按特定行为、习惯、偏好对目标人群进行细分数据
评估信息
针对资产评估、库存和销售数据等使用这种增强方式
数据解析和格式化
数据解析是使用预先确定的规则来解释器内容或值的分析过程
首先,数据分析人员定义一组模式,然后,把这些模式记录用于区分有效和无效的数据值的规则引擎内,规则引擎匹配特定模式触发操作
数据转换与标准化
在正常处理过程中,可以通过数据规则将数据转换为目标体系结构可读取的格式
活动
定义高质量数据
定义数据质量战略
识别关键数据和业务规则
执行初始数据质量评估
识别改进方向并确定优先排序
定义数据质量改进目标
开发和部署数据质量操作
管理数据治理规则
测量和监控数据质量
制定管理数据问题的操作过程
制定数据质量服务水平协议
编写数据质量报告
工具
数据剖析工具
数据剖析工具生成高级别的统计信息,分析人员能够据此识别数据中的模式并对质量特征进行初始评估
剖析工具对于数据发现工作特别重要,通过它能够实现大型数据集的评估
剖析工具随着数据可视化能力的提高而增强,将有助于发现的进程
数据查询工具
数据剖析只是数据分析的第一步,它有助于识别潜在的问题
数据质量团队成员还需要更深入的查询数据,以回答分析结果提出的问题,并找到能够深入了解数据问题根源的模式
建模和ETL工具
用于数据建模和创建ETL过程的工具对数据质量有直接影响
如果在使用过程中有数据思维,这些工具的使用可以带来更高质量的数据
如果在不理解数据的情况下盲目使用它们,可能会产生有害的影响
数据质量团队成员应与开发团队合作,以解决数据质量风险,并充分利用有效建模和数据处理工具,确保组织能够得到更高质量的数据
数据质量规则模板
规则模板给予分析人员机会捕获客户对数据的期望,有助于弥合业务团队和技术团队之间的交流鸿沟
持续制定一致性的规则可以简化将业务需求转化为代码的过程
元数据存储库
定义数据质量需要元数据,而高质量数据的定义是元数据的一种价值呈现的方式
方法
预防措施
创建高质量数据的最佳方法是防止低质量数据进入组织
预防措施可以阻止已知错误的发生,在事后对数据进行检查并不能提高质量
预防方法
建立数据输入控制
培训数据生产者
定义和执行规则
要求数据供应商提供高质量数据
实施数据治理和管理制度
制定正式的变更控制
纠正措施
问题发生并被检测到之后,实施纠正措施
数据质量问题应系统地、从根本上解决,最大限度的降低纠正措施的成本和风险
执行数据修正的方法
自动修正
自动更正技术包括基于规则的标准化、规范化和更正
修改后的值是在没有人工干预的情况下获取或自动生成、提交的
自动更正需要一个环境:具有良好的标准、普遍接受的规则和已知的错误模式
人工检查修正
使用自动工具矫正和纠正数据,并在纠正提交到持久存储之前进行人工检查
分数高于特定置信水平的更正可以不加审核而提交,但分数低于置信水平的更正将提交给数据管理专员进行审核和批准
人工修正
在缺乏工具、自动化程度不足或者确定通过人工监督能更好的处理变更的情况下,人工更正是唯一的选择
在生成环境中直接更改和提交更新的记录方法非常危险,应避免使用此方法
质量检查和审核代码模块
创建可共享、可链接、可重用的代码模块,开发人员可以从存储库中拿到它们,重复执行数据质量检查和审计过程
精心设计的代码模块可以防止许多数据质量问题,与此同时,它们确保了流程的一致执行
如果法律或政策要求报告特定质量结果,通常需要描述结果的血缘关系,质量检查模块可以提供这类功能
有效的数据治理指标
可度量性
数据质量指标必须是可度量的--它必须是可以被量化的东西
业务相关性
虽然很多东西是可测量的,但并不能全部转化为有用的指标
如果指标不能与业务操作或性能的某些方面相关,那么它的价值是有限的
每个数据质量指标都应该与数据对关键业务期望的影响相关联
可接受性
根据指定的可接受性阈值确定数据是否满足业务期望
如果得分等于或超过阈值,则数据质量满足业务期望
如果得分低于阈值,则不满足
问责/管理制度
当度量的测量结果显示质量不符合预期时,会通知关键利益相关方
业务数据所有者对此负责,并由数据管理专员采取适当的纠正措施
可控制性
指标应反映业务的可控方面
换句话说,如果超出范围,它应该触发行动来改进数据
趋势分析
指标使组织能够在一段时间内测量数据质量改进的情况
跟踪有助于数据质量团队成员监控数据质量SLA和数据共享协议范围内的活动,并证明改进活动的有效性
一旦信息流程稳定后,就可以用应用统计过程控制技术发现改变,从而实现其所研究的度量结果和技术处理过程的可预测性变化
统计过程控制
统计过程控制SPC是一种通过分析过程输入、输出或步骤的变化测量值来管理过程的方法
基于一个假设:当一个具有一致性输入的过程被一致执行时,它将产生一致的输出。它使用集中趋势(变量的值接近其中心值的趋势,如平均值、中值或模式)和围绕中心值的可变性(如范围、方差、标准方差)的度量来确定过程中的偏差公差
SPC使用的主要工具是控制图,它是一个时间序列图,包括平均值的中心线(集中趋势的度量)以及描述测量的上下控制界限(围绕中心值的可变性)
根本原因分析
导致问题产生的根本原因一旦消失,问题本身也会消失
根本原因分析师一个理解导致问题发生的因素及其作用原理的过程
其目的是识别潜在的条件,这些条件一旦消除,问题也将消失
常见的根因分析技术包括帕累托分析(80/20规则)、鱼骨图分析、跟踪和追踪、过程分析、5WHY
实施指南
就绪评估/风险评估
组织和文化变革
数据质量和数据治理
数据质量制度
度量指标
投资回报
质量水平
数据质量趋势
数据问题管理指标
服务水平的一致性
数据质量计划示意图