导图社区 数据质量
;Dama知识体系,数据质量是在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。
编辑于2024-04-07 10:12:18数据治理知识体系,数据是一种表示方法,它代表的是除自身以外的事物。数据既是对其所代表对象的解释,也是必须解释的对象。
这是一篇关于如何利用复盘思维提升工作能力的思维导图,主要内容包括:二、复盘步骤,六、结论与总结,五、复盘的效果评估,四、复盘工具,三、复盘角度,一、复盘思维介绍。
这是一篇关于17种头脑风暴法头脑风暴的思维导图,主要内容包括:持续创作!,像写信一样写东西,用完全不同的方式创造,在很随机的时间起床,利用社交媒体获得反馈,在观众面前头脑风暴,戒掉所有的科技产品,阅读,进行一场“点子风暴”,带根笔散步,边写边说,全部都用记忆搭建,把你想说的画下来,用你的非惯用手写字,头脑风暴每个不可能的想法,每天写下10个想法,“J.K. 罗
社区模板帮助中心,点此进入>>
数据治理知识体系,数据是一种表示方法,它代表的是除自身以外的事物。数据既是对其所代表对象的解释,也是必须解释的对象。
这是一篇关于如何利用复盘思维提升工作能力的思维导图,主要内容包括:二、复盘步骤,六、结论与总结,五、复盘的效果评估,四、复盘工具,三、复盘角度,一、复盘思维介绍。
这是一篇关于17种头脑风暴法头脑风暴的思维导图,主要内容包括:持续创作!,像写信一样写东西,用完全不同的方式创造,在很随机的时间起床,利用社交媒体获得反馈,在观众面前头脑风暴,戒掉所有的科技产品,阅读,进行一场“点子风暴”,带根笔散步,边写边说,全部都用记忆搭建,把你想说的画下来,用你的非惯用手写字,头脑风暴每个不可能的想法,每天写下10个想法,“J.K. 罗
数据质量
引言
导致低质量数据产生因素
1. 组织缺乏对低质量数据影响的理解
2. 缺乏规划
3. 孤岛式系统涉及
4. 不一致的开发过程
5. 不完整的文档
6. 缺乏标准或缺乏治理等
数据质量管理不是一个项目,而是一项持续性工作
语境关系图
定义
为确保满足数据消费者的需求,应用数据管理技术进行规划,实施和控制等管理活动
目标
根据数据使用者的需求,开发一种让数据符合用途的管理方法
作为数据生命周期的一部分,定义数据质量控制的标准、要求和规范
定义和实施测量、监控和报告数据质量水平的过程
通过过程和系统的改进,识别和提高数据质量的机会
输入
数据政策和标准
数据质量期望
业务需求
业务规则
数据需求
业务元数据
技术元数据
数据源和数据存储
数据血缘
活动
1.定期高质量数据(P)
2.定义数据质量战略(P)
3.识别关键数据和业务规则(P)
1)识别关键数据
2)识别已有规则和模式
4.执行初始数据质量评估(P)
1)确定问题并排定优先顺序
2)执行问题根本原因分析
5.确定改进方向并排定优先顺序
1)根据业务影响确定行动优先级
2)制定预防和纠正措施
3)确认计划的行动
6.定义数据质量操作(P)
7.开发和部署数据质量操作(D)
1)开发数据质量操作规则
2)修正数据质量缺陷
3)度量和监控数据质量
4)报告数据质量水平和调查结果
交付成果
数据质量战略和框架
数据质量规划组织
数据概况分析
基于问题根本原因分析的建议
数据质量管理规程
数据质量报告
数据质量治理报告
数据质量服务等级协议
数据政策和指南
方法
多个自己交叉抽查
标记和注释数据问题
根本原因分析
统计过程控制
工具
数据剖析和查询工具
数据质量规则模版
质量检查和审计代码模块
元数据存储库
度量指标
治理一致性指标
数据质量测量结果
数据质量趋势
数据问题管理指标
语境关系图谱—数据质量
业务驱动因素
1. 提高组织数据价值和数据利用的机会
2. 降低低质量数据导致的风险
3. 提高组织效率和生产力
4. 保护和提高组织的声誉
目标原则
管理目标
1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。
2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分。
3)定义和实施测量、监控和报告数据质量水平的过程。
管理遵循原则
1)重要性。
数据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定。
2)全生命周期管理。
数据质量管理应覆盖从创建或草沟直至处置的数据全生命周期,包括其在系统内部和系统之间流转时的数据管理(数据链中的每个环节都应确保数据具有高质量的输出)。
3)预防。
数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简单的纠正记录上。
4)根因修正。
提高数据质量不只是纠正错误,因为数据质量问题通常与流程或系统设计有关,所以提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。
5)治理。
数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境。
6)标准驱动。
数据生命周期中的所有利益相关方都会有数据质量要求。在可能的情况下,对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义。
7)客观测量和透明度。
数据质量水平需要得到客观、一致的测量。应该与利益相关方一同讨论与分享测量过程和测量方法,因为他们是质量的裁决者。
8)嵌入业务流程。
业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准。
9)系统强制执行。
系统所有者必须让系统强制执行数据质量要求。
10)与服务水平关联。
数据质量报告和问题管理应纳入服务水平协议(SLA)
基本概念
数据质量
数据质量一词既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。
关键数据
大多数组织都有大量的数据,但并非所有的数据都同等重要。数据质量管理的一个原则是将改进的重点集中在对组织及其客户最重要的数据上
评估关键数据的要求
1. 监管报告
2. 财务报告
3. 商业政策
4. 持续经营
5. 商业战略,尤其是差异化竞争战略
数据质量维度
数据质量维度是数据的某个可测量的特征
三个最具影响力的任务
Strong-Wang框架侧重于数据消费者对数据的看法
Thomas Redman在《信息时代的数据质量》一书中,制定了一套基于数据结构的数据质量维度。Redman将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。
Larry English在《改善数据仓库和业务信息质量》一书中提出了一套综合指标,分为两大类别:固有特征和实用特征。固有特征与数据使用无关,实用特征是动态的,与数据表达相关,其质量价值依赖数据的用途而不同
数据质量的6个核心维度
1)完备性。存储数据量与潜在数据量的百分比
2)唯一性。在满足对象识别的基础上不应多次记录实体实例(事物)
3)及时性。数据从要求的时间点起代表现实的程度。
4)有效性。如数据符合其定义的语法(格式、类型、范围),则数据有效。
5)准确性。数据正确描述所描述的“真实世界”对象或事件的程度。
6)一致性。比较事物多种表述与定义的差异。
数据质量和元数据
元数据对于管理数据质量至关重要。数据质量是为了满足预期,而元数据是阐明期望的主要手段。
数据质量改进生命周期
改进数据质量常用方法
戴明环是一个被称为“计划-执行-检查-处理”的问题解决模型
P:计划
D:执行
C:检查
A:行动/处理
数据质量业务规则类型
1)定义一致性。
确认对数据定义的理解相同,并在整个组织过程中得到实现和正确使用;
2)数值存在和记录完备性。
定义数值缺失的情况是否可接受规则
3)格式符合性。
按指定模式分配给数据元素的值,如设置电话号码格式的标准
4)值域匹配性。
指定数据元素的赋值须包含在某个数据值域的枚举值中,如州字段的合理取值为2个字符的美国邮政编码。
5)范围一致性。
数据元素赋值必须在定义的数字、词典或时间范围内,如数字范围大于0、小于100.
6)映射一致性。
表示分配给数据元素的值,必须对应于映射到其他等效对应值域中的选择值。
7)一致性规则。
指根据这些属性的实际值,在两个(或多个)属性之间关系的条件判定。
8)准确性验证。
将数据值与记录系统或其他验证来源(如从供应商处购买的营销数据)中的相应值进行比较,以验证值是否匹配。
9)准确性验证。
指定哪些实体必须具有唯一表达,以及每个表达的真实世界对象有且仅有一个记录的规则。
10)及时性验证。
表明与数据可访问性和可用性预期相关特征的规则。
数据质量问题的常见原因
1)缺乏领导力导致的问题
2)数据输入过程引起的问题
3)数据处理功能引起的问题
4)系统设计引起的问题
5)解决问题引起的问题
数据剖析:数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式
方法
纠正措施
执行数据修正方法
1. 自动修正
2. 人工检查修正
3. 人工修正
有效的数据质量指标
特征
1)可度量性。
2)业务相关性。
3)可接受性。
4)问责/管理制度。
5)可控制性。
6)趋势分析。
数据质量数据治理
度量指标
数据质量的高阶指标
1)投资回报
2)质量水平
3)数据质量趋势
4)数据问题管理指标
5)服务水平的一致性
6)数据质量计划示意图