导图社区 DAMA 知识地图第13章 数据质量(10)V1.0
备考本章,看这张图就够了。 DAMA数据管理知识体系指南第13章考点总结,本章是DAMA数据管理知识体系的第11个知识领域(DAMA共11个知识领域),按照“定义、目标业务驱动、技术驱动、角色职责、活动”等内容进行描述。
编辑于2022-01-25 00:01:542026年政府工作报告全景解读:迈向高质量发展的关键蓝图 报告系统总结2025年工作,部署“十五五”核心任务,涵盖109项举措重点包括:七方面成就、20项目标指标、十项年度任务(科技自立、民生保障、绿色转型等),以及国防、外交、港澳台等领域政策突出安全与发展统筹,强化新质生产力培育,推动城乡融合与高水平开放,贯彻“一国两制”与强军思想,勾勒出全面建设现代化国家的行动路径。
AI赋能项目管理全周期:从战略到落地的智能革命 【核心价值】通过自动化工具与数据分析重构传统管理流程,显著提升决策精准度与执行效率 【场景覆盖】 1. 全周期支持:覆盖启动(战略匹配)、规划(风险预测)、执行(实时监控)、收尾(知识沉淀)四大阶段 2. 关键突破:智能生成合同/验收文档、自动追踪变更请求、实时预警范围蔓延、动态优化冲刺计划 3. 持续改进:自动化归档经验教训、量化复盘项目效益、生成多维分析报告(EVA/KPI/成本效益) 【独特优势】将重复劳动转化为算法驱动,释放管理者精力聚焦战略创新。
"即梦4.5:你的全能AI图像魔法师! 即梦图片4.5来了,相较于4.0有整体提升,在人像场景和美观度等4.0高频反馈问题上,4.5得到显著改善,同时在画面美感和推理能力也有所增强。 为帮助广大朋友用好即梦,整理了即梦提示词,包括支持单图/多图编辑、文生图风格定制,涵盖超清修复、人像精修、材质替换等20 功能可自由调整尺寸、光影、构图,更换服装/发型/表情,甚至修改文字内容和字体内置民族风、潮流艺术、摄影美学等热门风格模板,还能线稿上色、修复老照片无论是海报设计、元素增删,还是背景/材质/景别变换,一句话指令即可实现视觉蜕变!"
社区模板帮助中心,点此进入>>
2026年政府工作报告全景解读:迈向高质量发展的关键蓝图 报告系统总结2025年工作,部署“十五五”核心任务,涵盖109项举措重点包括:七方面成就、20项目标指标、十项年度任务(科技自立、民生保障、绿色转型等),以及国防、外交、港澳台等领域政策突出安全与发展统筹,强化新质生产力培育,推动城乡融合与高水平开放,贯彻“一国两制”与强军思想,勾勒出全面建设现代化国家的行动路径。
AI赋能项目管理全周期:从战略到落地的智能革命 【核心价值】通过自动化工具与数据分析重构传统管理流程,显著提升决策精准度与执行效率 【场景覆盖】 1. 全周期支持:覆盖启动(战略匹配)、规划(风险预测)、执行(实时监控)、收尾(知识沉淀)四大阶段 2. 关键突破:智能生成合同/验收文档、自动追踪变更请求、实时预警范围蔓延、动态优化冲刺计划 3. 持续改进:自动化归档经验教训、量化复盘项目效益、生成多维分析报告(EVA/KPI/成本效益) 【独特优势】将重复劳动转化为算法驱动,释放管理者精力聚焦战略创新。
"即梦4.5:你的全能AI图像魔法师! 即梦图片4.5来了,相较于4.0有整体提升,在人像场景和美观度等4.0高频反馈问题上,4.5得到显著改善,同时在画面美感和推理能力也有所增强。 为帮助广大朋友用好即梦,整理了即梦提示词,包括支持单图/多图编辑、文生图风格定制,涵盖超清修复、人像精修、材质替换等20 功能可自由调整尺寸、光影、构图,更换服装/发型/表情,甚至修改文字内容和字体内置民族风、潮流艺术、摄影美学等热门风格模板,还能线稿上色、修复老照片无论是海报设计、元素增删,还是背景/材质/景别变换,一句话指令即可实现视觉蜕变!"
DAMA 知识地图 第13章 数据质量(10题)
定义
1.数据质量
定义
达到数据消费者的期望和需求
挑战
与质量相关的期望并不总是已知的
目标原则
目标
根据消费者要求,提高数据质量
根据数据消费者要求,通过改变流程和系统以及参与可显著改善数据质量的活动,识别和倡导提高数据质量的机会。
1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。
2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分。
3)定义和实施测量、监控和报告数据质量水平的过程。
原则
事前
1)重要性
数据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定。
3)预防
数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简单的纠正记录上。
5)治理
数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境。
6)标准驱动
数据生命周期中的所有利益相关方都会有数据质量要求。在可能的情况下,对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义。
8)嵌入业务流程
业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准。
10)与服务水平关联
数据质量报告和问题管理应纳入服务水平协议(SLA)。
事中
7)客观测量和透明度
数据质量水平需要得到客观、一致的测量。应该与利益相关方一同讨论与分享测量过程和测量方法,因为他们是质量的裁决者。
4)根因修正
提高数据质量不只是纠正错误,因为数据质量问题通常与流程或系统设计有关,所以提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。
9)系统强制执行
系统所有者必须让系统强制执行数据质量要求。
2)全生命周期管理
数据质量管理应覆盖从创建或采购直至处置的数据全生命周期,包括其在系统内部和系统之间流转时的数据管理(数据链中的每个环节都应确保数据具有高质量的输出)。
概念
关键数据
监管&财务报告+商业.政策&战略+持续经验
2)财务报告。
3)商业政策。
4)持续经营。
5)商业战略,尤其是差异化竞争战略。
理论
3位名人
Strong-Wang消费者看数据
(内在+场景+表达+访问).数据质量
Strong-Wang框架(1996)侧重于数据消费者对数据的看法
数据质量的4个大类及15个指标
(1)内在数据质量
1)准确性
2)客观性
3)可信度。
4)信誉度。
(2)场景数据质量
1)增值性。
2)关联性。
3)及时性。
4)完整性。
5)适量性。
(3)表达数据质量
1)可解释性。
2)易理解性。
3)表达一致性。
4)简洁性。
(4)访问数据质量
1)可访问性。
2)访问安全性。
Thomas Redman《信息时代的数据质量》
20个维度
Thomas Redman在《信息时代的数据质量》.20个维度
1)数据模型
1)内容。
①数据关联性。
制定了一套基于数据结构的数据质量维度
将一个数据项定义为“可表示的三元组”
一个实体属性域与值的集合
维度可以与数据的任何组成部分相关联
模型(实体和属性)及其值
实体、价值和表达的一致性可以通过约束来理解,不同类型的一致性受不同类型的约束
②获取价值的能力。
③定义清晰性。
2)详细程度。
①特征描述颗粒度。
(2)属性域的精准度
1)构成。
①自然性。每个属性在现实世界中应该有一个简单的对应物,且每个属性都应承载一个关于实体的单一事实
②可识别性。每个实体都应能与其他实体区分开来。
③同一性。
④最小必要冗余性。
2)一致性。
①模型各组成部分的语义一致性。
②跨实体类型属性的结构一致性。
3)应变性。
①健壮性。
②灵活性。
4)数据值。
①准确性。
②完备性。
③时效性(Currency)。
④一致性。
5)数据表达。
①适当性。
②可解释性。
③可移植性。
④格式精确性。
⑤格式灵活性。
⑥表达空值的能力。
⑦有效利用存储。
⑧数据的物理实例与其格式一致。
Larry English《改善数据仓库和业务信息质量》
固有质量特征
1)定义的一致性。
2)值域的完备性。
3)有效性或业务规则一致性。
4)数据源的准确性。
5)反映现实的准确性。
6)精确性。
7)非冗余性。
8)冗余或分布数据的等效性。
9)冗余或分布数据的并发性。
实用质量特征
1)可访问性。
2)及时性。
3)语境清晰性。
4)可用性。
5)多源数据的可整合性。
6)适当性或事实完整性。
2013年,DAMA UK白皮书.6个核心维度
完备/唯一+及时/有效+准确/一致
1)完备性
存储数据量与潜在数据量的百分比。
2)唯一性
在满足对象识别的基础上不应多次记录实体实例(事物)。
3)及时性
数据从要求的时间点起代表现实的程度。
4)有效性
如数据符合其定义的语法(格式、类型、范围),则数据有效。
5)准确性
数据正确描述所描述的“真实世界”对象或事件的程度。
6)一致性
比较事物多种表述与定义的差异。
DAMA UK工作方式类似于 Strong-Wang的语境和表达数据质量特征,以及English的实用性特征
戴明.PDCA.数据质量改进生命周期
A.开始
①现有测量值低于阈值
③对现有数据集提出新要求
④业务规则、标准或期望变更
②新数据集正在调查中
8.数据质量问题的常见原因
缺乏领导力+数据.输入&处理+系统设计
(2)数据输入过程引起的问题
1)数据输入接口问题
设计不当的数据输入接口可能导致数据质量问题。如果数据输入接口没有编辑或控件防止不正确的数据被录入系统,则数据处理人可能会采取快捷方式处理数据,如跳过非强制字段和不更新有默认值的字段。
2)列表条目放置
即使是数据输入界面的一个简单小功能,如下拉列表中的值顺序,也可能导致数据输入错误。
3)字段重载
随着时间的推移,有些组织会出于不同的商业目的重复字段,而不是更改数据模型和用户界面。这种做法会导致字段内数据不一致和混乱。
4)培训问题
即使控制和编辑到位,缺乏过程知识也会导致错误的数据输入。如果数据处理人不知道错误数据的影响,或者鼓励数据处理人提高录入效率而忽视录入准确性,则他们可能会根据数据质量以外的驱动因素做出选择。
5)业务流程的变更
业务流程随着时间的推移而变化,在变化过程中引入了新的业务规则和数据质量要求。但是,这些业务规则更改并不总能被及时或全面地纳入系统。如果接口未升级以适应新的或更改的需求,将导致数据错误。此外,除非在整个系统中宣导业务规则的更改,否则数据很可能会受到影响。
6)业务流程执行混乱
通过混乱的流程创建的数据很可能不一致。混乱的流程可能是由培训或文档编制问题以及需求的变化导致的。
(3)数据处理功能引起的问题
1)有关数据源的错误假设
问题可能是由多种原因导致:错误或变更、系统文档不完整或过时,或知识转移不充分(如当领域专家(SME)离开时没有记录他们的知识)。通常,基于对系统之间关系的有限知识来完成系统整合活动,如与并购相关的活动。当需要集成多个源系统并进行数据反馈时,总有可能遗漏细节,特别是在不同层次的源系统知识以及紧张的时间安排下。
2)过时的业务规则
随着时间的推移,业务规则会发生变化,应定期对业务规则进行审查和更新。如果有自动测量规则,测量规则的技术也应更新。如果没有更新,可能无法识别问题或产生误报(或两者都有)。
3)变更的数据结构
源系统可以在不通知下游消费者(包括人和系统)或没有足够时间让下游消费者响应变更的情况下变更结构。这可能会导致无效的值或阻止数据传送和加载,或者导致下游系统无法立即检测到的更细微的改变。
(4)系统设计引起的问题
1)未能执行参照完整性
参照完整性对于确保应用程序或系统级别的高质量数据是必要的。如果没有强制执行参照完整性,或者关闭了验证(如为了提高响应时间),则有可能出现各种数据质量问题:
①产生破坏唯一性约束的重复数据。
②既可以包含,又可以排除在某些报表中的孤儿数据,导致同样的计算生成多个值。
③由于参照完整性要求已还原或更改,无法升级。
④由于丢失的数据被分配为默认值而导致数据准确性。
2)未执行唯一性约束
表或文件中的多个数据实例副本预期包含唯一实例。如果对实例的唯一性检查不足,或者为了提高性能而关闭了数据库中的唯一约束,则可能高估数据聚合的结果。
3)编码不准确和分歧
如果数据映射或格式不正确,或处理数据的规则不准确,处理过的数据就会出现质量问题,如计算错误、数据被链接或分配到不匹配的字段、键或者关系等。
4)数据模型不准确
如果数据模型内的假设没有实际数据的支持,则会出现数据质量问题,包括实际数据超出字段长度导致数据丢失、分配不正确ID或键值等。
5)字段重载
随着时间的推移,为了其他目的重用字段,而不是更改数据模型或代码,可能会导致混淆的值集、不明确的含义,以及潜在的结构问题,如分配错误的键值。
6)时间数据不匹配
在没有统一数据字典的情况下,多个系统可能会采用不同的日期格式或时间,当不同源系统之间的数据同步时,反过来会导致数据不匹配和数据丢失。
7)主数据管理薄弱
不成熟的主数据管理可能为数据选择不可靠的数据源,导致数据质量问题,在数据来源准确的假设被推翻之前很难找到这些问题。
8)数据复制
不必要的数据复制通常是数据管理不善造成的。有害的数据复制问题主要有两种:
①单源-多个本地实例。例如,同一个客户的信息保存在同一数据库中多个类似或内容相同名字不同的表中。如果没有系统的、特定的知识,很难知道哪一个实例最适合使用。
②多源-单一本地实例。具有多个权威来源或记录系统的数据实例。例如,来自多个销售点系统的单个客户实例。处理此类数据时,可能会产生重复的临时存储区域,当把其处理为永久性的生产数据区时,合并规则决定哪个“源”具有更高的优先级。
有效管理数据质量障碍
1)领导和员工缺乏意识。
2)缺乏治理。
3)缺乏领导力和管理能力。
4)难以证明改进的合理性。
5)测量价值的工具不合适或不起作用
9.数据剖析
检查数据+评估质量
评估信息
空值数+最大/最小值+最大/最小长度+单个列值的频率分布
1)空值数
标识空值存在,并检查是否允许空值。
2)最大/最小值
识别异常值,如负值。
3)最大/最小长度
确定具有特定长度要求的字段的异常值或无效值。
4)单个列值的频率分布
能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值的检查,以及用默认值填充的记录百分比)。
5)数据类型和格式
识别不符合格式要求的水平,以及意外格式识别(如小数位数、嵌入空格、样本值)。
10.数据质量和数据处理
数据清理/增强/解析和格式化
业务驱动
驱动因素
1)提高组织数据价值和数据利用的机会。
2)降低低质量数据导致的风险和成本。
3)提高组织效率和生产力。
4)保护和提高组织的声誉。
高质量数据比低质量数据更有价值
低质量数据导致直接成本
1)无法正确开具发票。
2)增加客服电话量,降低解决问题的能力。
3)因错失商业机会造成收入损失。
4)影响并购后的整合进展。
5)增加受欺诈的风险。
6)由错误数据驱动的错误业务决策造成损失。
7)因缺乏良好信誉而导致业务损失。
技术驱动
方法
质量检查和审核代码模块
工具
统计控制过程
控制图
根本原因分析
帕累托
鱼骨图
跟踪和追踪
过程分析
5why
活动
定义高质量数据
价值
1)“高质量数据”是什么意思?
2)低质量数据对业务运营和战略的影响是什么?
3)更高质量的数据如何赋能业务战略?
标准
5)对低质量数据的容忍度是多少?
改进
4)数据质量改进需要哪些优先事项的推动?
6)为支持数据质量改进而实施的治理是什么?
组织
7)配套实施的治理结构是什么?
定义数据质量战略
框架
规划
1)了解并优先考虑业务需求。
2)确定满足业务需求的关键数据。
3)根据业务需求定义业务规则和数据质量标准。
10)将数据质量控制集成到业务和技术流程中。
管理
6)优先处理和管理问题。
7)确定并优先考虑改进机会。
9)管理通过数据质量流程生成的元数据。
监控
8)测量、监控和报告数据质量。
4)根据预期评估数据。
5)分享调查结果,并从利益相关方那里获得反馈。
识别关键数据和业务规则
执行初始数据质量评估
识别改进方向并确定优先排序
定义数据质量改进目标
妨碍改进工作因素
系统限制
数据龄期
正在进行的使用有问题数据的项目
数据环境的总体复杂性
文化变革阻力
确定改进投资回报率考虑
1)受影响数据的关键性(重要性排序)。
2)受影响的数据量。
3)数据的龄期。
4)受问题影响的业务流程数量和类型。
5)受问题影响的消费者、客户、供应商或员工数量。
6)与问题相关的风险。
7)纠正根本原因的成本。
8)潜在的工作成本。
开发和部署数 据质量操作
1.管理数据质量规则
2.测量和监控数据质量
通过将控制和度量过程纳入信息处理流程进行持续的监控
可以通过流程或批处理的方式对数据质量规则的一致性进行自动监控
在三个粒度级别上进行度量:数据元素值、数据实例或记录、数据集。
3.制定管理数据问题的操作过程
诊断问题/制定补救方案/解决问题
4.制定数据质量服务水平协议
5.编写数据质量报告
1)数据质量评分卡
可从高级别的视角提供与各种指标相关的分数,并在既定的阈值内向组织的不同层级报告。
2)数据质量趋势
随时间显示数据质量是怎样被测量的,以及数据质量趋势是向上还是向下。
3)服务水平协议(SLA)指标
例如,运营数据质量人员是否及时诊断和响应数据质量事件。
4)数据质量问题管理
监控问题和解决方案的状态。
5)数据质量团队与治理政策的一致性。
6)IT和业务团队对数据质量政策的一致性。
7)改善项目带来的积极影响。
方法
措施
预防措施+预防措施(自动/人工检查/人工.修正)
纠正措施
自动修正+人工检查修正+人工修正
人工检查修正
人工修正
有效数据质量指标
可度量性+可接受
3)可接受性
数据质量指标构成了数据质量的业务需求,根据已确定的指标进行量化提供了数据质量级别的有力证据。根据指定的可接受性阈值确定数据是否满足业务期望。如果得分等于或超过阈值,则数据质量满足业务期望;如果得分低于阈值,则不满足。
数据质量指标必须是可度量的——它必须是可被量化的东西。例如,数据相关性是不可度量的,除非设置了明确的数据相关性标准。即便是数据完整性这一指标也需要得到客观的定义才能被测量。预期的结果应在离散范围内可量化。
业务相关性+问责/管理制度
4)问责/管理制度
关键利益相关方(如业务所有者和数据管理专员)应理解和审核指标。当度量的测量结果显示质量不符合预期时,会通知关键利益相关方。业务数据所有者对此负责,并由数据管理专员采取适当的纠正措施。
虽然很多东西是可测量的,但并不能全部转化为有用的指标。测量需要与数据消费者相关。如果指标不能与业务操作或性能的某些方面相关,那么它的价值是有限的。每个数据质量指标都应该与数据对关键业务期望的影响相关联。
其它
可控制性+趋势分析
6)趋势分析
指标使组织能够在一段时间内测量数据质量改进的情况。跟踪有助于数据质量团队成员监控数据质量SLA和数据共享协议范围内的活动,并证明改进活动的有效性。一旦信息流程稳定后,就可以应用统计过程控制技术发现改变,从而实现其所研究的度量结果和技术处理过程的可预测性变化。
指标应反映业务的可控方面。换句话说,如果度量超出范围,它应该触发行动来改进数据。如果没有任何响应,那么这个指标可能没有什么用处。
度量指标
投资回报/质量水平/数据质量趋势/问题管理指标