导图社区 DAMA-CDGA数据治理工程师-10.参考数据和主数据
主数据和参考数据管理确保组织在各个流程中都拥有完整、一致、最新且最权威的参考数据和主数据,通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。
编辑于2024-03-05 20:27:15不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
社区模板帮助中心,点此进入>>
不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
10.参考数据和主数据
引言
概述
1、主数据:对共享的数据,通过建设数据标准从而提高数据质量
2、主数据的难点:如何识别主数据
3、如何识别
实体是否共享
重要的、相对稳定的属性
背景
在任何组织中,都存在一些需要跨业务领域、跨流程和跨系统使用的数据
如果这些数据共享,那么整个组织及客户都会从中受益
数据驱动型组织活动通常侧重于交易数据(增加销售或市场份额、降低成本、展示遵从性等),但利用此类交易数据的能力高度依赖参考数据和主数据的可用性和质量
主数据管理驱动因素
满足组织数据需求
组织中多个业务领域需要访问相同的数据集,并且他们相信这些数据集是完整的、最新的、一致的
主数据是这些数据集的基础
管理数据质量
主数据管理通过使用统一的标识来定义对组织至关重要的实体
管理数据集成成本
在没有主数据的情况下,将新数据源集成到一个已经很复杂的环境中成本会更高
这减少了因对关键实体的定义和识别方式的变化而产生的额外成本
降低风险
主数据简化了数据共享架构,从而降低风险
参考数据管理驱动因素
通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本
提升数据质量
目标
确保组织在各个流程中都拥有完整、一致、最新且最权威的参考数据和主数据
促使企业在各个业务单元和各应用系统之间共享参考数据和主数据
通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性
原则
共享数据
为了能在组织中实现参考数据和主数据共享,必须把这些数据管理起来
所有权
参考数据和主数据所有权应属于组织,而不是属于某个系统或部门
因为需要广泛共享,所以需要全局的组织管理
质量
参考数据和主数据需要持续的数据质量监控和质量
管理职责
业务数据管理专员要对控制和保证参考数据的质量负责
控制变更
在给定的时间点,主数据值应该代表组织对准确和最新内容的最佳理解
改变数据值的匹配规则,应在有关监督下谨慎运用
任何合并或拆分主数据和参考数据的操作都应该是可追溯的
对参考数据的更改应该遵循一个明确的流程:在实施变更之前应该进行沟通并得到批准
权限
主数据值应该仅从记录系统中复制
为了实现跨组织的主数据共享,可能需要建立一个参考数据管理系统
基本概念
主数据和参考数据的区别
主数据
主数据需要为概念实体的每个实例识别和开发可信的实例版本,并维护该版本的时效性
主数据面临的挑战是实体解析,它是识别和管理来自不同系统和流程的数据之间的关联过程
每行主数据表示的实体、实例在不同的系统中有不同的表达方式
主数据管理工作就是为了消除这些差异,以便在不同环境中一致的识别单个实体、实例
需要注意,必须对这个过程进行持续的管理,以便让这些主数据实体、实例的标识保持一致
相似
两者都为交易数据的创建和使用提供重要的上下文信息(参考数据也为主数据提供上下文)以便理解数据的含义
两者都是在企业层面上被管理的共享资源
如果相同的参考数据拥有多个实例就会降低效率,并会不可避免的导致实例间的不一致,不一致就会导致歧义,歧义就会给组织带来风险
不同
参考数据不易变化,它的数据集通常会比交易数据集或主数据集小、复杂度低,拥有的列和行也更少
参考数据管理不包括实体解析的挑战
管理重点不同
参考数据管理
需要对定义的域值及其定义进行控制
目标是确保组织能够访问每个概念的一整套准确且最新的值
主数据管理
需要对主数据的值和标识符进行控制,以便能够跨系统的、一致的使用核心业务实体中最准确、最及时的数据
目标包括确保当前值的准确性和可用性,同时降低由那些不明确的标识符所引发的相关风险
参考数据管理面临的一个挑战是由谁主导或负责参考数据的定义和维护
一些参考数据来源于使用它的组织之外, 它们跨越了组织内部的边界,不只被一个部门所有
其他的参考数据可能会在某个部门中被创建和维护, 但在组织的其他部分具有潜在价值
确定获取数据和管理更新的责任是参考数据管理的一部分
缺乏维护问责会带来风险,因为参考数据中的差异可能会导致对数据上下文的误解
因为主数据和参考数据为交易提供了上下文信息,因此它们在企业运营过程中塑造了进入组织的交易数据,并支持对交易数据的框架分析
参考数据
是指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据
参考数据管理需要控制和维护定义的域值、定义以及域值间的值
参考数据管理的目标是确保不同功能之间引用的值是一致的、最新的,并且组织内部均可以访问这些数据
与其他数据一样,参考数据也需要元数据
参考数据的一个重要元数据属性就包括其来源,如行业标准参考数据的管理机构
参考数据结构
列表
最简单的参考数据是由代码值和代码描述组成的列表
交叉参考数据列表
不同的应用程序可以使用不同的代码集表示相同的概念
交叉引用数据集可以在代码值之间转换
分类法
分类参考数据体系根据不同级别的差异性获取信息
分类参考数据可以按递归关系存储
本体
一些组织将用于管理网站内容的本体作为参考数据的一部分,这是因为本体模型也被用来描述其他数据或组织数据与组织边界之外的信息联系起来
本体模型可以理解为是元数据的一种形式
维护本体的最佳实践类似于参考数据管理的最佳实践
本体的主要用例之一是内容管理
专有或内部参考数据
许多组织通过创建参考数据来支持内部流程和应用
行业参考数据
用于描述由行业协会或政府机构而不是由某个组织创建和维护的数据集,以便为编码重要的概念提供一个通用的标准
例如,国际疾病分类代码ICD提供了一种常见的方法对健康状况和治疗进行分类
地理或地理统计参考数据
可根据地理信息进行分类或分析
例如,人口普查局关于人口密度的报告、将历史气象信息对于到严格的地理分类
计算参考数据
很对商业活动都依赖使用一些通用的、持续计算的数据
例如,外汇计算依赖于良好管理、及时更新的汇率表
计算参考数据与其他类型参考数据的主要区别在于其变化的频率
标准参考数据集的元数据
和其他数据一样,参考数据也会随着时间的变化而变化
由于它被普遍运用于各种组织中,所以维护参考数据集的关键数据是非常重要的,这样做可以确保它们的血缘和流转过程得到理解和维护
主数据
主数据是有关业务实体的数据,这些实体为业务交易和分析提供了语境信息
实体是客观世界的对象
实体被实体、实例以数据、记录的方式表示
主数据应该代表与关键业务实体有关的权威的、最准确的数据
记录系统,参考系统
当可能有不同版本的“事实”存在时,就有必要对它们加以区分
为了做到这一点,必须知道数据从哪里来,或者在哪里被访问,以及准备这些数据的具体用途和目的
记录系统是一个权威的系统,它通过使用一套定义好的规则和预期来创建、获取并维护数据
参考系统也是一个权威的系统,数据消费者可以从参考系统重获得可靠的数据来支持交易和分析,即使这些信息并非起源于参考系统
主数据管理应用MDM、数据共享中心DSH和数据仓库DW通常会被用作参考系统
可信来源,黄金记录
可信来源被认为是“事实的最佳版本”
在可信来源中,表示一个实体、实例的最准确数据的记录可以被称为黄金记录
主数据管理
主数据管理只有做到对主数据值和标识符的控制,才能保证在系统间实现对核心业务实体最准确、最及时的数据的一致使用
目标包括确保准确的、最新的值的可用性,同时降低不明确标识符的风险
步骤
识别能够提供主数据实体全面视图的候选数据源
为精确匹配和合并实体、实例制定规则
建立识别和恢复未恰当匹配或合并的数据的方法
建立可信数据分发到整个企业的系统中的方法
主数据管理的关键处理步骤
数据模型管理
数据采集
数据验证、标准化和数据丰富
实体解析和标识符管理
参与方主数据
是关于个人、组织以及他们在业务关系中扮演角色的数据
财务主数据
包括有关业务部门、成本中心、利润中心、总账账户、预算、计划和项目的数据
法律主数据
包括关于合同、法规和其他法律事务的数据
产品主数据
产品生命周期管理PLM
产品数据管理PDM
企业资源规划ERP
制造执行系统MES
客户关系管理CRM
位置主数据
提供跟踪和共享地理信息的能力,并根据地理信息创建层次关系或地图
行业主数据--参考目录
参考目录是主数据实体(公司、人员、产品等)的权威清单,组织可以购买和使用主数据实体作为交易的基础
数据共享架构
注册表
注册表是指向多种记录系统中主数据记录的索引
记录系统管理应用程序本地的主数据,可以根据主索引访问主数据
注册表相对容易实现,因为它很少需要对记录系统进行变更
交易中心
在该种方法中,各应用程序与中心系统交互,实现对主数据的访问和更新
主数据存在于交易中心内,而不存在于任何其他的应用程序中
交易中心是主数据的记录系统
混合模式
混合模式是注册表和交易中心的混合体
记录系统管理应用程序本地的主数据
主数据在一个公共存储库中被合并,并经由数据共享中心实现共享,消除了从记录系统中直接进行访问的需要
活动
主数据管理活动
识别驱动因素和需求
评估和评价数据源
定义架构方法
建模主数据
定义管理职责和维护过程
建立治理制度,推动主数据使用
参考数据管理活动
定义驱动因素和需求
评估数据源
定义架构方法
建模参考数据
定义管理职责和维护流程
建立参考数据治理制度
工具和方法
主数据管理可以通过数据整合工具、数据修复工具、操作型数据存储ODS、数据共享中心DSH或专门的主数据管理应用来实现
实施指南
遵循主数据架构
建立和遵循适当的参考体系架构,对于管理和共享跨组织的主数据至关重要
检测数据流动
当数据在参考数据和主数据共享环境中流动时,应监控相关数据流,以实现以下目的
显示数据如何在整个组织中共享和使用
在管理系统和应用程序中识别数据的血缘关系
辅助进行问题根因的分析
展示数据整合和消费整合技术的有效性
通过数据消费展示源系统的数据值延迟
确定在集成组件中执行的业务规则和转换的有效性
管理参考数据变更
参考数据的变更请求都应遵循既定的流程
数据共享协议
为了确保恰当的访问和使用,应建立共享协议,规定那些数据可以共享,以及在何种条件下可以共享
组织和文化变革
参考数据和主数据治理
治理过程决定事项
度量指标
数据质量和遵从性
数据变更活动
审核可信数据的血缘对于提高数据共享环境中的数据治理是必要的
数据获取和消费
这些指标应该显示和追踪哪些系统在贡献数据,哪些业务区域在共享环境中订阅数据
服务水平协议
应建立SLA并传达给贡献值和订阅者,以确保整个数据共享环境的使用和采用
数据管理专员覆盖率
这些指标应该关注对数据内容负责的个人或团队,并展示覆盖率的评估频率
拥有总成本
成本可包括环境基础设施、软件许可证、支持人员、咨询费、培训等
数据共享量和使用情况
需要跟踪纳入主数据的数据量和使用情况,以确定数据环境的有效性