导图社区 DAMA-CDGA数据治理工程师-12.元数据管理
元数据管理可以帮助组织理解其自身的数据、系统、流程,同时帮助用户评估数据质量,对数据库和其他应用程序的管理来说不可或缺,它有助于处理、维护、集成、保护和治理其他数据。
编辑于2024-03-05 20:29:49不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
社区模板帮助中心,点此进入>>
不是因为新组织宣布成立或新系统实施上线就要变革,而是人们认识到变革带来的价值而发生行为变化时,变革就会发生。
随着数据领域的快速发展,组织需要改进管理和治理数据的方式,数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效的工作,因此,它们需要澄清关于所有权、协作、职责和决策的基本问题。
能力成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。
12.元数据管理
引言
概述
1、技术角度:元数据
2、业务角度:数据资源目录
3、数据资源目录≠数据资产目录
4、元数据管理原则:应归尽归、应收尽收,即资源目录一定要完整
定义
是“数据的数据”
描述
数据本身
数据库、数据元素、数据模型
数据表示的概念
业务流程、应用系统、软件代码、技术基础设施
数据与概念之间的联系
关系
意义
元数据可以帮助组织理解其自身的数据、系统、流程,同时帮助用户评估数据质量,对数据库和其他应用程序的管理来说不可或缺
它有助于处理、维护、集成、保护和治理其他数据
如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、如何在系统中流转、谁有权访问它、对于数据保持高质量的意义
如果没有元数据,组织就不能将其数据作为资产进行管理
实际上,如果没有元数据,组织可能根本无法管理其数据
业务驱动因素
数据管理需要元数据,元数据本身也需要管理
良好管理元数据有助于
通过提供上下文语境和执行数据质量检查提高数据的可信度
通过扩展用途增加战略信息(如主数据)的价值
通过识别冗余数据和流程提高运营效率
防止使用过时或不正确的数据
减少数据的研究时间
改善数据使用者和IT专业人员之间的沟通
创建准确的影响分析,从而减低项目失败的风险
通过缩短系统开发生命周期时间缩短产品上市时间
通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响
满足监管合规
元数据管理不善容易导致以下问题
冗余的数据和数据管理流程
重复和冗余的字典、存储库和其他元数据存储
不一致的数据元素定义 和数据滥用的风险
元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心
怀疑元数据和数据的可靠性
良好的元数据管理工作,可以确保对数据资源的一致理解和更加高效的跨组织开发使用
目标和原则
终极目标:查询和分析
目标
记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性
收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似与差异
确保元数据的质量、一致性、及时性和安全
提供标准途径,使元数据使用者可以访问元数据
推广或强制使用技术元数据标准,以实现数据交换
原则
组织承诺
战略
元数据战略必须与业务优先级保持一致
企业视角
从企业视角确保未来的可扩展性,通过迭代和增量交付来实现
潜移默化
潜移默化其价值将鼓励业务使用元数据,同时为业务提供知识辅助
访问
确保员工了解如何访问和使用元数据
质量
元数据通常是通过现有流程(数据建模、SDLC、业务流程定义)生成的,所以流程所有者应对元数据的质量负责
审计
制定、实施和审核元数据标准,以简化元数据的集成和使用
改进
创建反馈机制,以便数据使用者将错误的或者过时的元数据反馈给元数据管理团队
基本概念
元数据与数据
元数据也是一种数据,应该用数据管理的方式进行管理
元数据的类型
业务元数据
主要关注数据的内容和条件,另包括与数据治理相关的详细信息
技术元数据
提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息
操作元数据
描述了处理和访问数据的细节
ISO/IEC11179元数据注册标准
提供了用于定义元数据注册的框架
非结构化数据的元数据
从本质上说,所有数据都是有一定结构的,但并非所有数据都是以行、列的形式在我们熟悉的关系型数据库中记录的
任何不在数据库或数据文件中的数据都被认为是非结构化数据
包括
描述元数据
结构元数据
管理元数据
书目元数据
记录元数据
保存元数据
希望利用数据湖、使用Hadoop等大数据平台的组织发现,它们必须对采集的数据进行编目,以便后期访问
在多数情况下,收集元数据作为数据采集流程的一部分,需要收集关于在数据湖中采集的每个对象的最小元数据属性集(如名称、格式、来源、版本、接收日期等),这将生成数据湖内容的目录
元数据的来源
应用程序中元数据存储库
元数据存储库指存储元数据的物理表,这些表通常内置在建模工具、BI工具和其他应用程序中
业务术语表
业务术语表的作用是记录和存储组织的业务概念、术语、定义以及这些术语之间的关系
与所有面向数据的系统一样,设计业务术语表应该考虑具有不同角色和职责的硬件、软件、数据库、流程和人力资源
业务词汇表应用程序的构建需要满足三个核心用户的功能需求
业务用户
数据分析师、研究分析师、管理人员和使用业务术语表来理解术语和数据的其他人员
技术用户
技术用户使用业务术语表设计架构、设计系统和开发决策并进行影响分析
数据管理专员
数据管理专员使用业务术语表管理和定义术语的生命周期,并通过数据资产与术语表相关联增强企业知识
商务智能工具
商务智能工具生成与商务智能设计相关的各类元数据
配置管理工具
配置管理工具或数据库CMDB提供了管理和维护IT资产、它们之间的关系以及资产的合同细节相关的元数据的功能
数据字典
数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库
一个数据库一个数据字典,每个数据库中的数据字典并不通用
数据集成工具
许多数据集成工具用于可执行文件将数据从一个系统移动到另一个系统,或在同一个系统中的不同模块之间移动
数据库管理和系统目录
数据库目录是元数据的重要来源,它们描述了数据库的内容、信息大小、软件版本以及其他操作元数据属性
最常见的数据库形式是关系型的,关系型数据库将数据作为一组表和列进行管理
元数据解决方案应该能够连接到各种数据库和数据集,并读取数据库公开的所有元数据
数据映射管理工具
映射管理工具用于项目的分析和设计阶段,它将需求转换为映射规范,然后由数据集成工具直接使用或由开发人员用来生成数据集成代码
数据质量工具
数据质量工具通过验证规划来评估数据质量
字典和目录
数据字典和术语表包含有术语、表和字段的详细信息,但是字典或目录包含有相关组织捏数据的系统、源和位置信息
事件消息工具
事件消息工具在不同系统之间移动数据,需要大量的元数据,并生成描述词移动的元数据
建模工具和存储库
数据建模工具用于构建各种类型的数据模型:概念模型、逻辑模型和物理模型
参考数据库
参考数据记录各种类型的枚举数据的业务价值和描述,在系统中的上下文中使用
注册服务
其他元数据存储
元数据架构的类型
集中式元数据架构
集中式元数据架构有单一的元数据存储库组成,包括来自各自不同源的元数据副本
IT资源有限的组织或者那些追求尽可能实现自动化的组织,可能会选择避免使用此架构选项
在公共元数据存储库中寻求高度一致性的组织,可以从集中式元数据架构中收益
优点
高可用性,因为它独立于源系统
快速的元数据检索,因为存储库和查询功能在一起
解决了数据库结构问题,使其不受第三方或商业系统特有属性的影响
抽取元数据时可进行转换、自定义或使用其他源系统中的元数据进行补充,提高元数据质量
缺点
必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中
维护集中式存储库的成本可能很高
元数据的抽取可能需要自定义模块或中间件
流程
集中式存储库公开了一个门户,供最终用户提交查询
元数据门户将请求传递到集中式元数据存储库,集中式存储库将以收集的元数据满足请求
由于在集中式存储库中收集了各种元数据,因此可以对各种工具收集的元数据进行全局搜索
分布式元数据架构
一个完全分布式的架构中维护了一个单一的接入点
元数据搜索引擎通过实时从源系统检索数据来响应用户请求
分布式元数据架构没有持久化的数据库
优点
元数据总是尽可能保持最新且有效,因为它是从其数据源中直接检索的
查询时分布式的,可能会提高响应和处理效率
来自专有系统的元数据请求仅限于查询处理,而不需要详细了解专有数据结构,因此最大限度地减少了实施和维护所需的工作量
自动化元数据查询处理的开发可能更简单,只需要很少的人工干预
减少了批处理,没有元数据复制和同步过程
缺点
无法支持用户定义或手动插入的元数据项,因为没有存储库可以放置这些添加项
需要通过统一的、标准化的展示方式呈现来自不同系统的元数据
查询功能受源系统可用性的影响
元数据的治理完全取决于源系统
流程
没有集中式元数据存储库,门户会将用户的请求传递给相应的工具来执行
由于没有从各种工具收集元数据进行集中存储,必须将每个请求委托给源系统,因此不具有跨各种元数据源进行全局搜索的功能
混合式元数据架构
混合架构结合了集中式和分布式架构的特性,元数据仍然直接从源系统移动到集中式存储库,但存储库设计仅考虑用户添加的元数据、重要的标准化元数据以及通过手工来源添加的元数据
该架构得益于从源头近乎实时地检索元数据和扩充元数据,可在需要时最有效的满足用户需求
基于用户的优先级和要求,元数据在使用时尽可能是最新且有效地
混合架构不会提高系统可用性
对于快速变化的操作元数据的组织,需要一致、统一的元数据组织,以及在元数据和元数据源正在大幅增长的组织有益
对于大多静态元数据或元数据量较小元数据增量的组织,可能无法发挥其潜力
双向元数据架构
它允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈
活动
定义元数据战略
理解元数据需求
定义元数据架构
创建元模型
创建一个元数据存储库的数据模型,也叫元数据,是定义元数据战略和理解业务需求后的第一个设计步骤
应用元数据标准
管理元数据存储
创建和维护元数据
整合元数据
对元数据存储库的扫描 有两种不同的方式
专用接口
采用单步方式
扫描程序从来源系统中采集元数据,直接调用特定格式的装载程序,将元数据加载到元数据存储中
在此过程中,不需要输出任何中间元数据文件,元数据的采集和装载也是一步完成的
半专用接口
采用两步方式
扫描程序从来源系统中采集元数据,并输出到特定格式的数据文件中
扫描程序只产生目标存储库能够正确读取和加载的数据文件
数据文件可以被多种方式读取,所以这种接口的架构更加开放
可以使用一个非持久的元数据暂存区记性临时和备份文件的存储,暂存区应支持回滚和恢复处理,并提供临时审计跟踪信息,这样有助于存储库管理员追踪元数据来源或质量问题
暂存区可以采用文件目录或数据库的形式
分发和传递元数据
查询、报告和分析元数据
工具
管理元数据的主要工具是元数据存储库
元数据管理工具提供了在集中位置存储库管理元数据的功能
元数据可以手动输入,也可以通过专门的连接器从其他各种源中提取
元数据存储库还提供与其他系统交换元数据功能
方法
数据血缘和影响分析
发现和记录数据资产的元数据的一个重要意义在于提供了数据如何在系统间转移的信息
数据血缘创建的局限性在于元数据管理系统的覆盖范围
特定功能的元数据存储库或数据可视化工具在其管理范围内提供数据血缘的信息,超出管理范围时将无法提供相关信息
元数据管理系统通过可以提供数据血缘详情的工具导入“实现态血缘”,并从无法自动抽取的“设计态血缘”文件中获取实施细节加以补充
将数据血缘的各个部分连接起来的过程称为“拼接”,拼接结果是表示数据从原始位置转移到最终位置的全景视图
想要成功发现数据血缘关系,需要兼顾业务焦点和技术焦点
业务焦点
根据业务优先级寻找数据元的血缘关系
从目标位置回溯到具体数据起源的源系统
技术焦点
从源系统开始识别直接相关的数据使用者,依次识别间接的数据使用者,指导识别出所有系统为止
数据血缘
从下到上
影响分析
从上到下
应用于大数据采集的元数据
无论是内部,还是外部,都不再需要移动数据到物理环境下同一位置
通过新技术,程序将围绕数据,而不是把数据移动到程序里,这样可以减少大量的数据移动,并提高程序执行速度
实施指南
就绪评估/风险评估
组织和文化变革
子主题
元数据治理
过程控制
元数据解决方案的文档
元数据标准和指南
度量指标
元数据存储库完整性
元数据管理成熟度
专职人员配备
元数据使用情况
业务术语活动
主数据服务数据遵从性
元数据文档质量
元数据存储库可用性