导图社区 DAMA 知识地图第8章 数据集成和互操作(5)
备考本章,看这张图就够了。 DAMA数据管理知识体系指南第8章考点总结,本章是DAMA数据管理知识体系的第6个知识领域(DAMA共11个知识领域),按照“定义、目标业务驱动、技术驱动、角色职责、活动”等内容进行描述。考点如图示,比较简单。
编辑于2022-01-24 23:41:592026年政府工作报告全景解读:迈向高质量发展的关键蓝图 报告系统总结2025年工作,部署“十五五”核心任务,涵盖109项举措重点包括:七方面成就、20项目标指标、十项年度任务(科技自立、民生保障、绿色转型等),以及国防、外交、港澳台等领域政策突出安全与发展统筹,强化新质生产力培育,推动城乡融合与高水平开放,贯彻“一国两制”与强军思想,勾勒出全面建设现代化国家的行动路径。
AI赋能项目管理全周期:从战略到落地的智能革命 【核心价值】通过自动化工具与数据分析重构传统管理流程,显著提升决策精准度与执行效率 【场景覆盖】 1. 全周期支持:覆盖启动(战略匹配)、规划(风险预测)、执行(实时监控)、收尾(知识沉淀)四大阶段 2. 关键突破:智能生成合同/验收文档、自动追踪变更请求、实时预警范围蔓延、动态优化冲刺计划 3. 持续改进:自动化归档经验教训、量化复盘项目效益、生成多维分析报告(EVA/KPI/成本效益) 【独特优势】将重复劳动转化为算法驱动,释放管理者精力聚焦战略创新。
"即梦4.5:你的全能AI图像魔法师! 即梦图片4.5来了,相较于4.0有整体提升,在人像场景和美观度等4.0高频反馈问题上,4.5得到显著改善,同时在画面美感和推理能力也有所增强。 为帮助广大朋友用好即梦,整理了即梦提示词,包括支持单图/多图编辑、文生图风格定制,涵盖超清修复、人像精修、材质替换等20 功能可自由调整尺寸、光影、构图,更换服装/发型/表情,甚至修改文字内容和字体内置民族风、潮流艺术、摄影美学等热门风格模板,还能线稿上色、修复老照片无论是海报设计、元素增删,还是背景/材质/景别变换,一句话指令即可实现视觉蜕变!"
社区模板帮助中心,点此进入>>
2026年政府工作报告全景解读:迈向高质量发展的关键蓝图 报告系统总结2025年工作,部署“十五五”核心任务,涵盖109项举措重点包括:七方面成就、20项目标指标、十项年度任务(科技自立、民生保障、绿色转型等),以及国防、外交、港澳台等领域政策突出安全与发展统筹,强化新质生产力培育,推动城乡融合与高水平开放,贯彻“一国两制”与强军思想,勾勒出全面建设现代化国家的行动路径。
AI赋能项目管理全周期:从战略到落地的智能革命 【核心价值】通过自动化工具与数据分析重构传统管理流程,显著提升决策精准度与执行效率 【场景覆盖】 1. 全周期支持:覆盖启动(战略匹配)、规划(风险预测)、执行(实时监控)、收尾(知识沉淀)四大阶段 2. 关键突破:智能生成合同/验收文档、自动追踪变更请求、实时预警范围蔓延、动态优化冲刺计划 3. 持续改进:自动化归档经验教训、量化复盘项目效益、生成多维分析报告(EVA/KPI/成本效益) 【独特优势】将重复劳动转化为算法驱动,释放管理者精力聚焦战略创新。
"即梦4.5:你的全能AI图像魔法师! 即梦图片4.5来了,相较于4.0有整体提升,在人像场景和美观度等4.0高频反馈问题上,4.5得到显著改善,同时在画面美感和推理能力也有所增强。 为帮助广大朋友用好即梦,整理了即梦提示词,包括支持单图/多图编辑、文生图风格定制,涵盖超清修复、人像精修、材质替换等20 功能可自由调整尺寸、光影、构图,更换服装/发型/表情,甚至修改文字内容和字体内置民族风、潮流艺术、摄影美学等热门风格模板,还能线稿上色、修复老照片无论是海报设计、元素增删,还是背景/材质/景别变换,一句话指令即可实现视觉蜕变!"
DAMA 知识地图 第8章 数据集成和互操作(5题)
定义
管理应用程序和组织内部(或之间)的数据移动和整合活动
数据集成和互操作(DII)描述了数据在不同数据存储、应用程序和组织这三者内部和之间进行移动和整合的相关过程
数据集成是将数据整合成物理的或虚拟的一致格式
数据互操作是多个系统之间进行通信的能力
基本数据管理职能
10大职能
10大分类亲和
集成
1)数据迁移和转换
2)数据整合到数据中心或数据集市
3)将供应商的软件包集成到组织的应用系统框架中
9)结构化和非结构化数据集成
6)数据归档
互操作
7)数据接口管理
8)获取和接收外部数据
4)在不同应用程序或组织之间数据共享
5)跨数据存储库和数据中心分发数据
10)提供运营智能化和管理决策支持
概念
ETL
ETL
(1)抽取
抽取
抽取过程包括选择所需的数据并从其源数据中提取。
存储
然后,被抽取的数据会在磁盘或内存中的物理数据存储库中进行储存。
合并
如果在磁盘上进行物理缓存,则缓存数据库可以和源数据库或目标数据库合并,或者与两者都合并。
(2)转换
3变消排
格式&结构.变化+语义转换
转换过程是让选定的数据与目标数据库的结构相兼容。
1)格式变化。
技术上的格式转换,如从EBCDIC到ASCII的格式转换。
2)结构变化。
数据结构的变化,如从非规范化到规范化的记录。
3)语义转换。
数据值转换时保持语义的一致化表达,如源性别代码可以包括0、1、2和3,而目标性别代码可以表示为UNKNOWN、FEMALE、MALE或NOT PROVIDED。
4)消除重复。
如规则需要唯一的键值或记录,以确保包括扫描目标、检测和删除重复行的方法。
5)重新排序。
改变数据元素或记录的顺序以适应已定义的模式。
消除重复+重新排序
转换过程是让选定的数据与目标数据库的结构相兼容。
1)格式变化。
技术上的格式转换,如从EBCDIC到ASCII的格式转换。
2)结构变化。
数据结构的变化,如从非规范化到规范化的记录。
3)语义转换。
数据值转换时保持语义的一致化表达,如源性别代码可以包括0、1、2和3,而目标性别代码可以表示为UNKNOWN、FEMALE、MALE或NOT PROVIDED。
4)消除重复。
如规则需要唯一的键值或记录,以确保包括扫描目标、检测和删除重复行的方法。
5)重新排序。
改变数据元素或记录的顺序以适应已定义的模式。
(3)加载
加载过程是在目标系统中物理存储或呈现转换结果。
根据所执行的转换、目标系统的目的和其预期用途,数据可能需要被进一步的处理以便与其他数据集成,或者可能以一种最终形式呈现给消费者。
ELT
目标系统转化能力(更强)>源系统或中间应用系统
允许在数据加载到目标系统后再进行转换
允许源数据以原始数据的形式在目标系统上实例化
大数据环境中是很常见
映射(Mapping)
转换的同义词
是从源结构到目标结构建立查找矩阵的过程
是该过程的结果
许多数据集成工具提供了映射的可视化界面
时延(Latency)
时间差
从源系统生成数据到目标系统可用该数据
延迟类型
批处理
很高延时
按照周期触发
给定时间点全部数据
微批处理
每5分钟运行一次
变更数据捕获
较高延时
特定时间范围内变更过的数据
将更改以增量方式传送需要者
3种类型
1)源系统填入特定的数据元素
例如,某一个范围内的时间戳、代码或标志,它们都可以作为变更指示符。抽取过程使用规则来识别要抽取的行。
2)源系统进程在更改数据时被添加
到一个简单的对象和标识符列表,然后用于控制抽取数据的选择。
3)源系统复制已经变化的数据
这些数据已经作为交易的一部分变成了独立对象,然后用于抽取处理。此对象不需要在数据库管理系统内。
特点
提取使用源应用程序内置的功能
这可能是资源密集型的,需要有修改源应用程序的能力
准实时和事件驱动
准实时
NRT(Near - Real - Time)
特定时间,较小集合进行处理。
较低延迟
30分钟
系统负载较低
工作随时间分布
比同步数据集成解决方案要慢一些。准实时数据集成解决方案通常是使用企业服务总线来实现。
事件驱动
事件发生时处理
数据更新
异步
一方可以离线
提供数据的系统在继续处理之前不会等待接收系统确认更新
异步意味着发送或接收系统可能会在一段时间内离线,而另一个系统可以正常运行
不会阻塞源应用程序继续执行,也不会在任何目标应用程序不可用时导致源应用程序不可用
准实时集成
异步配置中对应用程序进行的数据更新不是及时的
在接近实时的环境中,源中进行的更新与中继到目标数据集之间的延迟通常为秒级或分级
实时同步
延迟非常低
数据和目标数据之间不允许存在时间延迟或其他差异
当一个数据集的数据必须与另一个数据集的数据保持完美的同步时
RTD(Real time decision)
极端(自动驾驶)
低延迟或流处理
一个组织需要非常快速地进行远距离移动数据,那么为低时延解决方案付出的额外成本是合理的
随着事件的发生,“流数据”在事件发生后立即从计算机系统实时连续地流出。
交互模型
点到点+中心辐射型+企业服务总线+发布与订阅
(2)中心辐射型
中心辐射型(Hub-and-Spoke)模型是点对点的替代方案,它将共享数据(物理或虚拟)整合到应用程序可以使用的一个中央数据中心。所有想交换数据的系统都是通过一个中央公共数据控制系统进行交换的,而不是直接与其他系统(点对点)进行交换。数据仓库、数据集市、操作数据存储和主数据管理中心都是数据中心的最佳示范。
数据中心提供一致的数据视图,对源系统性能的影响有限。数据中心甚至最小化了必须访问的数据源系统和抽取的数量,从而减少对源系统资源的影响。向组合中添加新系统,只需要构建到数据中心的接口。如果涉及系统数量不多,中心辐射型交互效率会更高。此外,可以对成本进行合理调整,尤其对于管理成百上千的系统组合至关重要。
(3)企业服务总线(Enterprise Service Bus,ESB)
是用于在多个系统之间接近实时共享数据的数据集成解决方案,其数据中心是一个虚拟概念,代表组织中数据共享的标准和规范格式。
中心辐射型模型可能并不总是最好的解决方案。部分中心辐射型模型存在着不可接受的时延或性能问题。数据中心本身在中心辐射型架构中存在创建开销。点对点解决方案不需要数据中心。然而,当3个或更多的系统参与共享数据时,数据中心的好处就超过了开销大的缺点。利用中心辐射型设计模式来交换数据,可以显著减少数据的转换工作和集成解决方案的需求,从而大大简化必要的组织支持。
(4)发布与订阅
发布和订阅模型涉及推送(发布)数据的系统和其他接受(订阅)数据的系统。在数据服务的目录中列出推送数据的系统,希望使用数据的系统订阅这些服务。在发布数据时,数据会自动发送给订阅用户。
共享数据系统之间的绝大多数交互都是“点对点”的,它们直接相互传递数据。这个模型在一小组系统的上下文中是行得通的。但是,当许多系统需要来自同一来源的相同数据时,它会很快变得效率低下并增加组织风险。具体有以下几个方面:
1)影响处理(Impacts to Processing)。如果源系统是操作型的,那么提供数据的工作量可能会影响交易处理。
2)管理接口(Managing Interfaces)。点对点交互模型所需的接口数量接近系统数量的平方数。一旦建立了这些接口,就需要维护和支撑这些接口。管理和支撑系统之间接口的工作量很快就会大于系统本身的支持。
3)潜在的不一致(Potential for Inconsistency)。当多个系统需要不同的版本或数据格式时,就会出现设计问题。使用多个接口获取数据会导致发送给下游系统的数据不一致。
其它
复制
归档
企业消息格式/规范格式
Message(MQ)
数据集成和互操作架构概念
(1)应用耦合
耦合描述了两个 系统交织程度
紧密耦合
系统通常有一个同步接口
紧密耦合代表了运营上的风险
松耦合
优选的接口设计
其中在系统之间传送数据不需要等待响应
而且一个系统不可用时,不会导致另一个系统无法使用。
可以使用服务、API或消息队列等各种技术来实现松耦合
(2)编排和流程控制
编排(Orchestration)
描述在一个系统中如何组织和执行多个相关流程
流程控制
确保数据的调度、交付、抽取和装载的准确和完整的组件。
数据传送架构容易忽略点
1)数据库活动日志。
2)批量作业日志。
3)警报。
4)异常日志。
5)作业依赖图,包含补救方案、标准回复。
6)作业的时钟信息,如依赖作业的定时、期望的作业长度、计算(可用)的窗口时间。
(3)企业应用集成
在企业应用集成模型(Enterprise Application Integration,EAI)中,软件模块之间仅通过定义良好的接口调用(应用程序编程接口-API)进行交互。数据存储只能通过自己的软件模块更新,其他软件不能直接访问应用程序中的数据,只能通过定义的API访问。企业应用集成是基于面向对象的概念,它强调重用和替换任何模块而不影响任何其他模块的能力。
(4)企业服务总线
企业服务总线(Enterprise Service Bus,ESB)是一个系统,它充当系统之间的中介,在它们之间传送消息。应用程序可以通过ESB现有的功能封装发送和接收的消息或文件。
(5)面向服务的架构
SOA的目标是在独立的软件模块之间定义良好的交互。
(6)复杂事件处理
(7)数据联邦和虚拟化
数据联邦(Data Federation)提供访问各个独立数据存储库组合的权限
数据虚拟化(Data Virtualization)使分布式数据库以及多个异构数据存储能够作为单个数据库来访问和查看
(8)数据即服务
(9)云化集成
8.数据交换标准
是数据元素结构的正式规则
信息资源交换目录
活动
4.设计数据编排