导图社区 DMBOK-数据管理知识体系第二版 7-12章
数据存储和操作、业务驱动因素、目标和原则 管理数据库技术、管理数据库操作、数据建模工具、数据库监控工具、 数据库管理工具、 数据审计与数据有效性、 数据安全
编辑于2023-07-07 14:14:37 北京市社区模板帮助中心,点此进入>>
DMBOK第二版 7-12章
第7章 数据安全
7.1 引言
数据安全包括安全策略和过程的规划、建立与执行,为数据和信息资产提供正确的身份验证、授权、访问和审计。要求来自以下方面:
(1)利益相关方
(2)政府法规
(3)特定业务关注点
(4)合法访问需求
(5)合同义务
7.1.1 业务驱动因素
1、降低风险
对组织数据进行分类分级的整个流程:
1)识别敏感数据资产并分类分级
2)在企业中查找敏感数据
3)确定保护每项资产的方法
4)识别信息与业务流程如何交互
2、业务增长
3、安全性作为资产
7.1.2 目标和原则
目标:
1)支持适当访问并防止对企业数据资产的不当访问
2)支持对隐私、保护和保密制度、法规的遵从
3)确保满足利益相关方对隐私和保密的要求
原则:
1)协同合作
2)企业统筹
3)主动管理
4)明确责任
5)元数据驱动
6)减少接触以降低风险
7.1.3 基本概念
1、脆弱性
是系统中容易遭受攻击的弱点或缺陷,本质上是组织防御中的漏洞。某些脆弱性称为漏洞敞口。
2、威胁
是一种可能对组织采取的潜在进攻行动。威胁包括发送到组织感染病毒的电子邮件、使网络服务器不看重负以致无法执行业务(拒绝服务攻击)的进程,以及对已知漏洞的利用等。
存在威胁的地方也称为攻击面
3、风险
风险既指损失的可能性,也指构成潜在损失的事物或条件。
可以从以下几方面计算风险:
1)威胁发生的概率及其可能的频率
2)每次威胁事件可能造成的损害类型和规模,包括声誉损害。
3)损害对收入或业务运营的影响
4)发生损害后的修复成本
5)预防威胁的成本,包括漏洞修复手段
6)攻击者可能的目标或意图
4、风险分类:
1)关键风险数据:
由于个人信息具有很高的直接财务价值,因此内部和外部各方可能会费尽心思寻求未经授权使用这些信息。滥用关键风险数据不仅会上海个人,还会导致公司遭受重大处罚,增加挽留客户、员工的成本以及损害公司品牌与声誉,从而对公司造成财务损害。
2)高风险数据
高风险数据为公司提供竞争优势,具有潜在的直接财务价值,往往被主动寻求未经授权使用。
损害可能导致法律风险、监管处罚以及品牌和声誉受损
3)中等风险数据
对几乎没有实际价值的公司非公开信息,未经授权可能会对公司产生负面影响
5、数据安全组织
首席信息安全官(CISO)
任何情况下,数据管理者都要参与数据安全工作。
6、安全过程
(1)4A
1)访问(Access)
2)审计(Audit)
3)验证(Authentication)
4)授权(Authorization)
5)权限(Entitlement)
(2)监控
主动监控:检测机制。系统应包括检测意外事件(包括潜在的安全违规)的监视控制。包含机密信息的应主动、实时监控。
被动监控:评价机制。是通过系统定期捕获系统快照,并将趋势与基准或其他标准进行比较,跟踪随时发生的变化。
7、数据完整性
在安全性方面,数据完整性(Data Integrity)是一个整体状态要求,以免于遭受不当增删改所造成的影响。
萨班斯法案主要涉及对如何创建和编辑财务信息的规则进行识别,以保护财务信息的完整性。
8、加密
加密(Encryption)是将纯文本转换为复杂代码,以隐藏特权信息、验证传送完整性或验证发送者身份的过程。
(1)哈希
Hash将任意长度数据转换为固定长度数据表示。即使知道所使用的的确切算法和应用顺序,也无法解密出原始数据。通常用于对传送完整性或身份的验证。常见的哈希算法有MDS和SHA
(2)对称
对称加密使用一个密钥来加解密数据。发送方和接收方都必须具有读取原始数据的密钥。可以逐个字符加密数据(如在传送中),也可对数据块加密。
常见的私钥算法包括数据加密标准(DES)、三重DES(3DES)、高级加密标准(AES)和国际数据加密算法(IDEA)。DES可被多种手段攻击;Cyphers Twofish算法和Serpent算法也被视为安全算法。
(3)非对称
在非对称加密中,发送方和接收方使用不同的密钥。发送方使用公开提供的公钥进行加密,接收方使用私钥解密显示原始数据。当许多数据源只需将受保护的信息发送给少数接收方(如将数据提交到清算交易所)时,这种加密方法非常有用。
非对称加密算法包括RSA加密算法和Diffie-Hell-man密钥交换协议等。PGP是一个免费的公钥加密应用程序。
9、混淆或脱敏
可通过混淆处理(变模糊或不准确)或脱敏(删除、打乱或以其他方式更改数据的外观等)的方式来降低数据可用性,同时避免丢失数据的含义或数据与其他数据集的关系。
脱敏分为两种类型:
(1)静态数据脱敏:永久且不可逆转地更改数据。不会在生产环境使用。
1)不落地脱敏
当在数据源和目标环境之间移动需要脱敏或混淆处理时,会采用不落地脱敏。不会留下中间文件或带有未脱敏数据的数据库,不落地方式很安全。遇到问题可以重新运行脱敏过程。
2)落地脱敏
当数据源和目标相同时,可使用落地脱敏。从数据源中读取未脱敏数据,进行脱敏操作后直接覆盖原始数据。
假定当前位置不应该保留敏感数据,在移动至不安全位置之前就应该进行脱敏,存在一定风险,进程失败则很难还原为可用格式。
(2)动态数据脱敏
是在不更改基础数据的情况下,在最终用户或系统中改变数据的外观。
(3)脱敏方法
1)替换
将字符或整数值替换为查找或标准模式中的字符或整数值。
2)混排
3)时空变异
日期前后移动若干天,小到足以保留趋势
4)数值变异
应用一个随机因素,重要到使他无法识别
5)取消或删除
6)随机选择
部分或全部数据元素替换为随机字符或一系列单个字符
7)加密技术
8)表达式脱敏
将所有值更改为一个表达式的结果。
9)键值脱敏
指定的脱敏算法/进程结果必须是唯一可重复的,用于数据库键值字段脱敏。这种类型脱敏对用于测试需要保持数据在组织范围内的完整性极为重要。
10、网络安全术语
(1)后门
是指计算机系统或应用程序的忽略隐藏入口。
(2)机器人或僵尸
是已被恶意黑客使用特洛伊木马、病毒、网络钓鱼或下载受感染文件接管的工作站。
(3)Cookie
是网站在计算机硬盘上安放的小型数据文件,用于识别老用户并分析其偏好。Cookie用于互联网电子商务。
(4)防火墙
防火墙是过滤网络流量的软件和硬件,用于保护单个计算机或整个网络免受未经授权的访问和免遭企图对系统的攻击。
(5)周界
Perimeter,是指组织环境与外部系统之间的边界。通常将防火墙部署在所有内部和外部环境之间。
(6)DMZ
De-Militarized Zone,非军事区,指组织边缘或外围区域。在DMZ和组织之间设有防火墙,DMZ环境与互联网之间始终设有防火墙。DMZ环境用于传递或临时储存在组织之间移动的数据。
(7)超级用户账户
超级用户账户是具有系统管理员或超级用户访问权限的账户,仅在紧急情况下使用。这些账户的凭据保存要求具有高度安全性,只有在紧急情况下才能通过适当的文件和批准发布,并在短时间内到期。
(8)键盘记录器
是一种攻击软件,对键盘上键入的所有击键进行记录,然后发送到互联网上的其他地方。
(9)渗透测试
在渗透测试(Penetration Testing)中,来自组织本身或从外部安全公司聘任的“白帽”黑客试图从外部侵入系统,正如恶意黑客一样,试图识别系统漏洞。通过渗透测试发现的漏洞应该在应用程序正式发布之前予以解决。
(10)虚拟专用网络
使用不安全的互联网创建进入组织环境的安全路径或“隧道”,隧道是高度加密的。VPN允许用户和内部网络之间通信,通过使用多重身份验证元素连接到组织环境外围的防火墙,VPN对所有传送数据进行加密。
11、数据安全类型
(1)设施安全
是抵御恶意行为人员的第一道防线,设施上至少应具有一个锁定能力的数据中心,其访问权限仅限于授权员工。
(2)设备安全,标准包括:
1)使用移动设备连接的访问策略
2)在便携式设备(如笔记本计算机、DVD、CD或USB驱动器)上存储数据
3)符合记录管理策略的设备数据擦除和处置
4)反恶意软件和加密软件安装
5)安全漏洞的意识
(3)凭据安全
1)身份管理系统
2)电子邮件系统的用户ID标准
3)密码标准
4)多因素识别
(4)电子通信安全
12、数据安全制约因素
保密和监管的主要区别是要求来源不同,保密要求来自内部,监管来自外部定义。另外区别是任何数据集只能有一个密级,其密级是基于最敏感的数据项设立;然而监管分类是附加的,单个数据集可能根据多个监管类别限制数据,应执行每种法规类别所需的所有操作以及保密要求。
1)保密等级
机密或私密
机密信息仅在“需要知道”的基础上共享
2)监管要求
监管信息在“允许知道”的基础上共享。
(1)机密数据
1)对普通受众公开
2)仅内部使用(Interneal Use Only)
3)机密(Confidential)
若无恰当的保密协议或类似内容,不得在组织以外共享。
4)受限机密(Restricted Confidential)
要求个人通过许可才能获得资格,仅限于特定需要知道的个人。
5)绝密(Registered Confidential)
信息机密程度非常高,任何信息访问者都必须签署一份法律协议才能访问数据,并承担保密责任。
(2)监管限制的数据
1)法规系列举例
①个人身份信息(PII)
也称为个人隐私信息PPI,包括任何可以识别个人或一组人的信息。
②财务敏感数据
③医疗敏感数据/个人健康信息(PHI)
④教育记录
2)行业法规或基于合同的法规
①支付卡行业数据安全标准(PCI-DSS)
②竞争优势或商业机密
③合同限制
13、系统安全风险
识别风险的第一步是确定敏感数据的存储位置以及这些数据需要哪些保护,还需确定系统的固有风险。
(1)滥用特权
解决权限过大的方案是查询级访问控制
(2)滥用合法特权
故意和无意滥用
部分解决滥用合法特权的方案是数据库访问控制
(3)未经授权的特权升级
防止特权升级漏洞:将传统入侵防护系统(IPS)和查询级访问控制入侵防护相结合。
(4)服务账户或共享账户滥用
1)服务账户
便利性在于可自定义对进程的增强访问,如果用于其他目的,则无法跟踪到特定的用户或管理员。
服务账户的使用限制为特定系统上的特定命令或任务,需要文档和批转才能分发凭据。考虑每次使用时分配新密码。
2)共享账户
默认不应使用共享账户
(5)平台入侵攻击
定期软件升级(补丁)
入侵防御系统IPS
入侵检测系统IDS
(6)注入漏洞
在SQL注入攻击中,攻击者将未经授权的数据库语句插入(或注入)到易受攻击的SQL数据通道中,如存储过程和WEB应用程序的输入空间。
通常作为合法命令执行,攻击者可以不受限制地访问整个数据库。
(7)默认密码
(8)备份数据滥用
备份数据库加密
14、黑客行为/黑客
15、网络钓鱼/社工威胁
通常涉及直接通信(无论是当面、通过电话,还是通过互联网),旨在诱使有权访问受保护数据的人提供该信息(或信息访问途径)给拟用于犯罪或恶意目的人。
社会工程是指恶意黑客试图诱骗人们提供信息或访问信息的方法。
网络钓鱼是指通过电话、即时消息或电子邮件诱惑使接收方在不知情的情况下提供有价值的信息或个人隐私。通常,这些呼叫似乎来自合法来源。
16、恶意软件
(1)广告软件
从互联网下载至计算机的间谍软件
(2)间谍软件
是指未经同意而潜入计算机以跟踪在线活动的任何软件程序
(3)特洛伊木马
伪装或嵌入合法软件
(4)病毒
是一种计算机程序,它将自身附加到可执行文件或易受攻击的应用程序上,能造成从让人讨厌到极具破坏性的后果。
(5)蠕虫
一种自己可以在网络中进行复制和传播的程序
(6)恶意软件来源
1)即时消息
2)社交网
3)垃圾邮件,排除模式包括:
①已知的垃圾邮件传送域
②抄送或密送的地址超出限量
③电子邮件正文只有一个超链接的图
④特定文本字符串或单
7.2 活动
数据安全活动包括确定需求、评估当前环境的差距或风险、实施安全工具与流程以及审核数据安全措施,以确保其有效。
7.2.1 识别数据安全需求
1、业务需求
2、监管要求
1)支付卡行业安全标准PCI DSS
2)欧盟的巴塞尔协议II
3)客户信息保护的FTC(联邦贸易委员会)标准(美国)
7.2.2 制定数据安全制度
1)企业安全制度
员工访问设施和其他资产的全局策略、电子邮件标准和策略、基于职位或职务的安全访问级别以及安全漏洞报告策略。
2)IT安全制度
目录结构标准、密码策略和身份管理框架
3)数据安全制度
单个应用程序、数据库角色、用户组和信息敏感性的类别。
7.2.3 定义数据安全细则
1、定义数据保密等级
一般用途到绝密
2、定义数据监管类别
安全分级和监管分类的一项关键原则是,大多数信息可以聚合,从而使其具有更高或更低的敏感性。
分类分级的工作成果是一组经正式批准的安全分级和监管类别,以及从中央存储库中获得此类元数据的流程,以便业务和技术员工了解他们所处理、传送和授权信息的敏感性。
3、定义安全角色
方法有两种:网格(从数据开始)或层次结构(从用户开始)
(1)角色分配矩阵
基于数据机密性、法规和用户功能,矩阵可用于映射数据的访问角色。
(2)角色分配层次结构
在工作组或业务单元级别构建组定义。在层次结构中组织这些角色,以便子角色进一步限制父角色的权限。
7.2.4 评估当前安全风险
1)存储或传送的数据敏感性
2)保护数据的要求
3)现有的安全保护措施
7.2.5 实施控制和规程
满足控制过程可能实施和维护如下流程:
1)根据用于跟踪所有用户权限请求的变更管理系统,验证分配的权限
2)需要工作流审批流程或签名的纸质表单,来对每个变更请求记录和归档
3)包括取消授权流程,对工作状态或部门不再适合继续拥有某些访问权限的人取消授权。
(1)分配密级
(2)分配监管类别
(3)管理和维护数据安全
1)控制数据可用性/以数据为中心的安全性
管理用户权限,以及对在技术上基于权限的访问控制的结构(数据脱敏、视图创建)等。
2)监控用户身份验证和访问行为
1)监管风险
2)检测和恢复风险
3)管理和审计职责风险
4)依赖于不适当的本地审计工具的风险
基于网络的审计设备的优点:
1)高性能
在线运行,对数据库影响很小
2)职责分离
独立于DBA运行,将审计职责与管理职责分开
3)精细事务跟踪
支持高欺诈检测、取证和恢复。日志包括源应用程序名称、完整查询文本、查询响应属性、源操作系统、时间和源名称等详细信息。
(4)管理安全制度遵从性
1)管理法规遵从性
①衡量授权细则和程序的合规性
②确保所有数据需求都是可衡量的,因此也是可审计的
③使用标准工具和流程保护存储和运行中的受监督数据
④发现潜在不合规问题以及存在违反法规遵从性的情况时,使用上报程序和通知机制。
2)审计数据安全和合规活动
①评估制度和细则,确保明确定义合规控制并满足法规要求
②分析实施程序和用户授权实践,确保符合监管目标、制度、细则和预期结果。
③评估授权标准和规程是否充分且符合技术要求
④当发现存在违规或潜在违规时,评估所要执行的上报程序和通知机制。
⑤审查外包和外部供应商合同、数据共享协议以及合规义务,确保业务合作伙伴履行义务及组织履行其保护受监管数据的法律义务。
⑥评估组织内安全实践成熟度,并向高级管理层和其他利益相关方报告“监管合规状态”
⑦推荐的合规制度变革和运营合规改进。
7.3 工具
7.3.1 杀毒软件/安全软件
7.3.2 HTTPS
7.3.3 身份管理技术
7.3.4 入侵侦测和入侵防御软件
7.3.5 防火墙(防御)
7.3.6 元数据跟踪
有助于组织对敏感数据的移动进行跟踪,存在风险:外部代理可从与文档关联的元数据中检测出内部信息。
7.3.7 数据脱敏/加密
限制敏感数据的移动
7.4 方法
7.4.1 应用GRUD矩阵
数据-流程矩阵,数据-角色关系矩阵,有助于映射数据访问需求,并指导数据安全角色组、参数和权限定义。CRUD-创建、移动、更新、删除
CRUDE-执行
7.4.2 即时安全补丁部署
7.4.3 元数据中的数据安全属性
元数据存储库对于确保企业数据模型在跨业务流程使用中的完整性和一致性至关重要。
7.4.4 项目需求中的安全要求
分析阶段详细确定数据和应用程序安全要求。
还可用于选择适当的供应商/采购软件包
7.4.5 加密数据的高效搜索
减少需要解密数据量的方法之一是采用相同的加密方法来加密搜索条件(如字符串),然后用密文去查找匹配项
7.4.6 文件清理
文件清理是在文件共享之前从中清理元数据(如历史变更记录跟踪)的过程。文件清理降低了注释中的机密信息可能被共享的风险。特别在合同中。
7.5 实施指南
7.5.1 就绪评估/风险评估
组织可通过以下方式提高合规性:
1)培训
2)制度的一致性
3)衡量安全性的收益
4)为供应商设置安全要求
5)增强紧迫感
6)持续沟通
7.5.2 组织与文化变革
7.5.3 用户数据授权的可见性
7.5.4 外包世界中的数据安全
1)服务水平协议(SLA)
2)外包合同中的有限责任条款
3)合同中的审计权条款
4)明确界定违反合同义务的后果
5)来自服务提供商的定期数据安全报告
6)对供应商系统活动进行独立监控
7)定期且彻底的数据安全审核
8)与服务提供商的持续沟通
9)如果供应商位于另一国家/地区并发生争议时,应了解合同法中的法律差异。
CRUD(创建 读取 更新 删除)矩阵映射跨业务流程、应用程序、角色和组织的数据职责,以跟踪数据转换、血缘关系和监管链。执行业务决策或应用程序功能(如批准审查、批准订单)的能力必须包含在矩阵中
RACI(负责、批注、咨询、通知)矩阵:可成为合同协议和数据安全制度的一部分。通过定义责任矩阵在参与外包的各方之间确立明确的问责制和所有权,从而支持总体数据安全制度及其实施。
7.5.5 云环境中的数据安全
共担责任、定义数据监管链以及定义所有权和托管权尤为重要。
7.6 数据安全治理
7.6.1 数据安全和企业架构
安全架构涉及:
1)用于管理数据安全的工具
2)数据加密标准和机制
3)外部供应商和承包商的数据访问指南
4)通过互联网的数据传送协议
5)文档要求
6)远程访问标准
7)安全漏洞事件报告规程
安全架构对以下数据集成尤为重要:
1)内部系统和业务部门
2)组织及其外部业务合作伙伴
3)组织和监管机构
面向服务集成的架构模式(SOA),将要求不同于传统电子数据交换(EDI)集成体系架构的数据安全模式来实现。
7.6.2 度量指标
指标衡量流程的进度:
开展的审计量、安装的安全系统、报告的事件数、系统中未经检查的数据量
1、安全实施指标
1)安装了最新安全补丁程序的企业计算机百分比
2)安装并运行最新反恶意软件的计算机百分比
3)成功通过背景调查的新员工百分比
4)在年度安全实践测验中得分超过80%的员工百分比
5)已完成正式风险评估分析的业务单位的百分比
6)在发生如火灾、地震、风暴、洪水、爆炸等其他灾难时,成功通过灾难恢复测试的业务流程百分比
7)已成功解决审计发现的问题百分比
可以通过列表或统计数据的指标跟踪趋势:
1)所有安全系统的性能指标
2)背景调查和结果
3)应急响应计划和业务连续性计划状态
4)犯罪事件和调查
5)合规的尽职调查以及需要解决的调查结果数量
6)执行的信息风险管理分析以及导致的可操作变更的分析数量
7)制度审计的影响和结果,如清洁办公桌制度检查,由夜班安保人员在换班时执行
8)安全操作、物理安全和场所保护统计信息
9)记录在案的、可访问的安全标准(制度)
10)相关方遵守安全制度的动机
11)业务行为和声誉风险分析,包括员工培训
12)基于特定类型数据(如财务、医疗、商业机密和内部信息)的业务保健因素和内部风险
13)管理者和员工的信心和影响指标,作为数据信息安全工作和制度如何被感知的指标。
2、安全意识指标
1)风险评估结果
2)风险事件和配置文件
3)正式的反馈调查和访谈
4)事故复盘、经验教训和受害者访谈
5)补丁有效性审计
3、数据保护指标
1)特定数据类型和信息系统的关键性排名
2)与数据丢失、危害或损坏相关的事故、黑客攻击、盗窃或灾难的年损失预期
3)特定数据丢失的风险与某些类别的受监管信息以及补救优先级排序相关
4)数据与特定业务流程的风险映射,与销售点设备相关的风险将包含在金融支付系统的风险预测中。
5)对某些具有价值的数据资源机器传播媒介遭受攻击的可能性进行威胁评估
6)对可能意外或有意泄露敏感信息的业务流程中的特定部分进行漏洞评估
4、安全事件指标
1)检测到并阻止了入侵尝试数量
2)通过防止入侵节省的安全成本投资回报
5、机密数据扩散
应衡量机密数据的副本数量,以减少扩散。机密数据存储的位置越多,泄露的风险就越大。
第8章 数据集成和互操作
8.1 引言
数据集成和互操作(DII)描述了数据在不同数据存储、应用程序和组织这三者内部和之间进行移动和整合的相关过程。数据集成是将数据整合成物理的或虚拟的一致格式。数据互操作是多个系统之间进行通信的能力。数据集成和 互操作的解决方案提供了大多数组织所依赖的基本数据管理职能:
1)数据迁移和转换
2)数据整合到数据中心或数据集市
3)将供应商的软件包集成到组织的应用系统框架中
4)在不同应用程序或组织之间数据共享
5)跨数据存储库和数据中心分发数据
6)数据归档
7)数据接口管理
8)获取和接收外部数据
9)结构化和非结构化数据集成
10)提供运营智能化和管理决策支持
数据集成和互操作依赖于数据管理的其他领域,如:
1)数据治理
治理转换规则和消息结构
2)数据架构
用于解决方案设计
3)数据安全
无论是数据持久化、虚拟化还是在应用程序和组织之间流动,都要确保解决方案对数据的安全性进行适当的保护
4)元数据
用于知晓数据的技术清单(持久的、虚拟的和动态的)、数据的业务含义、数据转换的业务规则、数据操作历史和数据血缘
5)数据存储和操作
管理解决方案的物理实例化
6)数据建模和设计
用于设计数据结构,包括数据库中的物理持久化的结构、虚拟的数据结构以及应用程序和组织之间传送的消息结构。
8.1.1 业务驱动因素
主要目的是为了对数据移动进行有效管理,另一个驱动因素是维护管理成本。
管理护具集成的复杂性以及相关成本是建立数据集成架构的原因
8.1.2 目标和原则
目标:
1)及时以数据消费者所需的格式提供数据
2)将数据物理地或虚拟地合并到数据中心
3)通过开发共享模型和接口来降低管理解决方案的成本和复杂度
4)识别有意义的事件(机会和威胁),自动地出发警报并采取相应行动
5)支持商务智能、数据分析、主数据管理以及运营效率的提升
原则:
1)采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现
2)平衡本地数据需求与企业数据需求,包括支撑与维护
3)确保数据集成和互操作设计和活动的可靠性。业务专家应参与数据转换规则的设计和修改,包括持久性和虚拟性。
8.1.3 基本概念
1、抽取、转换、加载
(1)抽取
(2)转换
是让选定的数据与目标数据库的结构相兼容
1)格式变化
2)结构变化
3)语义转换
4)消除重复
5)重新排序
(3)加载
加载过程实在目标系统中物理存储或呈现转换结果。
(4)抽取、加载、转换(ELT)
如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理的顺序可以切换为ELT
(5)映射
是转换的同义词,它既是从源结构到目标结构建立查找矩阵的过程,也是该过程的结果。映射定义了要抽取的源数据与抽取数据的识别规则、要加载的目标与要更新的目标行的识别规则以及要应用的任何转换或计算规则。
2、时延
(1)批处理
(2)变更数据捕获
1)源系统填入特定的数据元素
2)源系统进程在更改数据时被添加到一个简单的对象和标识符列表,然后用于控制抽取数据的选择
3)源系统复制已经变化的数据
(3)准实时和事件驱动
(4)异步
提供数据的系统在继续处理之前不会等待接收系统确认更新。不会阻塞源应用程序继续执行,也不会在任何目标应用程序不可用时导致源应用程序不可用。
(5)实时,同步
执行下一个活动或事务之前需等待接收来自其他应用程序或进程的确认。
(6)低延迟或流处理
低延迟旨在减少事件的响应时间。可能包括使用像固态硬盘的硬件解决方案或使用内存数据库的软件解决方案。
3、复制
监视数据集的更改日志。如果数据更改动作发生在多个副本站点时,那么数据复制解决方案不是最佳的选择。
4、归档
5、企业消息格式/规范格式
规范化的数据模型时组织或数据交换团队使用的通用模型,用于标准化数据共享的格式
6、交互模型
(1)点到点
1)影响处理
如果源系统是操作型的,那么提供数据的工作量可能会影响交易处理。
2)管理接口
点对点交互模型所需的接口数量接近系统数量的平方数。
3)潜在的不一致
当多个系统需要不同的版本或数据格式时,就会出现设计问题。
(2)中心辐射型
企业服务总线(EBS)是用于在多个系统之间接近实时共享数据的数据集成解决方案,其数据中心是一个虚拟概念,代表组织中数据共享的标准和规范格式。
(3)发布与订阅
发布和订阅模型涉及推送(发布)数据的系统和其他接受(订阅)数据的系统。
7、数据集成和互操作架构概念
(1)应用耦合
松耦合是一种优选的接口设计,其中在系统之间传送数据不需要等待响应。基于企业服务总线EBS的面向服务架构是松散耦合数据交互设计模式的一个示例。
(2)编排和流程控制
基本数据传送架构中经常被忽略的方面:
1)数据库活动日志
2)批量作业日志
3)警报
4)异常日志
5)作业依赖图,包含补救方案、标准回复
6)作业的时钟信息,如依赖作业的定时、期望的作业长度、计算(可用)的窗口时间
(3)企业应用集成
在企业应用集成模型(EAI)中,软件模块之间仅通过定义良好的接口调用(应用程序编程接口-API)进行交互。数据存储只能通过自己的软件模块更新,其他软件不能直接访问应用程序中的数据,只能通过定义的API访问
(4)企业服务总线
是一个系统,充当系统之间的中介,在它们之间传送消息。应用程序可以通过ESB现有的功能封装发送和接收的消息或文件。
(5)面向服务的架构
SOA,通过在应用程序之间定义良好的服务调用,可以提供推送数据或更新数据的功能
(6)复杂事件处理
是一种跟踪和分析(处理)有关发生事件的信息流(数据流),并从中得出结论的方法。复杂事件(Complex Event Processing ,CEP)将多个来源的数据进行合并,通过识别出有意义的事件(如机会或威胁),为这些事件设置规则来指导事件处理及路由,进而预测行为或活动,并根据预测的结果自动触发实时相应,如推荐消费者购买产品。
(7)数据联邦和虚拟化
数据联邦提供访问各个独立数据存储库组合的权限
数据虚拟化使分布式数据库以及多个异构数据存储能够作为单个数据库来访问和查看,
(8)数据即服务
软件即服务SaaS是一种交付和许可模式。数据即服务DAAS的一个定义是从供应商获得许可并按需由供应商提供数据,而不是存储和维护在被许可组织数据中心的数据。
(9)云化集成
云化集成,也称为集成平台即服务或IPaaS,是作为云服务交付的一种系统集成形式。
8、数据交换标准
交换模式定义了任何系统或组织交换数据所需的数据转换结构。数据需要映射到交换规范中。
国家信息交换模型(NIEM)是为美国政府之间交换文件和交易而开发的数据交换标准。使用XML来定义模式和元素的表述。
8.2 活动
8.2.1 规划和分析
1、定义数据集成和生命周期需求
2、执行数据探索
数据探索应该在设计之前进行,目标是为数据集成工作确定潜在的数据来源。数据探索还包括针对数据质量的高级别评估工作,以确定数据是否适合集成计划的目标。
3、记录数据血缘
数据是如何被组织获取或创建的,它在组织中是如何移动和变化以及如何被组织用于分析、决策或事件触发的。详细记录的数据血缘可以包括根据哪些规则改变数据及其改变的频率。
4、剖析数据
数据剖析有助于理解数据内容和结构。基本剖析包括:
1)数据结构中定义的数据格式和从实际数据中推断出来的格式
2)数据的数量,包括null值、空或默认数据的级别
3)数据值以及它们与定义的有效值集合的紧密联系
4)数据集内部的模式和关系,如相关字段和基数规则
5)与其他数据集的关系
5、收集业务规则
1)评估潜在的源数据集和目标数据集的数据
2)管理组织中的数据流
3)监控组织中的操作数据
4)指示何时自动触发事件和警报
8.2.2 设计数据集成解决方案
1、设计数据集成解决方案
(1)选择交互模型
(2)设计数据服务或交换模式
包括所涉及数据结构的清单(持久和可传递、现有和必需)、数据流的编排和频率指示、法规、安全问题和补救措施以及有关备份和恢复、可用性和数据存档和保留。
2、建模数据中心、接口、消息、数据服务
持久化的数据结构
主数据管理中心、数据仓库和数据集市、操作型数据存储库
临时数据结构
接口、消息布局、规范模型
3、映射数据源到目标
对于映射关系中的每个属性,映射规范如下:
1)指明源数据和目标数据的技术格式
2)指定源数据和目标数据之间所有中间暂存点所需的转换
3)描述最终或中间目标数据存储区中每个属性的填充方式
4)描述是否需要对数据值进行转换,如通过在表示适当目标值的表中查找源值
5)描述需要进行哪些计算
4、设计数据编排
数据集成解决方案中的数据流必须做好设计和记录。数据流程编排是从开始到结束的数据流模式,包括完成转换和事务所需的所有中间步骤。
8.2.3 开发数据集成解决方案
1、开发数据服务
开发服务来获取、转换和交付指定的数据,并且匹配所选的交互模型。
2、开发数据流编排
对集成ETL数据流通常会采用专用工具以特有的方式进行开发。对批量数据流将在一个调度器中开发(如CTRL-M)。互操作性需求可能包括开发数据存储之间的映射或协调点。
3、制定数据迁移方法
4、制定发布方式
5、开发复杂事件处理流
1)准备有关预测模型的个人、组织、产品或市场和迁移前的历史数据
2)处理实时数据流,充分填充预测模型、识别有意义的事件(机会或威胁)
3)根据预测执行触发的动作
6、维护数据集成和互操作的元数据
SOA注册中心提供了一个不断发展变化的受控信息目录:即访问和使用应用程序中数据和功能的可用服务。
8.2.4 实施和监测
应建立表示潜在问题的度量指标以及直接反馈问题的机制,尤其是当触发响应的复杂性和风险增加时,应建立对反馈问题的自动化处理和人工监控流程。
必须采用与最苛刻的目标应用程序或数据使用者相同的服务级别进行监视和服务。
8.3 工具
8.3.1 数据转换引擎/ETL工具
基本考虑应该包括是否需要运用批处理和实时功能,以及是否包括非结构化和结构化数据。目前最成熟的是用于结构化数据的批量处理工具。
8.3.2 数据虚拟化服务器
数据虚拟化服务器对数据进行虚拟抽取、转换和集成。数据虚拟化服务器可以将结构化数据和非结构化数据进行合并。数据仓库经常是数据虚拟化服务器的输入,但数据虚拟化服务器不会替代企业信息架构中的数据仓库。
8.3.3 企业服务总线
ESB既指软件体系结构模型,又指一种面向消息的中间件,用于在同一组织中的异构数据存储、应用程序和服务器之间实现近乎实时的消息传递。
ESB以异步格式使用,以实现数据的自由流动。
企业服务总线在各个环境中安装适配器或代理软件,在参与消息交换的各个系统上实现数据传入和传出的消息队列。
8.3.4 业务规则引擎
业务规则引擎中允许非技术用户管理软件的业务规则,因为业务规则引擎可以在不改变技术代码的情况下支持对预测模型的更改。
8.3.5 数据和流程建模工具
不仅用来设计目标结构,而且用来设计数据集成解决方案所需的中间数据结构。
8.3.6 数据剖析工具
包括对数据集的内容统计分析,以了解数据的格式、完整性、一致性、有效性和结构。
8.3.7 元数据存储库
元数据存储库包含有关组织中数据的信息,包括数据结构、内容以及用于管理数据的业务规则。
8.4 方法
基本目标是保持应用程序松散耦合,限制开发和管理接口的数量,使用中心辐射方法并创建标准规范的接口等。
8.5 实施指南
8.5.1 就绪评估/风险评估
基于多个系统之间实现集成的成本合理性
应保持在关注业务目标和需求上,包括确保每个项目中的参与者都有面向业务或应用程序的人员,而不仅仅是数据集成工具专家。
8.5.2 组织和文化变革
卓越中心团队,实现共享数据的一致标准
8.6 数据集成和互操作治理
8.6.1 数据共享协议
开发接口或以电子方式提供数据之前,应制定一份数据共享协议或谅解备忘录(MOU)。协议规定了交换数据的责任和可接受的使用用途,并由相关数据的业务数据主管批准。数据共享协议应指定预期的数据使用和访问、使用的限制以及预期的服务级别,包括所需的系统启动时间和响应时间。
8.6.2 数据集成和互操作与数据血缘
治理需要确保记录数据来源和数据移动的信息。数据共享协议可能规定了数据使用的限制。为了遵守这些限制,有必要知道数据在哪里移动和保留。
对数据流进行更改时需要数据血缘信息,必须将此信息作为元数据解决方案的关键部分进行管理。
8.6.3 度量指标
要衡量实现数据集成解决方案的规模和收益:包括可用性、数量、速度、成本和使用方面的指标。
1)数据可用性
请求数据的可获得性。
2)数据量和速度。包括:传送和转换的数据量,分析数据量,传送速度,数据更新与可用性之间的时延,事件与触发动作之间的时延,新数据源的可用时间。
3)解决方案成本和复杂度。包括:解决方案开发和管理成本,获取新数据的便利性,解决方案和运营的复杂度,使用数据集成解决方案的系统数量。
第9章 文件和内容管理
9.1 引言
文件和内容管理是针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理。重点在于保持文件和其他非结构化或半结构化信息的完整性,并使这些信息能够被访问。
9.1.1 业务驱动因素
主要业务驱动因素包括法规遵从性要求、诉讼响应能力和电子取证请求能力以及业务连续性要求。
提高效率是改进文件管理的驱动力。
9.1.2 目标和原则
目标:
1)确保能够高效地采集和使用非结构化的数据和信息
2)确保结构化和非结构化数据之间的整合能力
3)遵守法律义务并达到客户预期
原则:
1)组织中的每个人都应该在保护组织的未来方面发挥作用。
2)档案和内容处理方面的专家应充分参与制度和规划的制定
档案保存指导原则(GARP)
1)问责原则
2)完整原则
3)保护原则
4)遵从原则
5)可用原则
6)保留原则
7)处置原则
8)透明原则
9.1.3 基本概念
1、内容
内容是指文件、档案或网站内的数据和信息,通常基于文件所代表的概念以及文件的类型或状态来管理。
(1)内容管理
包括用于组织、分类和构造信息资源的流程、方法和技术,以便以多种方式存储、发布和重复使用这些资源。
(2)内容元数据
元数据对于管理非结构化的数据至关重要,无论是传统上认为的内容和文件,还是现在理解的“大数据”。如果没有元数据,就无法对内容进行编目和组织。非结构化数据内容的元数据基于:
1)格式
2)可搜索性
3)自我描述性
4)既有模式
5)内容主题
6)需求
(3)内容建模
内容建模是将逻辑内容概念转换为具有关系的内容类型、属性和数据类型的过程。属性描述关于该内容的一些特定的和可区分的信息;数据类型限制了属性可以包含的数据的类型,从而使验证和处理成为可能。元数据管理和数据建模技术用于开发内容模型。内容建模有两个层次:
第一是信息产品级别,产出一个像网站一样的实际可交付成果
第二是组件级别,进一步详细说明了构成信息产品模型的元素,模型中的详细程度取决于重用和构造所需的粒度。
(4)内容分发方法
1)推式
在推式系统中,用户按照预先确定的时间表选择传送给他们的内容类型。简易信息聚合RSS。
2)拉式
用户通过互联网获取内容
3)交互式
第三方电子销售点EPOS的应用或面向客户的网站,需要在企业应用之间交换大量的实时数据。应用程序之间共享数据的选项,包括企业应用程序集成(EAI)、更改数据采集、数据集成和EII
2、受控词表
是被明确允许用于通过浏览和搜索对内容进行索引、分类、标引、排序和检索术语的定义列表。系统地组织文件、档案和内容离不开受控词表。
(1)词汇表管理
提高信息存储和检索系统、web导航系统和其他环境的有效性手段,这些环境通过使用语言的某种描述来识别和定位所需的内容。控制词汇表的主要目的是实现采用一致并便于检索的方式描述内容对象
针对任何给定的词汇进行定义、寻源、导入和维护的过程。
(2)词汇表视图和微控制词汇表
词汇表视图是受控词表的子集,涵盖了受控词表领域内有限范围的主题。
微控制词汇表是包含一般词汇表中不包含的高度专业化术语的词汇表。
(3)术语和选择列表
术语列表仅仅就是一个列表
选择列表通常隐藏在应用程序中
(4)术语管理
术语管理包括在受控词汇表中建立术语之间的关系,关系类型可以分为以下3种:
1)等价术语关系
术语映射功能
2)层次化关系
广义到狭义或整体到部分
3)关联关系
相关联但非层次化
(5)同义词环和规范表
同义词环是指一组含义大致相同的术语。允许搜索其中一个术语的用户去访问与该词环其他术语相同的内容。目的是用于检索而非索引。
规范表是描述性术语的受控词汇表,旨在促进特定领域或范围内的信息检索。其术语处理方法和同义词环不同
(6)分类法
是指任何分类或受控词表的总称。最著名的是林奈开发的生物分类系统。分类法有不同的结构:
1)扁平分类法
2)层次分类法
地理信息,从大陆到街道
3)多重层级结构
它是具有多个节点关系规则的树状结构
4)面分类法
它指的是每个节点与中心节点相关联,其形状看起来像星型图。
5)网状分类法。
(7)分类方案和打标签
分类方案是代表受控词表的代码
大众分类法是通过社交标签对在线内容术语和名称分类的方案
(8)主题词表
又称叙词表,是一种用于内容检索的受控词表。
(9)本体
代表一套概念和它们在某个领域内概念之间的关联。
分类法和本体的两个主要区别:
1)分类法为给定的概念区域提供数据内容分类
2)在分类法或数据模型中,定义是已知的,别无其他,称为封闭世界假设。在本体中,基于现存的关系可以推断出可能的关系。因此未明确声明的内容也可能是真的,称之为开放世界假设。
避免落入导致歧义和混淆的常见陷阱,这类情况主要有:
1)无法区分实例关系和子类关系
2)将事件建模为关系
3)术语缺乏清晰度和独特性
4)将角色建模为类
5)无法重复使用
6)混淆建模语言的语义和概念
7)使用基于网络的、跨平台的工具(如OOPS)进行本体验证有助于陷阱的诊断和修复。
3、文件和档案
文件是包含任务说明,对执行任务或功能的方式和时间的要求以及任务执行和决策的日志等的电子或纸质对象。
只有部分文件才能称为档案。档案可用于证明所做的决策和所采取的行动是符合程序的;可作为组织业务活动和法规遵从的证据。
(1)文件管理
文件管理包括在文件和档案的整个生命周期中控制和组织它们的流程、方法和技术。它包括电子和纸质文件的存储、编目和控制。
1)编目
2)制度
3)分类
4)存储
5)检索和流转
6)保存和处置
(2)档案管理
是文件管理的一部分,管理档案有一些特殊的要求,包括整个档案的生命周期:从档案的创建或接收到处理、分发、组织和检索,再到处置。
精心管理的档案具有以下特点:
1)内容
2)背景
3)及时性
4)永久性
5)结构
(3)数字资产管理
4、数据地图
是所有ESI数据源、应用程序和IT环境的清单,其中包括应用程序所有者、保管人、相关地理位置和数据类型等信息。
5、电子取证
早期案例评估
早期数据评估
6、信息架构
1)受控词表
2)分类法和本体
3)元数据映射
4)搜索功能规格
5)用例
6)用户流
7、搜索引擎
是一种根据属于搜索信息并检索内容中包含这些术语网站的软件。
包含几个组件:
适当的搜索引擎软件、漫游网络的爬虫、将找到内容的统一资源定位符(URL)保留起来的存储、索引遇到的关键字和文本以及排名规则等。
8、语义模型
是一种知识建模,描述一系列概念网络以及它们之间的关系。
包含语义对象和语义约束。
9、语义搜索
侧重于语义和语境而非预先设定的关键字。
10、非结构化数据
11、工作流
内容管理系统(CMS)实现自动化
9.2 活动
9.2.1 规划生命周期的管理
文件生命周期的规划:从文件的创建或接收文件后的分发、存储、检索归档和潜在的销毁。规划包括开发分类/索引系统和分类法,以实现文件的存储和检索。
1、规划档案管理
2、制定内容策略
9.2.2 创建内容处理制度
文件管理制度
1)审计的范围和合理性
2)重要档案的鉴定和保护
3)保留档案的目的和保管期限表
4)如何响应信息保留命令,即针对已过保留期的诉讼信息要求
5)本地和异地存储档案的要求
6)硬盘驱动器和共享网络驱动器的使用和维护
7)对电子邮件管理,从内容管理的角度进行处理
8)合理的档案销毁方法,如预先批准的供应商和销毁证明的收据
(1)社交媒体制度
(2)设备访问制度
(3)处理敏感数据
(4)应对诉讼
9.2.3 定义内容信息架构
使用基于内容的索引或元数据搜索
基于用户的需求和偏好,索引的设计侧重于索引的关键或属性的决策选项。
确保构建受控词汇表、索引、信息检索分类方案工作的互相协调。
9.2.4 实施的生命周期管理
1、获取档案和内容
2、管理版本的控制
1)正式控制
2)修订控制
3)托管控制
3、备份和恢复
4、管理保管和处置
没有优先删除无附加值的信息是因为:
1)制度不适用
2)对某一个人来说是无附加值的信息,但对另一个人来说却是有价值的信息
3)无法预见当前的无附加值实体和/或电子档案未来可能的需求
4)对档案管理的不认可
5)无法决定删除哪些档案
6)做决定与移除实体和电子档案的感知成本
7)电子空间很便宜,购买更多的空间比归档和移除过程更容易
5、审计文件和档案
1)定义组织驱动因素
2)一旦确定检查测量的内容和要使用的工具,就开始收集相关数据
3)报告结果
4)制定下一步的行动计划和时间表
9.2.5 发布和分发内容
1、开放访问、搜索和检索
2、通过可接受的渠道分发
9.3 工具
9.3.1 企业内容管理系统
1、文件管理
基于不同规则的工作流
1)手动工作流
2)基于规则的工作流
3)动态规则
允许基于内容的不同工作流。
(1)数字资产管理
数字资产的编目、存储和检索
(2)图像处理系统
用于采集、转换和管理纸质件的影像和电子文件,采集使用的技术包括扫描、光识别和智能字符识别或表单处理。
光学字符识别OCR
智能字符识别ICR是一种更先进的可以处理打印和草书手写的文本
(3)档案管理系统
可能要有自动保管和处理、电子取证支持和长期归档的能力。支持重要的档案程序,以保留关键业务档案,可以与文件管理系统集成。
2、内容管理系统
content management system,CMS .用于收集、组织、索引和检索内容,将内容存储为组件或整个文件,同时保持组件之间的链接。还可以提供修改文档内容的控件。
3、内容和文件工作流
工作流工具支持业务流程、路由内容和文件、指派工作任务、跟踪状态以及创建审计跟踪。在内容发布之前,工作流应支持对内容的审核和批准。
9.3.2 协作工具
可用于收集、存储、工作流程和管理与团队活动相关的文件。社交网络可以使个人和团队在内部共享文件和内容,并通过博客、wikis、RSS和标签与外部团队进行交互。
9.3.3 受控词汇表和元数据工具
1)在组织中被用作数据指南的数据模型
2)文件管理系统和办公软件
3)元数据库、术语表或目录
4)分类法和分类法之间的交叉参考模式
5)集合索引、文件系统、民意调查、档案、位置或异地控股
6)搜索引擎
7)非结构化数据的BI工具
8)企业和部门同义词表
9)已发布的报告库、内容和参考书目及其目录。
9.3.4 标准标记和交换格式
1、可扩展标示语言(XML)
1)XML提供了将结构化数据整合到具有非结构化数据的关系型数据库中的功能
2)XML可以将结构化数据与文件、报表、电子邮件、图像、图形、音频和视频文件中的非机构化数据集成在一起。
3)XML还可以用于建立企业或公司门户网站(B2B、B2C),为用户提供了一个可以连接到各种内容的站点。
4)XML可以识别和标记非结构化数据/内容,以便计算机应用程序可以理解并处理它们
2、基于JavaScript的轻量级数据交换格式JSON
是一种开放的、轻量级的数据交换标准格式。它的文本格式独立于语言,易于解析,但仍是使用C语言家族的习惯方式。JSON有两个结构:一是无序“名称/值 对”集合,也被称为对象;二是值的有序集合,也被称为数组。
3、资源描述框架RDF和相关的万维网联盟W3C规范
RDF——主谓宾
网络本体语言(W3C Web Ontology Language,OWL)是RDF的词汇表扩展
简单知识组织系统(Simple Knowledge Organization System,SKOS)是一个RDF词汇表
4、Schema.org
提供了一组用于页面标记的共享词汇表或模式,以便主流的搜索引擎可以理解它们。侧重于网页上的文字含义以及术语和关键词。
词汇表集合还可用于结构化数据的互操作(如与JSON)
9.3.5 电子取证技术
电子取证技术提供了许多功能和技术,如早期案例评估、收集、辨认、保全、处理、光学字符识别(OCR)、剔除、相似性分析和电子邮件线程分析。技术辅助审查(TAR)是一个工作流或过程。在此过程中,团队可以审查选定的文件并标记相关与否。
9.4 方法
9.4.1 诉讼应诉手册
指引手册汇编内容包括:
1)给每个部门建立制度和过程清单
2)为各主题起草制度,如诉讼保留、文件保管、归档和备份
3)评估IT工具的能力,如电子取证索引、搜索和搜集、数据隔离和保护工具以及非结构化ESI源/系统
4)识别和分析相关的法律问题
5)制定沟通和培训计划,根据预期对员工进行培训
6)确定可以提前准备的材料,以便根据法律案例进行裁减
7)在需要外部服务的情况下分析供应商服务
8)制定如何处理通知的流程并保持指引手册的最新状态
9.4.2 诉讼应诉数据映射
数据映射是一个信息系统的目录,描述了系统以及系统的用途、包含的信息、保留策略和其他特征。从目录中通常会识别档案系统、源应用系统、存档、灾难恢复副本或备份以及用于每个系统的介质。
9.5 实施指南
9.5.1 就绪评估/风险评估
ECM就绪评估的目的是确定内容管理需要改进的方面,以及组织对改变其流程以满足这些需求的适应程度。数据管理成熟度评估模型可以在此过程中提供帮助。
具体的ECM关键成功因素包括对现有内容的审核和分类、合适的信息体系结构、内容生命周期的支持、适当元数据标签的定义以及在ECM解决方案中自定义的功能的能力。
1、档案管理成熟度
ARMA的公认档案保管原则:
1)1级,低于标准的
2)2级,发展中的,认识到信息治理和档案保管可能对组织产生的影响
3)3级,基本的,必须满足法律法规的最低要求
4)4级,积极的,已经建立了一个以持续改进为重点的主动式信息治理计划
5)5级,完成变革的。信息治理已经融入企业的基础架构和业务流程中。
2、电子取证评估
9.5.2 组织和文化变革
理想的解决方案是集中和安全管理的单一存储库,在整个企业中实施明确定义的策略和流程。
9.6 文件和内容治理
9.6.1 信息治理架构
驱动因素包括:
1)法律和法规遵从
2)档案的合理处置
3)对电子取证的前瞻性准备
4)敏感信息的安全
5)电子邮件和大数据等风险领域的管理
GARP原则:
1)为问责制度提供高层支持
2)教育员工了解信息治理制度
3)根据正确的档案代码或分类类目对信息进行分类
4)确保信息的真实性和完整性
5)确保官方档案是电子档案,除非另有规定
6)制定制度,使业务系统和第三方信息与信息治理标准保持一致
7)存储、管理、访问、监控和审核已批准的企业存储库以及档案和内容系统
8)保护机密或个人身份信息
9)控制不必要的信息增长
10)在信息的生命周期结束时对其进行处置
11)遵守信息的请求(如取证、传票等)
12)持续改进
信息治理参考模型(IRGM)
展示了信息治理与其他组织功能的关系。外环包括了实施信息管理过程中涉及的制度、标准、流程、工具和基础架构等方面,中心展示了一张生命周期图。
9.6.2 信息的激增
一般来说,非结构化数据的增长速度远远快于结构化数据,这增加了治理的难度。
9.6.3 管理高质量的内容
1)生产者
2)消费者
3)时间
4)格式
5)分发
9.6.4 度量指标
1、档案管理
衡量档案管理实施成功的标准:
1)每个用户有百分之几的文件和电子邮件被认定为是公司的档案
2)被认定为公司档案中有百分之几得到了控制
3)在所有存储的档案中有百分之几的档案应用了适当的保管规则
2、电子取证
电子取证常见的一个KPI指标是成本降低,另一个KPI指标是对比被动收集信息的方式,提前收集信息时提高的效率。还有一个是组织可以快速地进行法律保留通知的过程
主要集中在的7个方面:活动、监护人、系统、介质、状态、格式和质量保证。
3、企业内容管理
指定一些与业务解决方案的价值相关的KPI,如:
1)财务KPI可以包括ECM系统的成本、与物理存储相关的成本降低以及运营成本下降的百分比
2)客户KPI可以包括首次与客户联系时就解决了他的问题的比例和客户投诉的数量
3)代表更有效和更高效的内部业务流程的KPI可以包括在使用工作流程和过程自动化后。文书工作减少的百分比以及错误减少的百分比
4)培训KPI可包括管理和非管理培训课程的数量
5)风险缓解KPI可以包括取证成本的降低以及追踪电子取证请求的审计跟踪数量。
规划指标
ECM项目数、采用率和用户满意度
运营指标
停机时间、用户数量
特定ECM指标
存储利用率(如使用企业内容管理前后的存储容量对比)
检索性能
信息检索能力
查准率
检索到的文件与实际相关的比率
查全率
检索到的涉及所有相关文档的比率
第10章 参考数据和主数据
10.1 引言
10.1.1 业务驱动因素
1)满足组织数据需求
2)管理数据质量
3)管理数据集成的成本
4)降低风险
集中管理的参考数据会使组织获得如下好处:
1)通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本
2)提升参考数据的质量
10.1.2 目标和原则
目标:
1)确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据
2)促使企业在各业务单元和各应用系统之间共享参考数据和主数据
3)通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及其复杂性。
原则:
1)共享数据
2)所有权
3)质量
4)管理职责
5)控制变更
①在给定的时间点,主数据值应该代表组织对准确和最新内容的最佳理解。改变数据值的匹配规则,应该在有关监督下谨慎地运用。任何合并或拆分参考数据和主数据的操作都应该是可追溯的。
②对参考数据的更改应该遵循一个明确的流程:在实施变更之前应该进行沟通并得到批准
6)权限
10.1.3 基本概念
1、主数据和参考数据的区别
奇泽姆六层数据分类法
元数据、参考数据、企业结构数据、交易结构数据、交易活动数据和交易审计数据
主数据定义为参考数据、企业结构数据和交易结构数据的聚合
1)参考数据
代码表和描述表,仅用于描述组织中的其他数据,或者仅用于将数据库中的数据与组织之外的信息联系起来。
2)企业结构数据
会计科目表
3)交易结构数据
客户标识符
主数据是以与业务活动相关的通用和抽象概念形式提供业务活动语境的数据,包括业务交易中涉及的内部和外部对象的详细信息。
主数据面临的主要挑战是实体解析,也称身份管理,它是识别和管理来自不同系统和流程的数据之间的关联的过程。
参考数据不易变化,它的数据集通常会比交易数据集或主数据集小、复杂程度低,拥有的列和行也更少。
参考数据和主数据的管理重点不同:
1)参考数据管理(RDM)。需要对定义的域值及其定义进行控制。参考数据管理的目标是确保组织能够访问每个概念的一整套准确且最新的值。
2)主数据管理(MDM)。需要对主数据的值和标识符进行控制,以便能够跨系统地、一致地使用核心业务实体中最准确、最及时的数据。目标包括确保当前值的准确性和可用性,同时降低由那些不明确的标识符所引发的相关风险。
2、参考数据
是指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据。
参考数据常用的存储技术包括:
1)关系数据库中的代码表
2)参考数据管理系统
3)用特定于对象属性的元数据指定允许值,重点在于应用程序的调用接口或用户界面访问。
(1)参考数据结构
1)列表
由代码值和代码描述组成的列表。
2)交叉参考数据列表
不同的应用程序可以使用不同的代码集表示相同的概念。
3)分类法
根据不同级别的差异性获取信息
利用内容分类和多方位的导航以支持商务智能
也可以维护数据层次信息
4)本体
将用于管理网站内容的本体作为参考数据的一部分。
(2)专有或内部参考数据
创建参考数据来支持内部流程和应用
(3)行业参考数据
用于描述由行业协会或政府机构而不是由某个组织创建和维护的数据集
(4)地理或地理统计参考数据
(5)计算参考数据
如外汇依赖于及时更新的交换汇率值表
(6)标准参考数据集的元数据
3、主数据
主数据是有关业务实体的数据,这些实体为业务交易和分析提供了语境信息。
一般组织的主数据包括下列事物的数据:
1)参与方
2)产品和服务
3)财务体系
4)位置信息
(1)记录系统,参考系统
记录系统是一个权威的系统,它通过使用一套定义好的规则和预期来创建、获取并维护数据。
参考系统也是一个权威系统,数据消费者可以从参考系统中获得可靠的数据来支持交易和分析,即使这些信息并非起源于参考系统。
主数据管理应用(MDM)、数据共享中心(DSH)、数据仓库DW通常会被用作参考系统
(2)可信来源,黄金记录
基于自动规则和数据内容的手动管理的结合,可信来源是事实的最佳版本
可信来源也被称为单一视图、360度视图
在可信来源中,表示一个实体、实例的最准确数据的记录可以被称为黄金记录
(3)主数据管理
一个技术支持的领域,在这个过程中业务和技术协同工作,以确保企业官方共享主数据资产的统一性、准确性、管理性、语义一致性和问责性。主数据是由标识符和扩展属性组成的一个一致且统一的集合,它描述了企业的核心实体,包括客户、潜在客户、企业公民、供应商、位置、层次结构和会计科目等。
评估一个组织的主数据管理情况,需要识别以下几点:
1)哪些角色、组织、地点和事物被反复引用
2)哪些数据被用来描述人、组织、地点和事物。
3)数据是如何被定义和设计的,以及数据粒度细化程度如何。
4)数据在哪里被创建或来源于哪里,在哪里被储存、提供和访问
5)数据通过组织内的系统时是如何变化的
6)谁使用这些数据,为了什么目的
7)用什么标准来衡量数据及其来源的质量和可靠性
在一个域内规划主数据管理包括以下几个基本步骤:
1)识别能提供主数据实体全面视图的候选数据源
2)为精确匹配和合并实体、实例制定规则
3)建立识别和恢复未恰当匹配或合并的数据的方法
4)建立将可信数据分发到整个企业的系统中的方法
全生命周期中的关键活动包括:
1)建立主数据实体的上下文,包括相关属性的定义及其使用条件,并加以治理
2)识别出在单个数据源内以及多个数据源中代表同一实体的多个实例;构建并维护标识符和交叉引用,以支持信息整合
3)协调和整合不同来源的数据,以提供主记录或事实的最佳版本。
4)识别出那些未被正确匹配或合并的实例,确保它们得到修正,并关联到正确的标识符
5)通过直接存取、使用数据服务,或通过复制反馈到交易系统、数据仓库或其他分析性数据存储系统,实现对可信数据的跨程序访问
6)在组织内强制使用主数据
(4)主数据管理的关键处理步骤
包括数据模型管理、数据采集、数据验证、标准化和数据丰富、实体解析、管理和共享
1)数据模型管理
主数据工作揭示了清晰一致的逻辑数据定义的重要性。这些模型应该能够帮助组织克服”系统发言“的状况。
2)数据采集
①接收并应对新的数据源采集的要求
②使用数据清理和数据分析工具进行快速、即时、匹配或高级的数据质量评估
③评估数据并将数据整合的复杂性传递给请求者,以帮助他们进行成本效益分析
④试点数据采集及其对匹配规则的影响
⑤为新数据源确定数据质量指标
⑥确定由谁负责监控和维护新数据源数据的质量
⑦完成与整体数据管理环境的集成
3)数据验证、标准化和数据丰富
①验证
识别那些被证明是错误的或可能是不正确或默认的数据
②标准化
确保数据内容符合标准参考数据值、标准的格式或字段
③数据丰富
添加可以改进实体解析服务的属性。
4)实体解析和标识符管理
实体解析时确定两个对现实世界对象的引用到底是指同一对象还是不同对象的过程。
实体解析包括一系列活动(实例提取、实例准备、实例解析、身份管理、关系分析),这些活动能够使实体、实例的身份以及实体、实例之间的关系持续地被管理。
①匹配
a)假阳性
不代表同一实体的两个对象被关联在一个标识符下,假阳性导致一个标识符指向多个现实世界的实体实例
b)假阴性
代表同一实体的两个对象没有被关联在一个标识符下。假阴性导致多个标识符指向同一现实世界的实体,但一个实体本应该只有一个标识符
相似性分析或匹配,通常基于相应属性值之间的加权近似匹配对两个记录之间的相似程度进行评分。
a)确定式算法
解析和标准化依靠确定的模式和规则,按照指定的权重计算相似度的分值
b)或然式算法
依赖于训练数据的采集能力,训练是需要观察全部记录的一个子集的预期结果,再进行匹配器调优,实现匹配器基于统计结果的自我调整。
②身份解析
③匹配流程/协调类型
a)重复表示匹配规则
重点关注一组特定的数据元素,这些元素能够唯一地标识实体,识别合并机会而不采取自动合并操作。
b)匹配链接规则
标识可能与主记录相关的记录,只建立交叉引用关系而不更新这些被交叉引用的记录的内容;更容易实现也容易撤销
c)匹配合并规则
重点关注记录的匹配,并将这些记录中的数据合并为单一、统一、协调且全面的记录。
④主数据ID管理
管理主数据涉及管理标识符,在主数据管理环境中,有两种类型的标识符需要跨数据源管理:全局标识符(Global ID)、交叉引用(X-Ref)信息
全局标识符是主数据管理解决方案分配和维护的唯一标识符,它会被附加到协调记录中,其目的是能够唯一地标识一个实体实例。
全局标识符(Global ID)都应该只由一个授权解决方案生成,以避免出现重复值的风险。
全局标识符需要解决的难题是,在发生反合并/再合并的情况下如何维护正确的全局标识符。
交叉引用管理(X-Ref Management)应该包括维护此类映射历史的功能以支持匹配率指标,并开放查找服务以支持数据整合
⑤从属关系管理
a)隶属关系
b)父子关系
c)数据共享和管理责任
(5)参与方主数据
参与方主数据是关于个人、组织以及他们在业务关系中所扮演的角色的数据。
面临的挑战:
1)个人和组织扮演的角色和他们之间关系的复杂性
2)唯一标识的困难
3)数据源的数量和它们之间的差异
4)多个移动通信信道和社交渠道
5)数据的重要性
6)客户想要怎样参与的期望
(6)财务主数据
包括有关业务部门、成本中心、利润中心、总账账户、预算、计划和项目的数据。ERP系统充当财务主数据的中心枢纽。
(7)法律主数据
包括关于合同、法规和其他法律事务的数据。允许对提供相同产品或服务的不同实体的合同进行分析以便更好地协商谈判,或将这些合同合并到主协议中。
(8)产品主数据
专注于组织的内部产品和服务,或全行业的产品和服务。不同类型的产品主数据解决方案支持不同的业务功能。
1)产品生命周期管理(PLM)系统侧重于从构想、开发、制造、销售、交付、服务和废弃等方面管理产品或服务的生命周期。组织通过实施产品生命周期管理系统以加快产品的上市。
2)产品数据管理(PDM)系统通过捕获和实现对设计文档(如CAD图样)、配方(制造说明书)、标准操作程序和物料清单(BOM)等产品信息的安全共享,以支持工程和制造功能。产品数据管理功能可以通过专门的系统或ERP系统实现。
3)企业资源规划(ERP)系统的产品数据主要关注库存单位,以支持从订单录入到库存阶段,可以通过多种技术识别各种独立的产品。
4)制造执行系统(MES)中的产品数据主要关注原材料库存、半成品和成品,其中成品与可以通过ERP系统来存储和订购的产品相关联。
5)客户关系管理(CRM)系统支持营销、销售和交互支持,系统中的产品数据可以包括产品系列和品牌、销售代表协会、客户区域管理以及营销活动等。
(9)位置主数据
提供跟踪和共享地理信息的能力,并根据地理信息创建层次关系或地图。
1)位置参考数据通常包括行政区域数据
2)位置主数据包括业务方地址和位置
(10)行业主数据——参考目录
参考目录是主数据实体(公司、人员、产品等)的权威清单,组织可以购买和使用主数据实体作为交易的基础。虽然参考目录是由外部组织创建的,但管理并协调妥善的信息版本是在组织自己的系统中进行维护的。
参考目录可以通过以下方式帮助用户更好地使用主数据:
1)为新纪录的匹配和连接提供起始点
2)提供在记录创建时可能较难获得的其他数据元素
3)当组织的记录与参考目录匹配、协调时,可信记录将偏离参考目录,并且可追溯到其他源记录,贡献属性和转换规则。
4、数据共享架构
1)注册表
是指向多种记录系统中主数据记录的索引。记录系统管理应用程序本地的主数据,可以根据主索引访问主数据
2)交易中心
各应用程序与中心系统交互,实现对主数据的访问和更新。
3)混合模式
混合模式是注册表和交易中心的混合体。记录系统管理应用程序本地的主数据。主数据在一个公共存储库中被合并,并经由数据共享中心实现共享。
10.2 活动
10.2.1 主数据管理活动
1、识别驱动因素和需求
驱动因素包括改善客户服务和运营效率,以及减少与隐私和法律法规有关的风险
障碍包括系统之间在数据含义和结构上的差异。
2、评估和评价数据源
主数据管理的工作结果之一可能是通过评估现有数据的质量来改进元数据。
评估数据源的目标之一是根据组成元数据的属性来了解数据的完整性。
3、定义架构方法
主数据管理的架构方法取决于业务战略、现有数据源平台以及数据本身,特别是数据的血缘和波动性以及高延迟或低延迟的影响。
4、建模主数据
5、定义管理职责和维护过程
6、建立治理制度,推动主数据使用
10.2.2 参考数据管理活动
1、定义驱动因素和需求
驱动因素是运行效率和更高的数据质量
2、评估数据源
3、定义架构方法
4、建模参考数据
5、定义管理职责和维护流程
6、建立参考数据治理制度
10.3 工具和方法
数据整合工具、数据修复工具、操作型数据存储(ODS)、数据共享中心(DSH)、专门的主数据管理应用来实现。
10.4 实施指南
10.4.1 遵循主数据架构
整合方法应考虑企业组织架构、记录系统的数量、数据治理实施、数据访问延迟的重要性以及消费系统和应用程序的数量。
10.4.2 监测数据流动(实现以下目的:
1)显示数据如何在整个组织中共享和使用
2)在管理系统和应用程序中识别数据的血缘关系
3)辅助进行问题根本原因的分析
4)展示数据整合和消费整合技术的有效性
5)通过数据消费展示源系统的数据值延迟
6)确定在集成组件中执行的业务规则和转换的有效性。
10.4.3 管理参考数据变更
数据修改的类型包括:
1)对外部参考数据集的行级变更
2)外部参考数据集的结构变化
3)对内部参考数据集的行级变更
4)内部参考数据集的结构变化
5)创建新的参考数据集
10.4.4 数据共享协议
为确保恰当的访问和使用,应建立共享协议,规定哪些数据可以共享,以及在何种条件下可以共享。
10.4.5 组织和文化变革
10.5 参考数据和主数据治理
10.5.1 治理过程决定事项
1)要整合的数据源
2)要落实的数据质量规则
3)遵守使用规则的条件
4)要监控的行动和监控频率
5)优先级和数据工作响应等级
6)如何展示信息以满足利益相关方的需求
7)参考数据管理和主数据管理部署的标准授权扎口和预期。
10.5.2 度量指标
1)数据质量和遵从性
指标应该说明主题域实体或相关属性的置信度(百分比),以及它在整个组织中符合实际需求的使用价值。
2)数据变更活动
指标展示数据值的变化率
3)数据获取和消费
指标应该显示和追踪哪些系统在贡献数据,哪些业务区域在共享环境中订阅数据
4)服务水平协议(SLA)
5)数据管理专员覆盖率
指标应该关注对数据内容负责的个人或团队,并展示覆盖率的评估频率
6)拥有总成本
成本可以包括环境基础设施、软件许可证、支持人员、咨询费、培训等
这一指标的有效性是基于其在整个组织中的持续应用。
7)数据共享量和使用情况
指标展示数据共享环境中流入和流出数据的定义,纳入和订阅的数量和速率
第11章 数据仓库和商务智能
11.1 引言
11.1.1 业务驱动因素
数据仓库建设的主要驱动力是运营支持职能、合规需求和商务智能活动。
11.1.2 目标和原则
目标:
1)支持商务智能活动
2)赋能商业分析和高效决策
3)基于数据洞察寻找创新方法
原则:
1)聚焦业务目标
2)以终为始
3)全局性的思考和设计,局部性的行动和建设
4)总结并持续优化,而不是一开始就这样做
5)提升透明度和自助服务
6)与数据仓库一起建立元数据
7)协同
8)不要千篇一律
11.1.3 基本概念
1、商务智能
第一层含义:商务智能指的是一种理解组织诉求和寻找机会的数据分析活动。数据分析的结果用来提高组织决策的成功率。
第二层含义:商务智能指的是支持这类数据分析活动的技术集合
2、数据仓库
一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序
广义上来说,数据仓库包括为任何支持商务智能目标的实现提供数据的数据存储或提取操作。
3、数据仓库建设
指的是数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。
建设流程的重点,是通过强制业务规则、维护适当的业务数据关系,在运营的数据上实现一个集成的、历史的业务环境。
4、数据仓库建设的方法
1)数据仓库存储的数据来自其他系统
2)存储行为包括以提升数据价值的方式整合数据
3)数据仓库便于数据被访问和分析使用
4)组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
5)数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析
5、企业信息工厂(Corporate Information Factory)
1)面向主题的
2)整合的
3)随时间变化的
4)稳定的
5)聚合数据和明细数据
6)历史的
CIF的组成部分包括:
1)应用程序
2)数据暂存区
3)集成和转换
4)操作型数据存储(ODS)
5)数据集市
6)操作型数据集市(OpDM)
7)数据仓库
8)运营报告
9)参考数据、主数据和外部数据
6、多维数据仓库
1)业务源系统
2)数据暂存区域
3)数据展示区域
4)数据访问工具
7、数据仓库架构组件
(1)源系统
(2)数据集成ETL
(3)数据存储区域
1)暂存区
2)参考数据和主数据一致性维度
存储在单独的存储库中
3)中央数据仓库
完成转换和准备流程后,数据仓库中的数据通常会保留在中央或原子层中。该区域的数据结构是根据性能需求和使用模式来设计和开发的。数据结构的设计元素包括:
①基于性能考虑而设计的业务主键和代理主键之间的关系
②创建索引和外检以支持维度表
③用于检测、维护和存储历史记录的变更数据捕获
4)操作型数据存储(ODS)
中央持久存储的一个解决方案,支持较低的延迟
5)数据集市
用于支持数据仓库环境的展示层,还用于呈现数据仓库的部门级或功能级子集,以便对历史信息进行集成报表、查询和分析。
6)数据立方体
存在三种经典的支持在线分析处理系统(OLAP)实现方法:基于关系数据库的、基于多维数据库的混合型存储结构的,它们的名称与底层数据库类型有关。
8、加载处理的方式
(1)历史数据
数据仓库的一个优势是它可以捕获所存储数据的详细历史记录。有多种不同的方法来捕捉这些详细信息,想要获取历史数据信息,组织应该根据需求进行针对性设计。
另一种方法称作DataVault,作为数据暂存处理的一部分,同样进行数据清洗和标准化,历史数据以规范化的原子结构存储,每个维度定义了代理键、主键、备用键。
(2)批量变更数据捕获
(3)准实时和实施数据加载
准实时的两个关键设计概念是变更隔离和批处理的替代方案
批处理的替代方案三种:
1)涓流式加载(源端累积)
是以更频繁的节奏或者以阈值的方式进行批量加载,允许白天就做批处理操作
2)消息传送(总线累积)
极小的数据报发布到消息总线时,实时或近实时的消息交互
3)流式传送(目标端累积)
用缓冲区或队列方式收集数据并按顺序处理。
11.2 活动
11.2.1 理解需求
11.2.2 定义和维护数据仓库/商务智能架构
1、确定数据仓库/商务智能技术架构
最佳架构将提供一种能够以原子化的数据处理方式支撑交易级和运营级报表需求的机制,这种机制可以避免数据仓库存贮每一笔交易细节。
2、确定数据仓库/商务智能管理流程
标准的发布计划
有效的发布流程
11.2.3 开发数据仓库和数据集市
三条并存的构建轨迹
1)数据
2)技术
3)商务智能工具
1、将源映射到目标
源到目标的映射为从各个源系统到目标系统的实体和数据元素建立转换规则。
最困难的是确定多个系统中数据元素之间的链接有效性或等效性,考虑将多个计费或订单管理系统的数据合并到一个数据仓库中的工作,可能包含等效数据的表和字段用的不是相同的名字或结构。
2、修正和转换数据
强化数据修正或清理活动的执行标准,并纠正和增强各个数据元素的域值。
乐观加载策略
可以包括创建维度记录以容纳事实数据,这样的过程必须考虑如何更新和处理这些记录
悲观加载策略
应该考虑一个事实数据的回收区域,并在以后重新加载。实际处理的时候应考虑首先加载回收区的记录在处理新内容。
11.2.4 加载数据仓库
确定数据加载方法考虑的关键因素是:
数据仓库和数据集市所需的延迟要求
源可用性
批处理窗口或上载间隔
目标数据库及时间帧的一致性
变更数据捕获的过程检测源系统中的数据变更
11.2.5 实施商务智能产品组合
1、根据需要给用户分组
2、将工具与用户要求相匹配
11.2.6 维护数据产品
1、发布管理
2、管理数据产品开发生命周期
3、监控和调优加载过程
性能瓶颈和性能的依赖路径
数据库调优技术、分区、备份调优和恢复策略调整、数据归档是一个难题
4、监控和调优商务智能活动和性能
最佳实践是定义和显示一组面向客户满意度的指标,如平均查询响应时间,每天、每周或每月的用户数就是有用的指标。
定期审查使用情况的统计数据和使用方法非常重要
透明度和可见性是推动数据仓库/商务智能的关键原则
11.3 工具
11.3.1 元数据存储库
1、数据字典和术语
2、数据和数据模型的血缘关系
1)调查数据问题的根本原因
2)对系统变更或确定数据的可靠性
3)根据数据来源确定数据的可靠性
11.3.2 数据集成工具
1)过程审计、控制、重启和调度
2)在执行时有选择地提取数据元素并将其传递给下游系统进行审计的能力
3)控制哪些操作可以执行或不能执行,并重新启动那些失败或中止的进程。
11.3.3 商务智能工具的类型
1、运营报表
指的是业务用户直接从交易系统、应用程序或数据仓库生成报表。
2、业务绩效管理(BPM)
绩效管理是一套集成的组织流程和应用程序,旨在优化业务战略的执行。应用程序包括预算、规划和财务合并。
包括对组织目标一致性的指标的正式评估,此评估通常发生在高管层面。使用战略上午智能工具支持企业的长期目标。
3、运营分析应用(描述性的自助分析)
在线分析处理(OLAP)是一种多维分析查询提供快速性能的方法。
传统的应用程序是财务分析,分析师希望反复遍历已知的层次结构来分析数据。
构建数据立方体以提供所需的功能需求,可能需要将较大的维度拆分为单独的数据立方体,以适应存储、加载或计算要求。
在数据立方体中配置基于角色的安全性或多语言文本,可能需要额外的维度、附加功能、计算或创建单独的数据立方体结构。
1)切片
多维数组的子集,对应不在子集中的维度的一个或多个成员的单个值
2)切块
切块操作是数据立方体上两个以上维度的切片
3)向下/向上钻取
在不同数据级别之间导航
4)向上卷积
需要先定义计算关系或公式
5)透视
更改页面的展示维度
三种经典的OLAP实现方法如下:
1)关系型联机分析处理(ROLAP)
通过在关系数据库(RDBMS)的二维表中使用多维技术来支持OLAP。常用星型架构
2)多维矩阵型联机分析处理(MOLAP)
MOLAP通过使用专门的多维数据库技术支持OLAP
3)混合型联机分析处理(HOLAP)
它是ROLAP和MOLAP的结合。允许部分数据以MOLAP形式存储,另一部分存储在ROLAP中
11.4 方法
11.4.1 驱动需求的原型
对源数据的状态评估有助于对集成可行性和工作范围进行更准确的前期估算。
11.4.2 自助式商务智能
包括消息传递、警报、查看预定的生产报表、与分析报表交互、开发即席查询报表,当然还有仪表盘和计分卡功能。报表可以按标准计划推送到门户。
11.4.3 可查询的审计数据
11.5 实施指南
11.5.1 就绪评估/风险评估
数据仓库应该能够实现以下几点:
1)明确数据敏感性和安全性约束
2)选择工具
3)保障资源安全
4)创建抽取过程以评估和接收源数据
11.5.2 版本路线图
建议将数据仓库总线矩阵作为一个沟通和推广的工具在逐步迭代的过程中使用。
11.5.3 配置管理
与发布路线图保持一致,并提供必要的后台调整和脚本,以自动化开发、测试和发布到生产,还通过数据库级别的发布来标记模型,并以自动化的方式将代码库与该标记联系起来,以便在整个环境中协调手动的编码、生成的程序和语义层的内容并进行版本控制。
11.5.4 组织与文化变革
1)业务倡议
2)业务目标和范围
3)业务资源
4)业务准备情况
5)愿景一致
11.6 数据仓库/商务智能治理
11.6.1 业务接受度
业务对数据的接受程度,包括可以理解的数据、具有可验证的质量,以及具有可证明的数据血缘关系
1)概念数据模型
2)数据质量反馈循环
3)端到端元数据
4)端到端可验证数据血缘
11.6.2 客户/用户满意度
11.6.3 服务水平协议
11.6.4 报表策略
包括标准、流程、指南、最佳实践和程序,它将确保用户获得清晰、准确和及时的信息。策略必须解决如下问题:
1)安全访问
2)描述用户交互、报告、检查或查看其数据的访问机制
3)用户社区类型和使用它的适当工具
4)报表摘要、详细信息、例外情况以及频率、时间、分布和存储格式的本质
5)通过图形化输出发挥可视化功能的潜力
6)及时性和性能之间的权衡
11.6.5 度量指标
1、使用指标
包括注册用户数、连接用户数、并发用户数;审核用户、已生产的用户查询量和使用用户
2、主题域覆盖率
衡量每个部门访问仓库的程度(从数据拓扑的角度来看),还强调哪些数据四跨部门共享的,哪些还不是但也可能是共享的
3、响应时间和性能指标
第12章 元数据管理
12.1 引言
元数据不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理是不可或缺的。
12.1.1 业务驱动因素
可靠且良好的元数据管理有助于:
1)通过提供上下文语境和执行数据质量检查提高数据的可信度
2)通过扩展用途增加战略信息(如主数据)的价值
3)通过识别冗余数据和流程提高运营效率
4)防止使用过时或不正确的数据
5)减少数据的研究时间
6)改善数据使用者和IT专业人员之间的沟通
7)创建准确的影响分析,从而降低项目失败的风险
8)通过缩短系统开发生命周期时间缩短产品上市时间
9)通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响
10)满足监管合规
管理不善容易导致的问题:
1)冗余的数据和数据管理流程
2)重复和冗余的字典、存储库和其他元数据存储
3)不一致的数据元素定义和与数据滥用的相关风险
4)元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心
5)怀疑元数据和数据的可靠性
12.1.2 目标和原则
目标:
1)记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性
2)收集和整合来自不同来源的元数据,以确保人们了解来自不同组织不同部门的数据之间的相似与差异
3)确保元数据的质量、一致性、及时性和安全
4)提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据
5)推广或强制使用技术元数据标准,以实现数据交换
原则:
1)组织承诺
2)战略
3)企业视角
4)潜移默化
5)访问
6)质量
7)审计
8)改进
12.1.3 基本概念
1、元数据与数据
元数据也是一种数据。一个人的元数据可能是另一个人的数据
2、元数据的类型
信息技术之外的类别:
1)描述元数据
描述资源并支持识别和检索,如作者标题等
2)结构元数据
描述资源及其组件之间的关系,如字数章节
3)管理元数据
描述管理生命周期的元数据,如版本号存档日期等
(1)业务元数据
主要关注数据的内容和条件,另包括与数据治理相关的详细信息。包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。
1)数据集、表和字段的定义和描述
2)业务规则、转换规则、计算公式和推导公式
3)数据模型
4)数据质量规则和检核结果
5)数据的更新计划
6)数据溯源和数据血缘
7)数据标准
8)特定的数据元素记录系统
9)有效值约束
10)利益相关方联系信息(数据所有者、数据管理专员)
11)数据的安全/隐私级别
12)已知的数据问题
13)数据使用说明
(2)技术元数据
提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。
1)物理数据库表名和字段名
2)字段属性
3)数据库对象的属性
4)访问权限
5)数据GRUD增删改查规则
6)物理数据模型,包括数据表名、键和索引
7)记录数据模型与实物资产之间的关系
8)ETL作业详细信息
9)文件格式模式定义
10)源到目标的映射文档
11)数据血缘文档,包括上游和下游变更影响的信息
12)程序和应用的名称和描述
13)周期作业(内容更新)的调度计划和依赖
14)恢复和备份规则
15)数据访问的权限、组、角色
(3)操作元数据
描述了处理和访问数据的细节
1)批处理程序的作业执行日志
2)抽取历史和结果
3)调度异常处理
4)审计、平衡、控制度量的结果
5)错误日志
6)报表和查询的访问模式、频率和执行时间
7)补丁和版本的维护计划和执行情况,以及当前的补丁级别
8)备份、保留、创建日期、灾备恢复预案
9)服务水平协议(SLA)要求和规定
10)容量和使用模式
11)数据归档、保留规则和相关归档文件
12)清洗标准
13)数据共享规则和协议
14)技术人员的角色、职责和联系信息
3、ISO/IEC 11179元数据注册标准
提供了用于定义元数据注册的框架,旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换。
1)数据元素生成和标准化框架
2)数据元数据分类
3)数据元素的基本属性
4)数据定义的形成规则和指南
5)数据元素的命名和识别原则
6)数据元素的注册
4、非结构化数据的元数据
描述元数据,如目录信息和同义关键字
结构元数据,如标签、字段结构、特定格式
管理元数据,如来源、更新计划、访问权限和导航信息
书目元数据,如图书馆目录条目
记录元数据,如保留策略
保存元数据,如存储、归档条件和保存规则
5、元数据来源
(1)应用程序中元数据存储库
(2)业务术语表
1)业务用户
2)数据管理专员
业务术语表应包含业务术语属性:
1)术语名称、定义、缩写或简称,以及任何同义词
2)负责管理与术语相关的数据的业务部门和/或应用程序
3)维护术语的人员姓名和更新日期
4)术语的分类或分类间的关联关系(业务功能关联)
5)需要解决的冲突定义、问题的性质、行动时间表
6)常见的误解
7)支持定义的算法
8)血缘
9)支持该术语的官方或权威数据来源
(3)商务智能工具
(4)配置管理工具
(5)数据字典
数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库。可用于管理数据模型中每个元素的名称、描述、结构、特征、存储要求、默认值、关系、唯一性和其他属性。还包含表或文件定义
(6)数据集成工具
(7)数据库管理和系统目录
数据库目录是元数据的重要来源,它们描述了数据库的内容、信息大小、软件版本、部署状态、网络正常运行时间、基础架构正常运行时间、可用性,以及许多其他操作元数据属性。
(8)数据映射管理工具
(9)数据质量工具
(10)字典和目录
(11)事件消息工具
(12)建模工具和存储库
生成与应用程序或系统模型设计相关的元数据,如主题域、逻辑实体、逻辑属性、实体和属性关系、父类型和子类型、表、字段、索引、主键和外键、完整性约束以及模型中其他类型的属性。
(13)参考数据库
记录各种类型的枚举数据的业务价值和描述,在系统的上下文中使用。
(14)服务注册
是从面向服务的架构(SOA)角度管理和存储有关服务和服务终端的技术信息,如定义、接口、操作、输入和输出参数、制度、版本和示例使用场景。一些与服务相关的最重要的元数据包括服务版本、服务位置、数据中心、可用性、部署日期、服务端口、IP地址、统计端口、连接超时和连接重试超时。
(15)其他元数据存储
事件注册表、源列表或接口、代码集、词典、时空模式、空间参考、数字地理数据集的分发、存储库的存储库和业务规则
6、元数据架构的类型
元数据生命周期:
1)元数据创建和采集
2)元数据在一个或多个存储库中存储
3)元数据集成
4)元数据交付
5)元数据使用
6)元数据控制和管理
(1)集中式元数据架构
由单一的元数据存储库组成,包含来自各种不同源的元数据副本。集中式存储库的优点有:
1)高可用性
2)快速的元数据检索,因为存储库和查询功能在一起
3)解决了数据库结构的问题,使其不受第三方或商业系统特有属性的影响
4)抽取元数据时可进行转换,自定义或使用其他源系统中的元数据进行补充,提高了元数据的质量。
缺点有:
1)必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中。
2)维护集中式存储库的成本可能很高
3)元数据的抽取可能需要自定义模块或中间件
4)验证和维护自定义代码会增加对内部IT人员和软件供应商的要求
(2)分布式元数据架构
维护了一个单一的接入点。分布式元数据架构没有持久化的存储库
优点:
1)元数据总是尽可能保持最新且高效,因为它是从其数据源中直接检索的。
2)查询是分布式的,可能会提高响应和处理的效率
3)来自专有系统的元数据请求仅限于查询处理,而不需要
4)自动化元数据查询处理的开发可能更简单,只需要很少的人工干预
5)减少了批处理,没有元数据复制或同步过程
缺点:
1)无法支持用户定义或手动插入的元数据项,因为没有存储库可以放置这些添加项。
2)需要通过统一的、标准化的展示方式呈现来自不同系统的元数据
3)查询功能受源系统可用性的影响
4)元数据质量完全取决于源系统
(3)混合式元数据架构
降低了对专有系统进行手动干预和自定义编码访问功能的工作量。基于用户的优先级和要求,使用时尽可能是最新且有效的。不会提高系统的可用性。
(4)双向元数据架构
允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈。
该设计强制元数据存储库包含最新版本的元数据源,并强制对源的更改管理,必须系统地捕获变更,然后加以解决;必须构建和维护附加的一系列处理接口,以将存储库的内容回写至元数据源。
12.2 活动
12.2.1 定义元数据战略
1)启动元数据战略计划
2)组织关键利益相关方的访谈
3)评估现有的元数据资源和信息架构
4)开发未来的元数据架构
5)制定分阶段的实施计划
12.2.2 理解元数据需求
1)更新频次
2)同步情况
3)历史信息
4)访问权限
5)存储结构
6)集成要求
7)运维要求
8)管理要求
9)质量要求
10)安全要求
12.2.3 定义元数据架构
1、创建元模型
创建一个元数据存储库的数据模型,也叫元模型;是定义元数据战略和理解业务需求后的第一个设计步骤。
2、应用元数据标准
对内标准包括命名规范、自定义属性、安全、可见性和处理过程文档,组织对外元数据标准包括交换格式和应用程序接口设计
3、管理元数据存储
控制活动包括:
1)作业调度和监控
2)加载统计分析
3)备份、恢复、归档、消除
4)配置修改
5)性能调优
6)查询统计分析分析
7)查询和报表生成
8)安全管理
质量控制活动:
1)质量保证,质量控制
2)数据更新频率——与时间表匹配
3)缺失元数据报告
4)未更新的元数据报告
元数据管理活动包括:
1)加载、探测、导入和标记数据资产
2)记录与源的映射和迁移关系
3)记录版本
4)用户界面管理
5)连接数据集的元数据维护——为NoSQL提供支持
6)数据对内数据采集建立连接——自定义连接和作业元数据
7)外部数据源和订阅源的许可
8)数据增强元数据,如关联GIS
培训活动包括:
1)教育和培训用户和数据专员
2)生成和分析管理指标
3)对控制活动、查询、报告进行培训
12.2.4 创建和维护元数据
元数据管理的几个一般原则描述了管理元数据质量的方法:
1)责任
2)标准
3)改进
1、整合元数据
对元数据存储库的扫描有两种不同的方式:
1)专用接口
单步方式,扫描程序从来源系统中采集元数据,直接调用特定格式的装载程序,将元数据加载到元数据存储中。不需要输出任何中间元数据文件。
2)半专用接口
两步方式,扫描程序从来源系统中采集元数据,并输出到特定格式的数据文件中。扫描程序只产生目标存储库能够正确读取和加载的数据文件。可以被多种方式读取,所以这种接口的架构更加开放。
在此过程中,扫描程序产生和使用多种类型的文件:
1)控制文件
2)重用文件
3)日志文件
4)临时和备份文件
2、分发和传递元数据
1)元数据内部网站
2)报告、术语表和其他文档
3)数据仓库、数据集市和BI(商务智能)工具
4)建模和软件开发工具
5)消息传送和服务
6)web服务和应用程序接口(API)
7)外部组织接口方案(如供应链解决方案)
12.2.5 查询、报告和分析元数据
12.3 工具
主要工具是元数据存储库,包括整合层和手工更新的接口。处理和使用元数据的工具集成到元数据存储库中作为元数据来源。
元数据管理工具提供了在集中位置(存储库)管理元数据的功能,元数据可以手动输入,也可以通过专门的连接器从其他各种源中提取。,元数据存储库还提供与其他系统交换元数据的功能。
12.4 方法
12.4.1 数据血缘和影响分析
发现和记录数据资产的元数据的一个重要意义在于提供了数据如何在系统间转移信息。
基于程序编码的当前版本的血缘称为“实现态血缘”。映射规范文档中描述的血缘称为“设计态血缘。”
血缘创建的局限性在于元数据管理系统的覆盖范围
拼接的结果事一个表示数据从原始位置(数据源或记录系统)转移到最终位置的全景视图
(1)业务焦点
根据业务优先级寻找数据源的血缘关系
(2)技术焦点
从源系统开始识别直接相关的数据使用者,依次识别间接的数据使用者,直到识别出所有系统为止。
12.4.2 应用于大数据采集的元数据
元数据标签应在采集时应用于元数据,然后元数据可以用来识别可访问的数据湖中的数据内容。数据剖析可以识别出数据域、数据关系和数据质量问题,并打上标签。
12.5 实施指南
12.5.1 就绪评估/风险评估
评估缺失高质量元数据可能带来的影响如下:
1)因不正确、不完整和不合理的假设或缺乏数据内容的知识导致错误判断
2)暴露敏感数据,使客户和员工面临风险,影响商业信誉和导致法律纠纷
3)如果了解数据的那些领域专家们离开了,那么他们了解的知识也随之被带走了。
组织准备情况的评估解决方法为:
对元数据相关活动现状进行正式的成熟度评估,评估内容应包括重要的业务数据元、可用的元数据术语表、数据血缘、数据剖析和数据质量管理过程、主数据管理成熟度和其他方面。
风险评估的交付成功包括元数据战略和实施战略
12.5.2 组织和文化变革
12.6 元数据治理
12.6.1 过程控制
数据管理团队负责定义标准和管理元数据的状态变化,同时可以负责组织内的质量提升活动、培训活动或实际培训活动。
通过多个不同阶段和状态的决策来确定业务术语和定义
12.6.2 元数据解决方案的文档
1)元数据管理实施状态
2)源和目标元数据存储
3)元数据更新的调度计划信息
4)留存和保持的版本
5)内容
6)质量声明或警告
7)记录系统和其他数据源状态(如数据内容历史加载、删除或更新标志)
8)相关工具、架构和人员
9)敏感信息和数据源的移除或脱敏策略
12.6.3 元数据标准和指南
XML模式、文档类型定义(DTD)、XML模式定义(XSD)。
12.6.4 度量指标
元数据管理环境的建议指标包括:
1)元数据存储库完整性
将企业元数据(范围内所有产品和实例)的理想覆盖率与实际覆盖率进行比较
2)元数据管理成熟度
根据能力成熟度模型(CMM-DMM)的成熟度评估方法
3)专职人员配备
以及职位描述中的角色定义说明
4)元数据使用情况
存储库的访问次数
5)业务术语活动
使用、更新、定义解析、覆盖范围
6)主数据服务数据遵从性
显示SOA解决方案中数据的重用情况
7)元数据文档质量
一个指标是通过自动和手动两种方式评估元数据文档的质量
另一个是度量具有定义的属性的百分比,以及随着时间推移而发生变化的趋势
8)元数据存储库可用性
正常运行时间、处理时间(批处理和查询)