导图社区 DMBOK-数据管理知识体系第二版1-6章
DMBOK,数据治理必学知识。数据管理目标: 1.对数据管理职能,达成一个普遍适用的共识看法。 2.提供常用的数据管理职能、交付成果、角色和其它术语标准的定义。 3.确定数据管理的通用指导原则。 4概述普遍接受的良好实践、广泛采用的方法和技术以及重要的可选办法。 5.简明扼要地识别共同的组织和文化问题。 6.澄清数据管理的范围和界限 07.引导读者接触更多的资源来加强对数据管理的理解
编辑于2023-07-05 11:12:32 北京市DMBOK第二版 1-6章
第1章 数据管理
1.1 引言
数据管理的定义:
是为了交付、控制、保护并提升数据和信息资产的价值,在其整个生命周期中制定计划、制度、规程和实践活动,并执行和监督的过程。
数据管理专业人员的定义:
是指从事数据管理各方面的工作(从数据全生命周期的技术管理工作,到确保数据的合理利用及发挥作用),并通过其工作
1.1.1 业务驱动因素
数据管理的主要驱动力:使组织能够从其数据资产中获取价值。
1.1.2 目标
1)理解并支撑企业机器利益相关方的信息需求得到满足。
2)获取、存储、保护数据和确保数据资产的完整性
3)确保数据和信息的质量
4)确保利益相关方的数据隐私和保密性
5)防止数据和信息未经授权或被不当访问、操作及使用
6)确保数据能有效地服务于企业增值的目标
1.2 基本概念
1.2.1 数据
数据既是对其所代表的对象的解释,也是必须解释的对象
语境可被视为数据的表示系统,该系统包括一个公共词汇表和一系列组件之间的关系,如果知道这样一个系统的约定,就可解释其中的数据。这些数据通常记录在一种特殊类型的数据——元数据中。
数据代表事实,是这个世界中与某个事实结合在一起的一种真实表达。
1.2.2 数据和信息
几个异议:
1)基于数据是简单存在的假设。但数据并不是简单存在,而是要被创造出来的。
2)将数据到智慧描述为一个自下而上的逐级序列,未认识到创建数据需要知识。
3)金字塔模型意味着数据和信息是分开的,但数据和信息是相互交织并相互依赖的,数据是信息的一种形式,反之也是。
数据管理核心原则:
数据和信息都需要被管理;如果再将两者的使用和客户的需求结合在一起进行管理,则两者应具有更高的质量。
1.2.3 数据是一种组织资产
资产是一种经济资源,能被拥有或控制、持有或产生价值。资产可以转化为货币。
1.2.4 数据管理原则
(1)数据是有独特属性的资产
数据是一种资产,但相比其他类型资产,其在管理方式的某些方面有很大差异,对比金融和实物资产,其中最明显的一个特点是数据资产在使用过程中不会产生消耗
(2)数据的价值可以用经济术语来表示
将数据视为资产意味着它有价值,虽然有技术手段可以测量数据的数量和质量,但还未形成这样做的标准来衡量其价值。
(3)管理数据意味着对数据的质量管理
首要目标是确保数据符合应用的要求,为了管理质量,组织必须确保他们了解利益相关者对质量的要求,并根据这些要求度量数据
(4)管理数据需要元数据
用于管理和如何使用的数据都称为元数据,元数据源于与数据创建、处理和使用相关的一系列流程,包括架构、建模、管理、治理、质量管理、系统开发、IT和业务运营以及分析
(5)数据管理需要规划
数据在多个地方被创建,但因为使用需要在很多存储位置间移动,需要一些协调工作来保持最终结果的一致,需要从架构和流程的角度进行规划
(6)数据管理须驱动信息技术决策
数据和数据管理与信息技术和信息技术管理紧密结合,管理数据需要一种方法,确保技术服务于而不是驱动组织的战略数据需求。
(7)数据管理是跨职能的工作
需要一系列的技能和专业知识、因此单个团队无法管理组织的所有数据。数据管理需要技术能力、非技术能力以及写作能力、
(8)数据管理需要企业级视角
虽然数据管理存在很多本地应用程序,但它必须能够有效地应用于整个企业,这就是为什么数据管理和数据治理是交织在一起的原因之一。
(9)数据管理需要多角度思考
数据是流动的,数据管理必须不断发展演进,以跟上数据创建的方式、应用的方式和消费者的变化。
(10)数据管理需要全生命周期的管理,不同类型数据有不同的生命周期特征
不同类型数据有不同的生命周期特征,因此它们有不同的管理需求、数据管理实践需要基于这些差异,保持足够的灵活性来满足不同类型数据的生命需求。
(11)数据管理需要纳入与数据相关的风险
数据除了是一种资产外,还代表着组织的风险。数据可能丢失、被盗或误用。组织必须考虑其使用数据的伦理影响,数据相关风险必须作为数据生命周期的一部分进行管理。
(12)有效的数据管理需要领导层承担责任
数据管理涉及一组复杂的过程,需要协调、协作和承诺。为了达到目标,不仅需要管理技巧,还需要来自领导层的愿景和使命。
1.2.5 数据管理的挑战
1、数据与其他资产的区别
定义数据所有权
列出组织拥有的数据量
防止数据滥用
管理与数据冗余相关的风险
定义和实施数据质量标准
2、数据价值
是一件事物的成本和从中获得利益的差额
评估数据的价值需要在组织内部持续付出的一般性成本和各类收益:
1)获取和存储数据的成本
2)如果丢失 更换数据需要的成本
3)数据丢失对组织的影响
4)风险缓解成本和与数据相关的潜在风险成本
5)改进数据的成本
6)高质量数据的优势
7)竞争对手为数据付出的费用
8)数据潜在的销售价格
9)创新性应用数据的预期收入
主要挑战是:数据的价值是上下文相关的。在一个组织中,某些类型的数据可能会随着时间的推移而具有一致的价值。
3、数据质量
确保高质量数据是数据管理的核心
低质量数据的成本主要来源于:
1)报废和返工
2)解决方法和隐藏的纠正过程
3)组织效率低下或生产力低下
4)组织冲突
5)工作满意度低
6)客户不满意
7)机会成本,包括无法创新
8)合规成本或罚款
9)声誉成本
高质量数据的作用包括:
1)改善客户体验
2)提高生产力
3)降低风险
4)快速响应商机
5)增加收入
6)洞察客户、产品、流程和商机,获得竞争优势
4、数据优化计划
决策需要系统思考因为涉及:
1)数据也许被视为独立于业务流程存在
2)业务流程与支持它们的技术之间的关系
3)系统的设计和架构及其所生成和存储的数据
4)使用数据的方式可能被用于推动组织战略
5、元数据和数据管理
元数据描述了一个组织拥有什么数据,它代表什么、如何被分类、它来自哪里、在组织之内如何移动、如何在使用中演进、谁可以使用它以及是否为高质量数据。
元数据是全面改进数据管理的起点
6、数据管理是跨职能的工作
数据管理需要系统规划的设计技能、管理硬件和构建软件的高技术技能、利用数据分析理解问题和揭示数据的技能、通过定义和模型达成共识的语言技能、发现客户服务商机和实现目标的战略思维。
挑战在于让具备这一系列技能的人认识到各部分是如何结合在一起的。
7、建立企业的视角
管理数据需要理解一个组织中的机会和数据范围。
重要的原因之一是帮助组织跨垂直领域作出决策
8、数据管理需要多角度思考
自有和外购数据,以及外国法律法规,以及误用风险
9、数据生命周期
数据生命周期基于产品生命周期,不应该与系统开发生命周期混淆。它包括创建或获取、移动、转换和存储数据并使其得以维护和共享的过程,使用数据的过程,以及处理数据的过程。在整个生命周期中,可以清理、转换、合并、增强或聚合数据。随着数据的使用或增强,通常会生成新的数据,因此其生命周期具有内部迭代,而这些迭代没有显示在图表上。
数据管理对生命周期的关注有几个重要影响:
1)创建和使用是数据生命周期中的关键点
2)数据质量管理必须贯穿整个数据生命周期
3)元数据质量管理必须贯穿整个数据生命周期
4)数据管理还包括确保数据安全,并降低与数据相关的风险
5)数据管理工作应聚焦于关键数据
将数据ROT降至最低
10、不同种类的数据
按数据类型分类,如交易数据、参考数据、主数据、元数据,或者类别数据、源头数据、事件数据、详细交易数据;
也可以按数据内容、数据所需格式或保护级别、存储或访问的方式和位置进行分类
11、数据和风险
数据的风险在于,它可能被误解和误用
最高质量的数据带给组织最大的价值——可获得、相互关联、完整、准确、一致、及时、适用、有意义和易于理解
12、数据管理和技术
管理技术和管理数据不同。组织需要了解技术对数据的影响,以防止技术诱惑推动他们对数据的决策。相反,与业务战略一致的数据应该推动有关技术的决策
13、高效的数据管理需要领导力和承诺
《领导者的数据宣言》:组织有机增长的最佳机会在于数据
倡导首席数据官(CDO)的作用源于认识到管理数据会带来独特的挑战,成功的数据管理必须由业务驱动,而不是由IT驱动。
1.2.6 数据管理战略
战略是一组选择和决策,它们共同构成了实现高水平目标的高水平行动过程。
战略计划是为实现高水平目标而采取的高水平行动
数据战略应该包括使用信息以获得竞争优势和支持企业目标的业务计划。数据战略需要一个支持性的数据管理战略——一个维护和改进数据质量、数据完整性、访问和安全性的规划,同时降低已知和隐含的风险。该战略还必须解决与数据管理相关的已知挑战。
数据管理战略的组成应包括:
1)令人信服的数据管理愿景
2)数据管理的商业案例总结
3)指导原则、价值观和管理观点
4)数据管理的使命和长期目标
5)数据管理成功的建议措施
6)符合SMART原则(具体、可衡量、可操作性、现实、有时间限制)的短期数据管理计划目标
7)对数据管理角色和组织的描述,以及对其职责和决策权的总结
8)数据管理程序组件和初始化任务
9)具体明确范围的优先工作计划
10)一份包含项目和行动任务的实施路线图草案
数据管理战略规划的可交付成果包括:
1)数据管理章程
包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等
2)数据管理范围声明
包括规划目的和目标,以及负责实现这些目标的角色、组织和领导
3)数据管理实施路线图
确定特定计划、项目、任务分配和交付里程碑。
1.3 数据管理框架
1.3.1 战略一致性模型
抽象了各种数据管理方法的基本驱动因素,模型的中心是数据和信息之间的关系。信息通常与业务战略和数据的操作相关,数据与信息技术和流程相关。围绕这一概念是战略选择的4个基本领域:业务战略、IT战略、组织和流程以及信息系统。
1.3.2 阿姆斯特丹信息模型
与战略一致性模型一样,从战略角度看待业务和IT的一致性。共有9个单元,它抽象出一个关注结构(包括规划和架构)和策略的中间层。此外,还要认识到信息通信的必要性
SAM(战略一致性模型)和AIM(阿姆斯特丹信息模型)框架动横轴和纵轴两个维度详细描述组件之间的关系
1.3.3 DAMA-DMBOK框架
1)DAMA车轮图
车轮图定义了数据管理知识领域,将数据治理放在中心,其他知识领域围绕车轮平衡
2)环境因素六边形图
显示了人、过程和技术之间的关系,是理解DMBOK语境关系图的关键。它将目标和原则放在中心,因为这些目标和原则为人们如何执行活动及有效地使用工具成功进行数据管理提供了指导。
3)知识领域语境关系图
描述了知识领域的细节,包括与人员、流程和技术相关的细节。他们基于产品管理的SIPOC图的概念。
每个语境关系图都以知识领域的定义和目标开始。目标驱动的活动分为四个阶段:计划(P)、控制(C)、开发(D)、运营(O)
语境关系图的组成部分包括:
1)定义
2)目标
3)活动
①计划活动P
②控制活动C
③开发活动D
④运营活动O
4)输入
5)交付成果
6)角色和职责
7)供给者
负责提供或允许访问活动输入的人员
8)消费者
直接受益于数据管理互动产生主要交付成果的消费方
9)参与者
执行、管理或批准知识领域活动的人员。
10)工具
它是实现知识领域目标的应用程序和其他技术
11)方法
它是用于在知识领域内执行活动和产生可交付成果的方法和程序。它还包括共同约定、最佳实践建议、标准和协议以及新出现的一些合适的替代方法。
12)度量指标
它是衡量或评估绩效、进度、质量、效率或其他影响的标准。这些指标用于定义每个知识领域内完成工作的可量化事实。
1.3.4 DMBOK金字塔(Aiken)
第一阶段
组织购买包含数据库功能的应用程序
第二阶段
一旦组织开始使用应用程序,他们将面临数据质量方面的挑战,但获得更高质量的数据还取决于可靠的元数据和一致的数据结构,它们说明了来自不同系统的数据是如何协同工作的。
第三阶段
管理数据质量、元数据和架构需要严格地实践数据治理,为数据管理活动提供体系性支持。
第四阶段
该组织充分利用了良好管理数据的好处,并提高了其分析能力
1.3.5 DAMA数据管理框架的进化
该框架从数据管理的指导目标开始:使组织能够像从其他资产中获取价值那样,从其数据资产中获取价值。与数据生命周期相关的数据管理功能在图的中心进行了描述。这包括:为可靠、高质量的数据进行规划和设计;建立过程和功能来使用和维护数据;在各种类型的分析活动以及这些过程中使用数据,以提高价值。
DAMA数据管理框架也被描述为另一种形式的DAMA车轮图,数据治理范围内的应用活动围绕着数据管理生命周期内的各项核心活动进行。
核心活动位于框架中心,包括元数据管理、数据质量管理和数据结构定义
生命周期管理活动可以从多个方面定义,如计划的角度(风险管理、建模、数据涉及、参考数据管理),实现的角度(数据仓库、主数据管理、数据存储和操作、数据集成和互操作、数据开发技术)
生命周期管理活动源于数据的使用:主数据使用、文件和内容管理、商务智能、数据科学、预测分析、数据可视化。
1.4 DAMA和DMBOK
(1)数据治理
通过建立一个能够满足企业需求的数据决策体系,为数据管理提供指导和监督
(2)数据架构
定义了组织战略协调的管理数据资产蓝图,以建立战略性数据需求及满足需求的总体设计
(3)数据建模和设计
以数据模型的精确形式,进行发现、分析、展示和沟通数据需求
(4)数据存储和操作
以数据价值最大化为目标,包括存储数据的设计、实现和支持活动以及在整个数据生命周期中,从计划到销毁的各种操作活动。
(5)数据安全
确保数据隐私和机密性得到维护,数据不被破坏,数据被适当访问
(6)数据集成和互操作
包括与数据存储、应用程序和组织之间的数据移动和整合相关的过程
(7)文件和内容管理
用于管理非结构化媒体数据和信息的生命周期过程,包括计划、实施和控制活动,尤其是指支持法律法规遵从性要求所需的文档
(8)参考数据和主数据
包括核心共享数据的持续协调和维护,使关键业务实体的真实信息以准确、及时和相关联的方式在各系统间得到一致使用。
(9)数据仓库和商务智能
包括计划、实施和控制流程来管理决策支持数据,并使知识工作者通过分析报告从数据中获得价值。
(10)元数据
包含规划、实施和控制活动,以便能够访问高质量的集成元数据,包括定义、模型、数据流和其他至关重要的信息
(11)数据质量
包括规划和实施质量管理技术,以测量评估和提高数据在组织内的适用性。
数据处理伦理
描述数据伦理规范在促进信息透明、社会责任决策中的核心作用。数据采集、分析和使用过程中的伦理意识对所有数据管理专业人员有指导作用。
大数据和数据科学
描述了针对大型的、多样化数据集收集和分析能力的提高而出现的技术和业务流程。
数据管理成熟度评估
概述了评估和改进组织数据管理能力的方法
数据管理组织和角色期望
为组建数据管理团队、实现成功的数据管理活动提供了实践指导和参考。
数据管理和组织变革管理
描述了如何计划和成功地推动企业文化变革。
第2章 数据处理伦理
2.1 引言
数据处理伦理是指如何以符合伦理准则的方式获取、存储、管理、使用和销毁数据。
伦理是建立在是非观念上的行为准则。
集中在几个核心概念上:
1)对人的影响
保证其质量和可靠性
2)滥用的可能
滥用数据会对人和组织造成负面影响,所以需要有伦理准则来防止数据被滥用。
3)数据的经济价值
需要规定数据所有权,即谁可以去使用数据及如何使用数据。
数据处理伦理的目标:
1)定义组织中数据处理的伦理规范
2)教导员工不正当处理数据会产生的企业风险
3)改变或渗透数据处理行为文化
4)监管、度量、监控和调整组织伦理准则行为
2.2 业务驱动因素
降低所负责的数据员工、客户、合作伙伴滥用的风险
2.3 基本概念
2.3.1 数据伦理准则
(1)尊重他人
尊重个人尊严和自主权
是否考虑过设计信息系统时是采用强制模式还是用户自由选择的模式?是否考虑过处理数据对精神患者或残疾人有何影响?是否考虑过应对访问和利用数据负责?
(2)行善原则
第一不伤害;第二将利益最大化、伤害最小化
处理过程的设计方式是基于零和博弈,还是双赢的理念,数据处理是否具有不必要的侵入性,是否存在风险较低的方式来满足业务需求?有问题的数据处理是否缺乏透明度,可能会隐藏对人们造成的伤害
(3)公正
待人公平和公正
不平等对待?利益不均,机器学习数据集是否使用
数据处理伦理必须遵循的四大支柱:
1)面向未来的数据处理条例、尊重隐私权和数据保护权利
2)确定个人信息处理的责任人
3)数据处理产品及服务设计及工程过程中的隐私意识
4)增加个人的自主权
2.3.2 数据隐私法背后的原则
GDPR准则(欧盟通用数据保护条例)
公平、合法、透明
个人数据的处理
目的限制
必须按照指定、明确、合法的目标去采集个人数据
数据最小化
采集的个人数据必须足够相关,并且仅限于与处理目的相关的必要信息
准确性
必须准确,有必要保持最新的数据。
存储限制
数据必须以可以识别的数据主体(个人)的形式保存,保存时间不得超过处理个人数据所需的时间。
诚信和保密
必须确保个人数据得到安全妥善的处理,包括使用适当技术和组织方法防止数据被擅自或非法处理,防止意外丢失、被破坏或摧毁等。
问责制度
控制数据的人员应负责并能够证明符合上述这些原则
PIPEDA(个人信息保护及电子文件法)
问责制度
组织有责任对其控制下个人信息负责,并设立专职人员去保证组织遵守这些准则
目的明确
组织在收集个人信息之时或之前必须明确采集的目的
授权
组织去采集、使用或披露个人信息时需征求当事人的知情和同意,但不适用的情况除外
收集、使用、披露和留存限制
个人信息必须限定于为该组织确定的目标所必需的采集。
准确性
准确、完整、最新
保障措施
采集的个人信息必须受到与信息敏感程度相匹配的安全保障措施的保护。
透明度
组织必须向个人提供有关个人信息的信息管理制度和实践相关的具体信息
个人访问
个人应被告知其个人信息的存在、使用和披露情况
合规挑战
个人应能够针对以上原则的遵从性,向负责组织或个人发起合规性质疑
美国联邦贸易委员会(FTC)发布了一份报告,重申了FTC对公平信息处理原则的重视
1)发布/告知
数据采集者在采集消费者个人信息之前,必须披露对这些信息的用途和过程。
2)选择/许可
个人信息是否采集或如何采集,以及会被用于超出采集目标之外的情况,都必须征求被采集者的意见。
3)访问/参与
消费者可以查询,并且质疑其个人数据的准确性和完整性
4)诚信/安全
数据采集者需要采取合理的步骤,以确保从消费者采集的信息是准确的,并且防止未经授权使用
5)执行/纠正
使用可靠机制对不遵守这些公平信息实践的行为实施制裁
公平信息实践其他重点包括:
1)简化消费者选择,减轻消费者负担
2)在信息生命周期中建议始终保持全面的数据管理程序
3)为消费者提供不要跟踪选项(do not Track Option)
4)要求明确肯定的同意
5)关注大型平台提供商的数据采集能力、透明度以及明确的隐私声明和制度
6)个人对数据的访问
7)提高消费者对个人隐私保护意识
8)设计时考虑保护隐私
2.3.3 在线数据的伦理环境
1)数据所有权
与社交媒体网站和数据代理相关的个人数据控制权。
2)被遗忘的权力
从网上删除个人信息,特别是调整互联网上的个人声誉
3)身份
拥有得到一个身份和一个准确的身份,或者选择匿名的权利。
4)在线言论自由
表达自己的观点,而非恃强凌弱、恐怖煽动、“挑衅”或侮辱他人。
2.3.4 违背伦理进行数据处理的风险
数据处理伦理含义的一个方式是去检查大部分人认同的违背伦理的行为。
确保数据可信度包括对数据质量维度的度量(如准确性和时效性),还有基本级别的可信度和透明度—不使用数据欺骗或误导,以及组织数据处理背后的意图、用途和来源保持透明
1、时机选择
有可能通过遗漏或根据时间将某些数据点包含在报告或活动中而撒谎
这种情况被称为市场择时,是非法的行为。
2、可视化误导
图表和图形可用于以误导性方式去呈现数据。
3、定义不清晰或无效的比较
在展示信息时,符合伦理的做法是交代清楚事情的背景及其意义。
不滥用统计数据也是非常必要的
4、偏见
偏见是指一种有倾向性的观点。在个人层面上,这个词与不合理的判断或歧视有关。
1)预设结论的数据采集
2)预感和搜索
分析师有一种预感且要满足这种预感
3)片面抽样方法
4)背景和文化
偏见源于:
有问题的数据处理类型、涉及的利益相关方、数据集如何填充、正在实现的业务需要以及流程的预期结果。
5、转换和集成数据
1)对数据来源和血缘的了解有限
2)质量差的数据
3)不可靠的元数据
4)没有数据修订历史的文档
6、数据的混淆和修订
1)数据聚合
2)数据标记
3)数据脱敏
混淆和修订是数据进行信息脱敏或信息不公开的常用方法
2.3.5 建立数据伦理文化
建立一个符合伦理的数据处理文化需要理解现有规范,定义预期行为,并将这些编入相应制度和伦理规范中,并提供相应的培训和监管以强制推行预期行为。
1、评审现有数据处理方法
改善第一步就是了解组织现在的状态
目的是为了理解这些方法在多大程度上直接而明确的与伦理和合规性驱动因素有关
2、识别原则、实践和风险因素
1)指导性原则
属于隐私
2)风险
3)实践
权限
4)控制
年度审查
3、制定合乎伦理的数据处理策略和路线图
1)价值观申明
提供了一个符合伦理准则的数据处理和决策制定的框架
2)符合伦理的数据处理原则
描述了一个组织如何处理数据所带来的挑战
3)合规框架
包括驱动组织义务的因素
4)风险评估
定义了组织内部特殊问题出现的可能性和影响
5)培训和交流
包括对伦理准则的审查
6)路线图
包括可由管理层批准的活动时间表,包括执行培训和沟通计划,识别和补救现有实践中的差距、风险缓解和监控计划。
7)审计和监测方法
监测具体活动
4、采用对社会负责的伦理风险模型
1)他们是谁
2)他们做什么
3)他们在哪儿生活
4)他们被如何对待
抽样项目的伦理风险模型
识别
所需人口统计、选择的方法
行为获取
所需内容、捕捉方法、活动 情感 地址 时间 组合数据集 法律和伦理审查
商务智能/数据科学
前景展望 实际和预测的活动
结果
允许和拒绝权利 是否进一步参与 关系消除 获利或制裁 信任与否 偏见对待
抽样他们应说明:
1)如何选择自己的群体进行研究
2)数据如何获取
3)活动分析的重点
4)如何使结果易于理解
2.3.6 数据伦理和治理
数据处理行为的数据监督属于数据治理和法律顾问范畴
数据治理必须制定相关标准和制度以提供数据处理和监督的方法。
第3章 数据治理
3.1 引言
数据治理的定义
是在管理数据资产过程中行使权力和管控,包括计划、监控和实施。
数据治理职能是指导所有其他数据管理领域的活动。数据治理的目的是确保根据数据管理制度和最佳实践正确地管理数据。数据管理的整体驱动力是确保组织可以从其数据中获取价值,数据治理聚焦于如何制定有关数据的决策,以及人员和流程在数据方面的行为方式。
数据治理项目多数包含:
1)战略
定义、交流和驱动数据战略和数据治理战略的执行
2)制度
设置与数据、元数据管理、访问、使用、安全和质量有关的制度
3)标准和质量
设置和强化数据质量、数据架构标准
4)监督
在质量、制度和数据管理的关键领域提供观察、审计和纠正措施
5)合规
确保组织可以达到数据相关的监管合规性要求
6)问题管理
数据安全、数据访问、数据质量、合规、数据所有权、制度、标准、术语或者数据治理程序等。
1)数据管理项目
增强提升数据管理实践的努力
2)数据资产估值
设置标准和流程,以一致的方式定义数据资产的业务价值
3.1.1 业务驱动因素
最常见的因素是:法规遵从性;高级分析师、数据科学家的迅猛发展;其他业务信息化管理需求
(1)减少风险
1)一般性风险管理
洞察风险数据对财务或商誉造成的影响,包括对法律和监管问题的响应。
2)数据安全
通过控制活动保护数据资产,包括可获得性、可用性、完整性、连续性、可审计和数据安全。
3)隐私
通过制度和合规性监控,控制个人信息、机密信息、个人身份信息PII
(2)改进流程
1)法规遵从性
有效和持续地响应监管要求的能力
2)数据质量提升
提升业务绩效能力
3)元数据管理
业务术语表
4)项目开发效率
管理特定数据的技术债
5)供应商管理
控制数据处理的合同
3.1.2 目标和原则
目标:
是使组织能够将数据作为资产进行管理。
数据治理程序包括:
(1)可持续发展
(2)嵌入式
(3)可度量
原则:
(1)领导力和战略
(2)业务驱动
(3)共担责任
业务数据管理专员和数据管理专业人员共担责任
(4)多层面
发生在企业层面和各地基层,但通常发生在中间各层面
(5)基于框架
由于治理活动需跨组织职能的协调,因此对数据治理项目必须建立一个运营框架来定义各自职责和工作内容。
(6)原则导向
3.1.3 基本概念
1、以数据为中心的组织
1)数据应该作为企业资产管理起来
2)应该在整个组织内鼓励数据管理的最佳实践
3)企业数据战略必须与业务战略一致
4)应不断改进数据管理流程
2、数据治理组织
立法职能(定义策略、标准和企业架构)
司法职能(问题管理和升级)
执行职能(保护和服务、管理责任)
3、数据治理运营模型类型
集中式
数据治理组织监督所有业务领域中的活动
分布式
每个业务单元中采用相同的数据治理运营模型和标准
联邦式
数据治理组织与多个业务单元协同
4、数据管理职责
描述了数据管理岗位的责任,以确保数据资产得到有效控制和使用
1)创建和管理核心元数据
它包括业务术语、有效数据值及其他关键元数据的定义和管理。
2)记录规则和标准
它包括业务规则、数据标准及数据质量规则的定义和记录。
3)管理数据质量问题
数据管理专员通常参与识别、解决与数据相关的问题,或者促进解决的过程。
4)执行数据治理运营活动
数据管理专员有责任确保数据治理制度和计划在日常工作或每一个项目中被遵循执行,并对决策发挥影响力,以支持组织总体目标的方式管理数据。
5、数据管理岗位的类型
1)首席数据管理专员
2)高级数据管理专员
3)企业数据管理专员
4)业务数据管理专员
5)数据所有者
6)技术数据管理专员
6、数据制度
包括对数据治理管理初衷的简要说明和相关基本规则,这些规则贯穿数据和信息的创造、获取、集成、安全、质量和使用的全过程
是全局性的,支持数据标准以及与数据管理和使用等关键方面的预期行为,不同组织的数据制度差异很大
7、数据资产估值
数据资产估值是一个理解和计算数据对组织的经济价值的过程。
其他度量价值的方式包括:
1)替换成本
2)市场价值
兼并或收购时作为企业资产的价值
3)发现商机
通过交易数据或售卖数据,从数据(商务智能)中发现商机获得的收入价值
4)售卖数据
将数据打包售卖获得的洞察
5)风险成本
基于潜在罚款、补救成本和诉讼费用的股价。来自法律或监管的风险包括:
①缺少必须的数据
②存在不应留存的数据
③除上述外,包括数据不正确造成客户、公司财务和声誉受损
④风险下降或者风险成本的下降
表3-2 数据资产会计准则
问责原则
组织必须确定对各种类型数据和内容负有最终责任的个人
资产原则
各种类型的数据内容都是资产,并且具有其他资产的特征。它们应向物理或者金融资产一样可以进行管理、担保和核算
审计原则
数据和内容的准确性要接受独立机构的定期审计
尽职调查原则
如果风险是已知的,必须要报告。如果可能存在风险,必须予以确认。数据风险包括与不良数据管理实践相关的风险
持续经营原则
数据及其内容对于组织的成功、持续运营和管理至关重要,即它们不是为实现目标的临时手段,也不是业务的副产品。
估值级别原则
在最合理或最容易测量的级别上将数据作为资产进行估值
责任原则
基于监管和伦理,存在着与数据内容有关的滥用或者管理不当的财务责任
质量原则
数据准确性、数据生命周期和内容会影响组织的财务状况
风险原则
存在与数据和内容相关的风险。无论是作为负债还是作为管理和降低固有风险的成本,风险必须得到正式确认
价值原则
基于满足组织目标的方式,可流通性以及对组织商誉(资产负债表)的贡献来判断,数据和内容是有价值的。信息的价值反映的是其维护和运行的成本与它对组织的贡献抵消之后的溢出。
3.2 活动
3.2.1 规划组织的数据治理
数据治理必须支持业务战略和目标,一个组织的业务战略和目标影响着组织的数据战略,以及数据治理和数据管理在组织的运营方式。
1、执行就绪评估
典型的评估包括:
1)典型的数据管理成熟度
2)变革能力
组织为适应数据治理需要正式的组织变革管理
3)协作准备
组织在管理和使用数据方面的协作能力
4)与业务保持一致
业务一致性能力评估可以检查组织如何调整数据的使用来支持满足业务战略要求
2、探索与业务保持一致
数据治理项目必须能够被找到并提供特定的价值来为组织作出贡献
3、制定组织触点
1)采购和合同
2)预算和资金
3)法规遵从性
4)SDLC/开发框架
3.2.2 制定数据治理战略
交付物包括:
1)章程
2)运营框架和职责
3)实施路线图
4)为成功运营制定计划
1、定义数据治理运营框架(需要考虑以下方面)
1)数据对组织的价值
2)业务模式
3)文化因素
4)监管影响
2、制定目标、原则和制度
可能包含多个不同方面内容:
1)由数据治理办公室(DGO)认证确认组织用到的数据
2)由数据治理办公室(DGO)批准成为业务拥有者
3)业务拥有者将在其业务领域委派数据管理专员(职责是协调数据治理活动)
4)尽可能地提供标准化报告、仪表盘或积分卡,以满足大部分业务需求
5)认证用户将被授予访问相关数据的权限,以便查询即席报表和使用非标准报告。
6)定期复评所有认证数据,以评价其准确性、完整性、一致性,可访问性、唯一性、合规性和效率等。
3、推动数据管理项目
关键是阐明数据管理提高效率和降低风险的方法。
数据治理委员会负责定义数据管理项目的商业案例,监督项目状态和进度。如果组织中存在项目管理办公室,数据治理委员会要和数据管理办公室协同工作。
还可以与大型醒目配合,主数据管理项目,如企业资源计划(ERP)、客户关系管理(CRM)和全球零件清单等
4、参与变革管理
组织变革管理(OCM)是进行组织管理体系和流程变革的管理工具。
组织需要组建团队来负责以下事项:
1)规划
2)培训
3)影响系统开发
4)制度实施
5)沟通
沟通的重点:
1)提升数据资产价值
2)监控数据治理活动的反馈并采取行动
3)实施数据管理培训
4)可以从以下5个关键领域衡量变革管理的程度:
①意识到需要改变
②希望参与并支持变革
③知道如何改变
④具备实施新技能和行为的能力
⑤保持持续变革
5)实施新的指标和关键绩效(KPI)
5、参与问题管理
问题管理是识别、量化、划分优先级和解决与数据治理相关问题的过程,包括:
1)授权
2)变更管理升级
3)合规性
4)冲突
5)一致性
6)合同
7)数据安全和身份识别
8)数据质量
开展数据治理需要在以下几个方面建立控制机制和流程:
1)识别、收集、记录和更新的问题
2)各项活动的评估和跟踪
3)记录利益相关方的观点和可选解决方案
4)确定、记录和传达问题解决方案
5)促进客观、中立的讨论,听取各方观点
6)将问题升级到更高权限级别
6、评估法规遵从性要求
1)会计准则
2)BCBS239(巴塞尔银行监管委员会)和巴塞尔II
3)CPG235
4)PCI-DSS
5)偿付能力标准II
6)隐私法
评估过程中每个组织必须确定:
1)与组织相关的法规有哪些
2)什么是合规性?实现合规性需要什么样的策略和流程?
3)什么时候需要合规?如何以及什么时候监控合规性?
4)组织能否采用行业标准来实现合规性?
5)如何证明合规性?
6)违规的风险和处罚是什么?
7)如何识别和报告不合规的情况?如何管理和纠正不合规的情况?
3.2.3 实施数据治理
高优先级的前期工作包括:
1)定义可满足高优先级目标的数据治理流程
2)建立业务术语表,记录术语和标准
3)协调企业架构师和数据架构师
4)为数据资产分配财务价值,以实现更好的决策,并提高对数据在组织成功中所起作用的理解。
1、发起数据标准和流程
标准化概念示例:
1)数据架构(Data Architecture)。它包含企业级数据模型、工具标准和系统命名规范
2)数据建模和设计(Data Modeling and Design)。它包括数据模型管理程序、数据模型的命名规范、定义标准、标准域、标准缩写等。
3)数据存储和操作(Data Storage and Operations)。它包括标准工具、数据库恢复和业务连续性标准、数据库性能、数据留存和外部数据采集
4)数据安全(Data Security)。它包括数据访问安全标准、监控和审计程序、存储安全标准和培训需求
5)数据集成(Data Integration)。它适用于数据集成和数据互操作的标准方法、工具。
6)文件和内容(Documents and Content)。它包含内容管理标准及程序,包括企业分类法的使用,支持法律查询、文档和电子邮件保留期限、电子签名和报告分发方法。
7)参考数据和主数据(Reference and Master Data)。它包括参考数据管理控制流程、数据纪录系统、建立标准及授权应用、实体解析标准。
8)数据仓库和商务智能。它包括工具标准、处理标准和流程、报告和可视化格式标准、大数据处理标准。
9)元数据(Metadata)。它指获取业务和技术元数据,包括元数据集成和使用流程。
10)数据质量(Data Quality)。它包括数据质量规则、标准测量方法、数据补救标准和流程。
11)大数据和数据科学(Big Data and Data Science)。它包含数据源识别、授权、获取、记录系统、共享和刷新。
2、制定业务术语表
具有如下目标:
1)对核心业务概念和术语有共同的理解
2)降低由于对业务概念理解不一致而导致数据误使用的风险
3)改进技术资产(包括技术命名规范)与业务组织之间的一致性
4)最大限度地提高搜索能力,并能够获得记录在案的组织知识。
3、协调架构团队协作
数据战略和数据架构是在“做正确的事”和“正确地做事”之间协调的核心。
4、发起数据资产估值
数据和信息是具有价值或者可以创造价值的企业资产。
3.2.4 嵌入数据治理
数据治理组织的一个目标是将治理活动嵌入到数据作为资产管理相关的一系列流程中。数据治理的持续运作需要规划。运营计划包含实施和运营数据治理活动所需的事件,其中包括维持成功所需的活动、时间和技术
可持续性意味着采取行动,保证流程和资金到位,以确保可持续地执行数据治理组织框架
3.3 工具和方法
3.3.1 线上应用/网站,包含的内容
1)数据治理战略和项目章程
2)数据制度和数据标准
3)数据管理制度的角色和职责说明
4)数据治理相关新闻公告
5)指向相关数据治理社区论坛的链接
6)指向相关数据治理主题执行进展的链接
7)数据质量测试报告
8)问题识别和上报的规程
9)请求服务或获取问题的入口
10)相关在线资源的描述和链接、演示文档和培训计划
11)数据管理实施路线图
3.3.2 业务术语表
大型ERP系统
数据集成工具
元数据管理工具
3.3.3 工作流工具
3.3.4 文档管理工具
3.3.5 数据治理记分卡
跟踪数据治理活动和制度遵从性的指标集合,通过自动记分卡的形式向数据治理委员会和数据治理指导委员会报告
3.4 实施指南
3.4.1 组织和文化
3.4.2 调整与沟通
管理和沟通变更所需的工具有:
1)业务战略/数据治理战略蓝图
2)数据治理路线图(DG Road MAP)
3)数据治理的持续业务案例
4)数据治理指标(DG Metrics)
3.5 度量指标
(1)价值
1)对业务目标的贡献
2)风险的效率
3)运营效率的提高
(2)有效性
1)目标的实现
2)扩展数据管理专员正在使用的相关工具
3)沟通的有效性
4)培训的有效性
5)采纳变革的速度
(3)可持续性
1)制度和流程的执行情况(即它们是否正常工作)
2)标准和规程的遵从情况(即员工是否在必要时遵守指导和改变行为)
第4章 数据架构
4.1 引言
架构是构建一个系统的艺术和科学,以及在此过程中形成的成果——系统本身。架构是对组件要素有组织的设计,旨在优化整个结果或系统的功能、性能、可行性、成本和用户体验
1)数据架构成果。包括不同层级的模型、定义、数据流,这些通常被称为数据架构的构件
2)数据架构活动,用于形成、部署和实现数据架构的目标
3)数据架构行为,包括影响企业数据架构的不同角色之间的协作、思维方式和技能。
国际标准架构的定义:
系统的基本结构、具体体现在架构构成中的组件、组件之间的相互关系以及管理其设计和演变的原则。
数据架构的基本组成部分:
1)数据架构成果
包括不同层级的模型、定义、数据流,这些通常被称为数据架构的构件
2)数据架构活动
用于形成、部署和实现数据架构的目标
3)数据架构行为
包括影响企业数据架构的不同角色之间的协作、思维方式和技能
数据架构的构建,包括
当前状态的描述
数据需求的定义
数据整合的指引
数据管控策略中要求的数据资产管理规范
数据架构文件,包含
数据名称
数据属性
元数据定义
概念和逻辑实体
关系以及业务规则
物理数据模型也属于数据架构文件,但他是数据建模和设计的产物,而不是数据架构的产物
4.1.1 业务驱动因素
1)利用新兴技术所带来的业务优势,从战略上帮助组织快速改变产品、服务和数据
2)将业务需求转换为数据和应用需求,以确保能够为业务流程处理提供有效数据
3)管理复杂数据和信息,并传递至整个企业
4)确保业务和IT技术保持一致
5)为企业改革、转型和提高适应性提供支撑
4.1.2 数据架构成果和实施
主要成果
1)数据存储和处理需求
2)设计满足企业当前和长期数据需求的结构和规划
图4-1 关系语境图
数据架构师需要定义和维护:
1)定义组织中数据的当前状态
2)提供数据和组件的标准业务词汇
3)确保数据架构和企业战略及业务架构保持一致
4)描述组织数据战略需求
5)高阶数据整合概要设计
6)整合企业数据架构蓝图
总体数据架构实施包括:
1)使用数据架构构件(主蓝图)来定义数据需求、指导数据整合、管控数据资产,确保数据项目投入与企业战略保持一致。
2)与参与改进业务或IT系统开发的利益相关方合作,学习并影响他们
3)通过数据架构及通用的数据词汇,搭建企业数据语言
4.1.3 基本概念
1、企业架构类型
企业业务架构
目的:识别企业如何为消费者和其他利益相关方创造价值
元素:业务模型、流程、功能、服务、事件、策略、词汇
依赖项:制定其他架构的需求
角色:业务架构师和分析师、业务数据管理员
企业数据架构
目的:描述数据应该如何组织和管理
元素:数据模型、数据定义、数据映射规范、数据流、结构化数据应用编程接口
依赖项:管理业务架构创建和需要的数据
角色:数据架构师、建模师、数据管理员
企业应用架构
目的:描述企业应用的结构和功能
元素:业务系统、软件包、数据库
依赖项:依据业务需求来处理指定的数据
角色:应用架构师
企业技术架构
目的:描述能使系统发挥功能和传递价值的实体技术
元素:技术平台、网络、安全、整合工具
依赖项:承载并执行应用架构
角色:基础设施架构师
2、企业架构框架
是什么
目录列,表示构建架构的实体
怎样做
流程列,表示执行的活动
在哪里
分布列,表示业务位置和技术位置
是谁
职责列,表示角色和组织
什么时间
时间列,表示间隔、事件、周期和时间表
为什么
动机列,表示目标、策略和手段
3、企业数据架构
企业数据架构的设计中包括业务数据描述,如数据的收集 存储 整合 移动和分布
1)企业数据模型
企业数据模型是一个整体的、企业级的、独立实施的概念或逻辑数据模型,为企业提供通用的、一致的数据视图。
明显特征为:
1)企业主题域的概念描述
2)各主题域的实体和关系概述
3)归属于同一主题域的详细逻辑概述
4)具体到应用或项目的逻辑和物理模型
从上到下和横纵向
1)纵向
不同层级模型之间的映射
2)横向
同一个实体和关系可能出现在同一层级的多个模型中
位于一个主题域中的逻辑模型中的实体可以和其他主题域的实体相关联;也出现在产品主题域模型中
主题域的识别准则必须在整个企业模型中保持一致:
使用规范化规则,从系统组合中分离主题域,基于顶级流程(业务价值链)或者基于业务能力(企业架构)从数据治理结构和数据所有权(或组织)中形成主题领域。
2)数据流设计
数据流是一种记录数据血缘的数据加工过程,用于描述数据如何在业务流程和系统中流动。端到端的数据流包含了数据起源于哪里,在哪里存储和使用,在不同流程和系统内或之间如何转化。
数据流映射记录了数据与以下内容的联系:
1)业务流程中的应用
2)某个环境中的数据存储或数据库
3)网段(有助于安全映射)
4)业务角色(描述哪些角色有职责创建、更新和删除数据)
5)出现局部差异的位置
4.2 活动
简化数据和企业架构所面临的复杂问题,基于以下两种方式解决:
1)面向质量
专注于业务和IT开发周期对数据架构进行不断改进。
2)面向创新
专注与业务和IT转换,致力于新的期待和机会。
4.2.1 建立企业数据架构
包含以下工作,可串行或并行:
1)战略。
2)沟通与文化
3)组织
4)工作方法
5)结果
数据架构也会影响项目和系统开发的边界
1)定义项目数据需求
2)评审项目数据设计
3)确定数据溯源影响
4)数据复制控制
5)实时数据架构标准
6)指导数据技术和更新决策
1、现有数据架构规范评估
2、开发路线图
包括:高层次里程碑事件、所需资源、成本评估、业务能力工作流划分。
3、在项目中管理企业需求
项目范围完成时,架构师应该决定:
1)规范中所描述实体是否符合标准
2)在需求中,哪些实体应该被包括在整体企业数据架构中
3)规范中的实体和定义是否需要扩大或加深以满足将来的趋势
4)是否更新了数据架构或者是否向开发人员指出了哪些可以重用
企业数据架构项目相关活动包括:
1)定义范围
保证范围和接口与企业数据模型一致。
2)理解业务需求
获取数据相关的需求,如实体、资源、可用性、质量和痛点,以及评估满足这些需求的业务价值。
3)设计
形成详细的目标规范,包括:数据生命周期内的业务规则、验证结果的有效性、需要提供的时间、提升模型的扩展性和改进标准模型等。
4)实施
①什么时候购买
②什么时候重用数据
③什么时候构建
将架构嵌入到项目中采用的方式有三种:
1)瀑布式
2)迭代方式
3)敏捷方式
4.2.2 整合其他企业架构
企业数据架构问题和项目组合管理进行整合
4.3 工具
4.3.1 数据建模工具
4.3.2 资产管理软件
4.3.3 图形设计应用
4.4 方法
4.4.1 生命周期预测
1)当前的
2)部署周期的
3)策略周期的
4)退役的
5)优先的
6)限制的
7)新兴的
8)审核的
4.4.2 图标使用规范
1)清晰一致的说明
2)所有图表对象与说明相匹配
3)清晰一致的线条方向
4)一致的交叉线显示方法
5)一致的对象属性
6)线性对称
4.5 实施指南
实施企业数据架构主要包含的工作内容:
1)建立企业数据架构团队和举办问题讨论会
2)生成数据架构构件的初始版本。例如,企业范围数据流和路线图
3)在开发项目中,形成和建立数据架构工作方式
4)提高组织对数据架构工作价值的认知
4.5.1 就绪评估和风险评估
最明显的风险:
1)缺少管理层支持
2)成功与否缺乏证据
3)缺乏管理者的信任
4)管理层不正确的决策
5)文化冲击
6)缺乏有经验的项目经理
7)单一维度视角
4.5.2 组织和文化
一个组织接受并实施数据架构的能力依赖于以下几个方面:
1)对架构方法的接受度(开发架构的友好性)
2)确认数据属于组织的业务资产,而不仅仅是IT的任务
3)放弃局部数据视角,接受企业级数据视角的能力
4)将架构交付成果整合到项目实施中的能力
5)规范数据治理的接受程度
6)立足企业全局,而不仅仅局限于项目交付成果和IT解决问题的能力。
4.6 数据架构治理
4.6.1 数据架构治理活动
1)项目监督
2)管理架构设计、生命周期和工具
3)定义标准
4)创建数据相关构件
4.6.2 度量指标
(1)架构标准接受率
可以测量项目与已建立的数据架构的紧密程度及项目与企业架构参与流程的遵循度。追踪项目预期的衡量目标也有助于理解和采纳执行过程中出现的问题。
(2)实施趋势
对跟踪企业架构改善组织实施项目能力的程度,至少沿两个方向进行改善:
1)使用/重用/代替/废弃测量。决定使用新架构构件与重用、代替或废弃构件的比例
2)项目执行效率测量
测量项目的交付实践和可重用构件及指导构件的交付改进成本
(3)业务价值度量指标
1)业务敏捷性改进
解释生命周期改进或改变的好处,改进延误成本的测量方法。
2)业务质量
测量业务案例是否按期完成;基于新创建或集成的数据导致业务发生的改变,测量项目是否实际交付了这些变更
3)业务操作质量
测量改进效率的方法。实例包括准确性改进、时间减少,由于数据错误而导致的纠错费
4)业务环境改进
实例包括由于数据错误减少而改变的客户保留率和在递交报告中当局评论的减少率。
第5章 数据建模和设计
5.1 引言
数据建模是发现、分析和确定数据需求的过程,用一种称为数据模型的精确形式表示和传递这些数据需求。数据建模是数据管理的一个重要组成部分。建模过程中要求组织发现并记录数据组合的方式。在建模过程本身,设计了数据组合的方式。
5.1.1 业务驱动因素
1)提供有关数据的通用词汇表
2)获取、记录组织内数据和系统的详细信息
3)在项目中作为主要的交流沟通工具
4)提供了应用定制、整合,甚至替换的起点
5.1.2 目标和原则
目标:确认和记录不同视角对数据需求的理解,确保应用程序更符合当前和未来的业务需求,为更多数据应用或数据管理奠定一个良好的基础,例如主数据管理和数据治理项目。
确认和记录有助于:
1)格式化
2)范围定义
3)知识保留记录
5.1.3 基本概念
1、数据建模和数据模型
数据建模最常用在系统开发与系统维护的工作环境中,也称为系统开发生命周期(SDLC)。数据模型描述了组织已经理解或者未来需要的数据。数据模型包含一组带有文本标签的符号,这些符号试图以可视化方式展现数据需求并将其传递给数据建模人员,以获得一组特别的数据。
2、建模的数据类型
1)类别信息
用于对事物进行分类和分配事物类型的数据
2)资源信息
实施操作流程所需资源的基本数据
3)业务事件信息
在操作过程中创建的数据
4)详细交易信息
详细的交易信息通常通过销售系统生成。
3、数据建模组件
(1)实体
1)实体的别名
2)实体的图形表示
矩形代表实体
3)实体的定义
清晰
准确
完整
(2)关系
1)关系的别名
导航路径、边界、链接
2)关系的图形表示
显示为线条
3)关系的基数
在两个实体之间的关系中,基数说明了一个实体(实体实例)和其他实体参与建立关系的数量。
4)关系的元数
①一元关系
递归关系,或自我引用关系
②二元关系
涉及两个实体
③三元关系
涉及三个实体
5)外键
(3)属性
属性是一种定义、描述或度量实体某方面的性质。属性可能包含域,这将在后面展开讨论。
1)属性的图形表示
通常在实体矩形内的列表中描述
2)标识符
也称为键,是唯一标识实体实例的一个或多个属性的集合
键的结构类型
①单一建
②组合键
③复合键
键的功能类型
主键
备用键
标识关系与非标识关系
独立实体是指其主键仅包含只属于该实体的属性
非独立实体是指其主键至少包含一个来自其他实体的属性
非独立实体至少含有一个标识关系
标识关系是指父实体的主键作为外键被集成到子实体主键的一部分,正如学生和注册之间、课程和注册之间的关系。
在非标识关系中,父实体的主键仅被继承为子实体的非主外键属性
(4)域
代表某一属性可被赋予的全部可能取值
4、数据建模方法
(1)关系建模
表示方法:
信息工程(IE)
采用三叉线俗称鸭掌模型来表示基数
信息建模集成定义(IDEF1X)
巴克符号
陈氏符号
(2)维度建模
1)事实表
2)维度表
高度反范式的
维度属性以不同速率变化,3种主要的变化类型,被称为ORC
①覆盖:新值覆盖旧值
②新行:新值写在新行中,旧行被标记为非当前值
③新列:一个值的多个实例列在同一行的不同列中,而一个新值意味着将系列中的值向下一点写入,以便在前面为新值留出空间,最后一个值被丢弃。
3)雪花模型
是将星型模式中的平面、单表、维度结构规范为相应的组件层次结构或网络结构。
4)粒度
是指事实表中的单行数据的含义或者描述,这是每行都有的最详细信息。定义一个事实表中的粒度是维度建模的关键步骤之一。
5)一致性维度
基于整个组织考虑构建的,而不是基于某个特定的项目。
6)一致性事实
使用跨多个数据集市的标准化术语。
(3)UML
统一建模语言是一种图形风格的建模语言。UML根据数据库的不同有着不同种类的表示法(类模型)。UML规定了类(实体类型)和它们之间关系类型。特点有:
1)与ER图相似,但ER图中没有操作(Operation)或方法部分。
2)在ER图中,与操作最为接近概念的是存储过程。
3)属性类型(如日期、分钟)是用程序编程语言的数据类型表示的,而不是物理数据库数据类型来表示。
4)默认值可以在符号中有选择的显示
5)访问数据是通过类的公开接口。
类操作可以是:
1)公开的
2)内部可见的
3)私密的
(4)基于事实的建模
一个广泛而强大的约束系统依赖于流畅的自动语言和对具体实例的自动检查。
基于事实的建模是一种概念建模语言,通常基于Fact-Based Modeling对象的特征,以及每个对象在每个事实中所扮演的角色来描述世界。
不使用属性,通过表示对象(实体和值)之间的精确关系来减少直观或专家判断的需求。
1)对象角色建模(ORM)
使用最广
是一种模型驱动的工程方法,以典型的需求信息或查询的实例开始,这些实例在用户熟悉的外部环境中呈现,然后在概念层次上用受控的自然语言所表达的简单事实来描述这些实例。受控自然语言是受限制的无歧义的自然语言版本,因此所表达的语义很容易被人理解,也是形式化的语言。
2)完全面向通信的建模
在注释和方法上与ORM相似。
(5)基于时间的数据模型(Timed-Based)
1)数据拱顶(Data Vault)
是一组支持一个或多个业务功能领域,面向细节、基于时间且唯一链接的规范化表。数据拱顶模型是一种混合方式,综合了三范式和星型模型的优点。
有三种类型的实体:中心表、链接表和卫星表。
中心表代表业务主键,链接表定义了中心表之间的事务集成,卫星表定义了中心表主键的语境信息。
2)锚建模
锚模型适合信息的结构和内容都随时间发生变化的情况。它提供用于概念建模的图形语言,能够扩展处理临时数据。
四个基本概念:锚、属性、连接、节点。锚模拟的是实体,属性模拟了锚的特征,连接表示锚之间的关系,节点用来模拟共享的属性。
(6)非关系型数据库
基于非关系技术构建的数据库的统称。有四类NoSQL:
1)文档数据库
通常将业务主题存储在一个文档结构中,而不是将其分解为多个关系结构。
2)键值数据库
只在两列中存储数据,键和值,特性是可以在值列同时存储简单和复杂的信息
3)列数据库
最接近关系型数据库。将数据视为行和值,不同的是,关系型数据库使用预定义的结构和简单的数据类型,列数据库如Cassandra可以使用复杂的数据类型,包括未格式化的文本和图形;此外列数据库将每列存储在自己的结构中。
4)图数据库
是为哪些使用一组节点就可以很好地表示它们之间的关系的数据而设计的。这些节点之间的连接数不确定。最大功能是寻找最短路径或最近邻居。这些功能在传统的关系型数据库中实现是极其复杂的。包括Neo4J、Allegro、Virtuoso
5、数据模型级别
数据库管理的三重模式
1)概念模式
体现了正在数据库中建模企业的“真实世界”视图,代表了企业当前的“最佳模式”或“经营方式”。
2)外模式
是数据库管理系统的各个用户操作与特定需求相关企业模型的子集。这些子集称为外模式
3)内模式
数据的“机器视图”由内模式描述,描述了企业信息的存储表示形式。
(1)概念数据模型(CDM)
是用一系列相关主题域的集合来描述概要数据需求。概念数据模型仅包括给定的领域和职能中基础和关键的业务实体,同时也给出实体和实体之间关系的描述。例如,要对学生和学校之间的关系进行建模,采用信息工程(IE)语法描绘的关系型概念数据模型。
(2)逻辑数据模型(LDM)
是对数据需求的详细描述,通常用于支持特定用法的语境。逻辑数据模型不受任何技术或特定实施条件的约束。逻辑数据模型通常是从概念数据模型扩展而来。
通过添加属性扩展概念数据模型
(3)物理数据模型
描述了一种详细的技术解决方案,通常以逻辑数据模型为基础,与某一类系统硬件、软件和网络工具相匹配。物理数据模型与特定技术相关。关系型数据库管理系统应被设计成具有特定功能的数据库管理系统。
维度模型的物理数据模型
1)规范模型
规范模型是物理模型的一个变种,用于描述系统之间的数据移动。该模型描述了在系统之间作为数据报或消息传递的数据结构。
2)视图
3)分区
4)逆规范化
①提前组合来自多个其他表的数据,以避免代价高昂的运行时连接
②创建更小的、预先过滤的数据副本,以减少昂贵的运行时计算和/或大型表的扫描
③预先计算和存储昂贵的数据计算结果,以避免运行时系统资源竞争。
6、规范化
是运用规则将复杂的业务转化为规范的数据结构的过程。规范化的基本目标是保证每个属性只在一个位置出现,以消除冗余或冗余导致的不一致性。整个过程需要深入理解每个属性,以及每个属性与主键的关系。
1)第一范式:确保每个实体都有一个主键
2)第二范式:确保每个实体都有最小的主键,每个属性都依赖于完整的主键
3)第三范式:确保每个实体都没有隐藏的主键,每个属性都不依赖于键值之外的任何属性
4)Boyce/Codd范式(BCNF):解决了交叉的复合候选键的问题。
5)第四范式:将所有三元关系分解成二元关系,直到这些关系不能再分解成更小的部分
6)第五范式:将实体内部的依赖关系分解成二元关系,所有联结依赖部分主键。
7、抽象化
泛化
将实体的公共属性和关系分组为超类实体
特化
而特化将实体中的区分属性分离为子类实体。这种特化通常基于实体实例中的属性值。
5.2 活动
5.2.1 规划数据建模
计划包括:
1)评估组织需求
2)确定建模标准
3)明确数据模型存储管理
交付成果:
1)图表
2)定义
3)争议和悬而未决的问题
4)血缘关系
5.2.2 建立数据模型
1、正向工程
是指从需求开始构建新应用程序的过程。
首先需要通过建立概念模型来理解需求的范围和核心术语;然后建立逻辑模型来详细描述业务过程;最后通过具体的建表语句来实现物理模型。
(1)概念数据模型建模
1)选择模型类型
2)选择表示方法
3)完成初始概念模型
4)收集组织中最高级的概念(名称)
5)收集与这些概念相关的活动
6)合并企业术语
7)获取签署
(2)逻辑数据模型建模
1)分析信息需求
2)分析现有文档
3)添加关联实体
用于描述多对多关系。关联实体从关系涉及的实体获取标识属性,并将它们放入一个新的实体中。该实体只描述实体之间的关系,并允许添加属性来描述这种关系,如有效日期和到期日期。
4)添加属性
属性添加到概念实体中
5)指定域
保证模型属性中格式和数值集的一致性。
6)指定键
分配给实体的属性可以是键属性,也可以是非键属性。键属性有助于从所有实体中识别出唯一的实体实例,可以是单独一个属性成为键,也可以是与其他键元素组合的部分键。
(3)物理数据建模
1)解决逻辑抽象
①子类型吸收
②超类型分区
2)添加属性细节
3)添加参考数据对象
①创建匹配的单独代码表
②创建主共享代码表
③将规则或有效代码嵌入到相应对象的定义中。
4)指定代理键
给业务分配不可见的唯一键值,与它们匹配的数据没有任何意义或关系。
5)逆规范化
6)建立索引
7)分区
8)创建视图
2、逆向工程
记录现有数据库的过程
物理数据建模是第一步,以了解现有系统的技术设计
逻辑数据建模是第二步,以记录现有系统满足业务的解决方案
概念数据建模是第三步,用于记录现有系统中的范围和关键术语。
5.2.3 审核数据模型
5.2.4 维护数据模型
5.3 工具
5.3.1 数据建模工具
自动实现数据建模功能的软件
5.3.2 数据血缘工具
是允许捕获和维护数据模型上的每个属性的源结构变化的工具。实现变更影响分析
5.3.3 数据分析工具
帮助探索数据内容,根据当前的元数据进行验证、识别数据质量和现有数据工件(如逻辑和物理模型、DDL和模型描述)的缺陷
5.3.4 元数据资料库
存储有关数据模型的描述性信息,包括图标和附带的文本以及通过其他工具和流程导入的元数据
5.3.5 数据模型模式
是可重复使用的模型结构,可以在很多场景下被广泛应用,有组件、套件和整合数据模型模式。
5.3.6 行业数据模型
5.4 方法
5.4.1 命名约定的最佳实践
元数据注册时一种表示组织中元数据的国际标准,包含与数据标准相关的几个部分,包括命名属性和编写定义
数据建模和数据库设计标准是有效满足业务数据需求的指导原则,它们符合企业架构和数据架构的要求,以确保数据质量标准。
5.4.2 数据库设计中的最佳实践
1)性能和易用性。确保用户可快速、轻松地访问数据,从而最大限度地提高应用程序和数据的业务价值
2)可重用性。确保数据库结构在适当的情况下,能够被多个应用重复使用,并且可用于多种目的(如业务分析、质量改进、战略规划、客户关系管理和流程改进。避免将数据库、数据结构或数据对象耦合到单个应用程序中。)
3)完整性。无论语境如何,数据应始终具有有效的业务含义和价值,并且应始终反映业务的有效状态。实施尽可能接近数据的数据完整性约束,并理解检测并报告数据完整性约束的违规行为。
4)安全性
应始终及时向授权用户提供真实准确的数据,且仅限授权用户使用。
5)可维护性
确保创建、存储、维护、使用和处置数据的成本不超过其对组织的价值,以能够产生价值的成本方式执行所有数据工作;确保尽可能快速地相应业务流程和新业务需求的变化。
5.5 数据建模和设计治理
5.5.1 数据建模和设计质量管理
1、开发数据建模和设计标准
1)标准数据建模和数据库设计可交付成果的列表和描述
2)适用于所有数据模型对象的标准名称、可接受的缩写和非常用单词的缩写规则列表
3)所有数据模型对象的标准命名格式列表,包括属性和分词
4)用于创建和维护这些可交付成果的标准方法的列表和说明
5)数据建模和数据库设计角色和职责的列表和描述
6)数据建模和数据库设计中捕获的所有元数据属性的列表和描述,包括业务元数据和技术元数据。
7)元数据质量期望和要求
8)如何使用数据建模工具的指南
9)准备和领导设计评审的指南
10)数据模型版本控制指南
11)禁止或需要避免的事项列表
2、评审数据模型以及数据库设计质量
审查会议议程包括:
审查启动模型(如有)的项目
对模型所做的更改
考虑和拒绝的任何其他选项
新模型在多大程度上符合现有的建模或架构标准
3、管理数据模型版本与集成
变更的记录,包括:
1)为什么why项目或情况需要变更
2)变更对象(What)以及如何(How)更改,包括添加了哪些表,修改或删除了哪些列等
3)变更批准的时间(When)以及将此变更应用于模型的时间
4)谁(Who)做出了变更
5)进行变更的位置(Where)在哪些模型中
5.5.2 度量指标
1)各模型多大程度上反映了业务需求
要确保数据模型代表需求
2)模型的完整性如何
需求的完整性和元数据的完整性
需求完整性意味着已经提出的每个需求都应在模型中得到满足
元数据的完整性是指模型周围的所有描述性信息也要完整
3)模型与模式的匹配度是多少
确保正在审查模型的具象级别(概念模型、逻辑模型或物理模型)和模式(关系、维度、NoSQL)与该类模型的定义相匹配
4)模型的结构如何
验证用于构建模型的设计实践,以确保最终可以从数据模型构建数据库。
5)模型的通用性如何
评审模型的扩展性或者抽象程度
6)模型遵循命名标准的情况如何
确保数据模型采用正确且一致的命名标准
7)模型的可读性如何
确保数据模型易于阅读
8)模型的定义如何
确保定义清晰、完整和准确
9)模型与企业数据架构的一致性如何
确认数据模型中的结构能否在更加广泛和一致的环境中应用,以便在组织中可以使用一套统一的术语和模型结构。
10)与元数据的匹配程度如何
确认存储在模型结构中的数据和实际数据是一致的。
第6章 数据存储和操作
6.1 引言
定义:数据存储与操作包括对存储数据的设计、实施和支持,最大化实现数据资源的价值,贯穿于数据创建/获取到处置的整个生命周期
包含两个子活动
(1)数据库操作支持
(2)数据库技术支持
6.1.1 业务驱动因素
业务连续性
6.1.2 目标和原则
目标:
1、贯穿整个数据生命周期,管理数据的可用性
2、确保数据资产的完整性
3、管理数据交易的性能
原则:
(1)识别自动化的机会并采取行动
(2)构建时就考虑重用的思想
(3)理解并适当使用最佳实践
(4)支持数据库的标准需求
(5)为项目中的DBA角色设置期望值
6.1.3 基本概念
1、数据库术语
(1)数据库
大型数据库也称为实例或模式
(2)实例
通过数据库软件,执行对某一特定存储区域的控制访问
(3)模式
模式是数据库或实例中的数据库对象的一个子集(Subset)。模式被用来将数据库对象组织成多个可管理的集合。
(4)节点
一台单独的计算机作为分布式数据库处理数据或者存储数据的一个部分
(5)数据库抽象
通用应用接口(API)通常用来调用数据库函数。
2、数据生命周期管理
包括为数据的获取、迁移、保留、过期和处置进行的实施策略和过程。
3、管理员
(1)生产DBA
主要负责数据操作管理,包括:
1)通过性能调优、监控、错误报告等活动,确保数据库的性能及可靠性
2)通过建立备份与恢复机制,确保在任何意外情况下数据能够被恢复
3)通过建立集群和容错机制,确保数据连续可用
4)执行其他数据库维护活动,如建立数据归档机制
创建以下可交付结果:
1)生产数据库环境。包括支持服务器上的数据库管理系统DBMS实例;提供足够的资源和容量,确保获得很好的性能;配置适当的安全性、可靠性和可用性级别。数据库系统管理员为DBMS的环境负责。
2)在生产环境中,控制数据库实施变更的机制和流程
3)针对各种可能导致数据丢失或数据损坏的情况,建立确保数据完整、可用和恢复的机制。
4)建立任何可能发生在数据库或数据服务器上的错误检测和报告的机制
5)提供与服务水平协议(SLA)相匹配的数据库服务,包括可用性、数据恢复及性能等。
6)建立伴随工作负载和数据量变化的数据库性能监控的机制和过程。
(2)应用程序DBA
应用程序DBA通常负责所有环境(开发、测试、QA及生产)中的一套或多套数据库,而不是指定负责管理某个环境的数据库系统。
(3)过程和开发DBA
过程DBA负责审查和管理数据库的过程对象。过程DBA专门开发和支持关系数据库控制和执行的过程逻辑:存储过程、触发器及用户自定义的函数(UDFs)。确保过程逻辑是按规划进行的、可实施的、经过测试的、可共享的(可重用的)。
开发DBA主要关注数据设计活动,包括创建和管理特殊用途的数据库,如“数据沙盒”或者“数据探索区”
两者统称开发DBA
(4)网络存储管理员
Network Storage Administrators,NSA。主要关注支持数据存储阵列的软硬件。不同于单一的数据库管理系统,多元化的网络存储阵列系统各有不同的关注特性和监控需求。
4、数据架构类型
(1)集中式数据库
将所有数据存放在一个地方的一套系统中,所有用户连接到这套系统进行数据访问。
(2)分布式数据库
通过扫描大量节点来快速获取数据。主流的分布式数据库技术是基于普通的商业硬件服务器来实现的。它被设计成可横向扩展,即从一台到成千上外胎服务器,而每台服务器提供本地的计算和存储能力。
1)联邦数据库
联邦提供的数据不需要对数据源进行额外复制或持久化。联邦数据库系统地将多个自治的数据库系统映射成一个单一的联邦数据库。联邦并没有将真实的数据整合到一起,而是通过数据互操作性将数据联邦视为一个大型对象来管理。
松耦合
需要多个组件数据库来构造他们自己的联邦模式
紧耦合
由组件数据库系统组成,用独立的进程构造,发布一个集成的联邦模式。
2)区块链数据库
属于一种联邦数据库,用于安全管理金融交易。也能用来进行合同管理或健康信息交换。
有两种结构类型:
单条记录
每个交易包含一条记录,每个区块包含一组带时间戳的交易,整个数据库由多个区块形成的链状结构组成,每个区块还包括链中前一个区块的信息。
块
新生成区块位于末端,一旦新区块产生,旧的区块(前一个)的哈希值就不再变化。
3)可视化/云计算平台
提供计算、软件、数据访问和存储服务,不要求终端用户了解提供服务系统的物理位置和相关配置。云计算是虚拟化、SOA(面向服务架构)和效用计算广泛使用的自然演进形态。
1)虚拟机镜像
允许用户购买虚拟机实例,只使用一段时间。
2)数据库即服务(DAAS)
3)管理托管在云上的数据库
DBA需要与网络和系统管理员协调,建立系统的项目集成机制,包括标准化、整合、虚拟化、数据自动备份与恢复以及数据安全,即:
1)标准化/整合
整合减少数据在组织存储位置的数量
识别关键战略数据
数据保留的周期
数据加密过程
数据复制策略
2)服务器虚拟化
允许将多个数据中心的设备(如服务器)进行替换或整合。减少了资金和运营成本,降低了能源消耗。
3)自动化
准备、配置、修正、版本管理及合规等一系列自动化任务
4)安全
需要与物理设施的安全一起考虑
5、数据处理类型
(1)ACID
含义是保证数据库事务可靠性不可或缺的约束
1)原子性(Atomicity)
要么所有操作都完成要么一个也不完成
2)一致性(Consistency)
事务必须时刻完全符合系统定义的规则,未完成的事务必须回退
3)隔离性(Isolation)
每个事务都是独立的
4)持久性(Durability)
事务一旦完成就不可撤销
(2)BASE
与ACID相反
1)基本可用(Basically Available)
即使节点发生故障,系统仍然能保证一定级别数据的可用性。数据可能过时,但系统仍然会给出响应。
2)软状态(Soft State)
数据处于持续流动的状态,当给出响应时,数据不保证是最新的。
3)最终一致性(Eventual Consistency)
数据在所有节点、所有数据库上最终状态是一致的,但并非每时每刻在每个事务里都是一致的。
(3)CAP
布鲁尔定理。是集中式系统在朝着分布式的系统方向发展过程中提出的理论。CAP定理指的是分布式系统不可能同时满足ACID的所有要求。系统规模越大,满足的要求点越少。
1)一致性
系统必须总是按照设计和预期的方式运行。
2)可用性
请求发生时系统时刻都保持可用状态,并对请求作出响应。
3)分区容错
偶尔发生数据丢失或者部分系统故障发生时,系统依然能够继续运行提供服务。
三选二:在任何共享数据的系统里,这3项最多可能同时满足其中两项。
Lambda架构设计就是该定理的运用:Lambda架构是通过两种路径方式来使用数据:当可用性和分区容错更重要时采用Speed路径,效率优先;当一致性和可用性重要时采用Batch路径
6、数据存储介质
(1)磁盘和存储区域网络(SAN)
Storage Area Network,磁盘阵列组成SAN
(2)内存
In-Memory Database,IMDB,从永久存储中将数据加载到内存中,所有的数据处理都在内存中完成。这相比在磁盘上处理数据的系统,事务响应速度更快。
(3)列压缩方案
列式数据库是为处理那些数据值存在大量重复的数据集而设计的,比如一个表有256列,列式存储并使用压缩技术,可以降低对I/O带宽的占用。
(4)闪存
集内存的访问速度和存储持久性于一体的特点。
闪存和SSD固态硬盘
7、数据库环境
(1)生产环境
是指处理所有生产业务流程发生的技术环境
(2)非生产环境
1)开发环境
任何补丁或更新进行测试的第一场所
2)测试环境
①质量保证测试(QA):依据需求进行功能测试
②集成测试:将独立开发或更新的多个模块作为一个整体系统进行测试。
③用户验收测试(UAT):从用户视角进行系统功能测试,
④性能测试:任何时候都可考虑进行的高复杂度或大容量的测试
3)数据沙盒或实验环境
数据沙盒是允许以只读的方式访问和管理生产数据的另一个环境。数据沙盒用于实验开发或者验证相关假设的数据,或者将用户自己开发的数据从外部获得的补充数据与生产数据进行合并。如同POC;沙盒可采用虚拟机
8、数据库组织模型
(1)层次型数据库
数据被组织成具有强制的父子关系的树形结构:每个父级可以有多个子级,但每个子级只有一个父级(也称为一对多关系)。目录树是层次数据库的一个示例。
(2)关系型数据库
并非表的关系而得名。基于集合理论和关系代数,其中数据元素或属性(列)与元组(行)相关。表是指具有相同结构的关系集。
1)多维数据库
允许同时对多个数据元素过滤器进行搜索,常用语数据仓库和商务智能BI
2)时态数据库
①有效时间
现实世界中一个真实事件或实体对象发生的时间范围
②事务时间
存储在数据库的事实被认为是真实的时间段
(3)非关系型数据库
可以将数据存储为简单的字符串或者完整的文件。使用的一致性模型约束较少,这种方法/机制的动机包括:简化设计、水平扩展性以及对可用性更好的控制。
1)列式数据库
①当需要对很多行进行聚合计算时,面向列的存储组织更加高效,因为可以不必访问行里的其他列就有效地写入数据,替换旧的列数据。
②当一次向所有航更新某个列时,面向列的存储组织更加高效,因为可以不必访问行里的其他数据
③当同时需要获取一行中的许多列,并且行的体量相对较小,单次磁盘访问就能将整行检索时,,面向行的存储更高效
④如果写入一条新记录时同时要提供所有的行数据,那么面向行的组织效率更高:整个行的数据可以用单次磁盘操作写入
⑤在实践中,面向行的存储布局非常适合于在线事务处理OLTP类的工作负载,重点是交互式事务。面向列的存储非常适合于在线分析处理OLAP类的工作服在,例如数仓通常涉及对所有数据的少量高度复杂的查询
2)空间数据库
用于存储和查询几何空间中定义的对象数据。
①空间评估
计算线条长度、多边形面积 、几何图形之间的距离等
②空间功能
修改现有特征以创建新特征
③空间预测
允许对几何图形之间的空间关系进行真假查询
④几何构造
通常通过描述所定义形状的顶点来创建新的几何图形
⑤观测功能
查询并返回某个特征的特定信息
3)对象/多媒体数据库
包括一个分层存储管理系统,用于高效管理磁介质和光存储介质;还包括表示系统基础对象的集合
4)平面文件数据库
描述了将数据集编码为单个文件的各种方法。平面文件可以是纯文本文件或二进制文件。
只包含数据以及长度和分隔符不同的记录。更广泛地说,这个术语是指以行和列的形式存在于单个文件中的任何数据库,除此之外,记录和字段之间没有任何关系或链接。
5)键值对
包含两部分:键的标识符和值
①文档数据库
面向文档的数据库包含由结构和数据组成的文件集合,每个文档都分配了一个键。可以使用XML或JSON结构
②图数据库
图数据库存储关键值对,关注重点是组成图的节点关系,而不是节点本身。
6)三元组存储
由主语、谓语、宾语组成的数据实体称为三元组存储(Triplestore)。在资源描述框架(Resource Description FrameWork,RDF)术语中,三元组存储由表示资源的主语、表示资源和对象之间关系的谓语以及对象本身组成。三元组存储是一个专门构建的数据库,用于以主谓宾表达式的形式存储和检索三元组。
①原生三元组存储(Native Triplestores)
那些从零开始实现并利用RDF数据模型来高效地存储和访问RDF数据的三元组存储。
②RDBMS支持的三元组存储(RDBMS-backed Triplestores)
在现有的RDBMS之上添加RDF描述层构建的三元组存储。
③NoSQL三元组存储(NoSQL Triplestores)
目前正在被研究可能的RDF存储管理器
三元组存储适合:分类和同义词管理、链接数据集成和知识门户
9、专用数据库
1)计算机辅助设计和制造(CAD/CAM)
2)地理信息系统(GIS)
3)购物车功能
10、常见数据库过程
(1)数据归档
归档是将数据从可立即访问的存储介质迁移到查询性能较低的存储介质上的过程。
必须与分区策略一致,确保最佳可用性和数据保留度。方法包括:
1)创建一个辅助存储区域,优先建在辅助数据库服务器上
2)将当前的数据库表分区成可以归档的单元
3)将不经常使用的数据复制到单独的数据库
4)创建磁带或磁盘备份
5)创建数据库任务,定期清理不再适用的数据
当归档数据不同步或不一致时,有以下处理方法:
1)确定是否保留历史归档或有多少历史归档需要保留,不需要的历史归档可以清除
2)对于重大技术调整,在调整前将归档恢复到原始系统、升级或迁移到新系统,并在新系统下重新归档数据
3)对于源数据库结构发生更改的高价值归档数据,恢复归档,并对数据结构进行相应更改,用新结构重新归档
4)对于相对低价值的低频访问归档,在源系统的技术或结构发生改变时,保持旧系统的小版本,供有限的数据访问,并根据需要用旧系统的数据格式从归档中抽取数据。
(2)容量和增长预测
1)先确定容量
2)放的速度有多快
3)取的速度有多快
(3)变动数据捕获
Change Data Capture,CDC。是指检测到数据的变动并确保与变动相关的信息被适当记录的过程。
通常是基于日志的复制,是一种非侵入性方法,将数据更改复制到目标端而不影响源端
两种不同的检测和收集更改方法:数据版本控制-评估标识已改动过行的列,或通过读取日志。
(4)数据清除
清除是指从存储介质中彻底删除数据并让它无法恢复的过程。
(5)数据复制
意味着多个存储设备上存放着相同的数据。
两种模式
1)主动复制
不存在主副本,可以在每个副本上主动创建和存储来自其他副本的相同数据
2)被动复制
首先在主副本上创建和存储数据,然后把更改的状态传送到其他副本上。
两个维度的扩展方式:
1)水平数据扩展
拥有更多的数据副本
2)垂直数据扩展
将数据副本方法哦距离更远的不同地理位置上
两种主要的复制方式:
1)镜像(Mirroring)
作为两阶段提交过程的一部分,在主库的更新会立即(相对而言)同步给辅助数据库
2)日志传送(Log Shipping)
辅助数据库定时接收并应用从主数据库传来的事务日志副本
镜像比日志成本高,镜像通常对辅助服务器有效,日志可以用来更新更多的辅助服务器
(6)韧性与恢复
数据库韧性是衡量系统对错误条件容忍度的指标。如果一个系统能够容忍高级别的处理错误,并且仍能像预期一样工作,那么它就具有很强的韧性。
如果数据库可以检测异常,并提前终止或从通用的错误处理办法(如失控查询)中自动恢复,则认为它具有韧性
三种恢复类型:
1)立即恢复
有些问题有时需要通过设计来解决,例如可以通过预判并自动解决问题,切换到备用系统
2)关键恢复
它是指尽快恢复以尽量减少业务延迟或业务中断的恢复计划
3)非关键恢复
它是指该类业务可以延迟恢复,直到更关键的系统恢复完毕
(7)数据保留
数据保留(Retention)是指数据保持可用的时间。数据保留规划应该是物理数据库设计的一部分,数据保留需求也会影响容量规划
(8)数据分片
分片(Sharding)是一个把数据库中的一部分独立出来的过程。因为分片的复制只是一个很小的文件,所以分片可以独立于其他分片进行更新。
6.2 活动
6.2.1 管理数据库技术
主要参考模型是信息技术基础设施库
1、理解数据库的技术特征
2、评估数据库技术
选择DBMS软件时应考虑下列一些因素:
1)产品架构和复杂性
2)容量和速度限制,包括数据流传送速率
3)应用类别,如事务处理、商务智能、个人资料
4)特殊功能,如时间计算支持
5)硬件平台及操作系统支持
6)软件支持工具的可用性
7)性能评测,包括实时统计信息
8)可扩展性
9)软件、内存和存储需求
10)韧性,包括错误处理和错误报告
与技术本身无直接关系,与采购组织和供应商有直接关系的因素:
1)组织对技术风险的偏好
2)提供训练有素的技术专业人员
3)拥有成本,如软件许可费、维护费和计算资源成本
4)供应商声誉
5)供应商支持策略和版本计划
6)其他客户案例
3、管理和监控数据库技术
DBA通常是作为后台技术支持与服务台和供应商的支持人员一起,理解、分析和解决用户问题。
6.2.2 管理数据库操作
1、理解需求
(1)定义存储需求
(2)识别使用模式
1)基于事务型
2)基于大数据集的读或写型
3)基于时间型
4)基于位置型
5)基于优先级型
(3)定义访问需求
数据访问包括与存储、获取或者处理存储在其他数据库和资料库中的数据等相关的活动。
2、规划业务连续性
1)物理数据库服务器失效
2)一块或多块磁盘存储设备失效
3)数据库失效,包括主要的数据库、临时的存储数据库和事务日志等
4)数据库索引或数据页损坏
5)数据库和日志段的文件系统失效
6)数据库或事务日志的备份文件失效
(1)备份数据
(2)恢复数据
3、创建数据库实例
DBA负责创建数据库实例,相关活动包括:
1)安装和更新DBMS软件
2)维护多种环境的安装,包括不同的DBMS版本
3)安装和管理相关的数据技术。
(1)物理存储环境管理
1)配置识别
2)配置变更控制
3)配置状态报告
4)配置审计
(2)管理数据访问控制
1)受控环境
2)物理安全
3)监控
4)控制
(3)创建存储容器
(4)应用物理数据模型
存储对象
索引对象以及执行数据质量规划
连接数据库对象
实现数据库性能所需的任何封装代码对象
(5)加载数据
(6)管理数据复制
通过以下方面的建议来影响关于数据复制过程的决策
1)主动或被动复制
2)基于分布式数据系统的分布式并发控制
3)在数据更改控制过程中,通过时间戳或版本号来识别数据更新的适当方法。
4、管理数据库性能
通过以下步骤管理数据库的性能:
1)设置和优化操作系统及应用程序参数
2)管理数据库的连接
3)与系统开发人员和网络管理员合作,优化操作系统、网络和事务处理中间件,以方便数据库更好地运行
4)提供合适的存储,让数据库与存储设备和存储管理软件有效配合
5)提供容量增长预测,支持存储获取和一般数据生命周期管理活动
6)与系统管理员一起,提供操作工作负载和基准,以支持SLA管理、收费计算、服务器容量以及规划的生命周期轮换
(1)设置数据库性能服务水平
(2)管理数据库可用性
1)可管理型
创建和维护环境的能力
2)可恢复性
中断发生后重新建立服务的能力,修复由于不可预见的事件或组件故障导致的错误的能力
3)可靠性
在规定时间内提供指定水平服务的能力
4)可维护性
识别存在问题的能力,诊断原因,修复/解决问题
许多因素可能影响可用性:
1)计划性停机
出于维护
出于升级
2)非计划性停机
①服务器硬件故障
②磁盘硬件故障
③操作系统故障
④数据库软件故障
⑤数据中心站点故障
3)应用问题
①安全和授权问题
②严重性能问题
③恢复失败
4)数据问题
①数据损坏
②数据库对象丢失
③数据丢失
④数据复制问题
5)人为错误
确保可用性可能的工具和方法:
1)运行数据库备份工具
2)运行数据库重组工具
3)运行统计信息搜集工具
4)运行数据完整性检查工具
5)自动执行上述这些工具
6)利用表空间聚类和分区
7)跨库进行数据复制保证高可用性
(3)管理数据库运行
DBA部署数据库监控,监视数据库的运行、数据变更日志的使用和复制环境的同步等情况。日志大小和位置需要空间。
(4)维护数据库性能服务水平
1)事务性能与批处理性能
2)问题修复;性能低下的常见原因:
①内存分配和争用
②锁与阻塞
③不准确的数据库统计信息
④不良代码
⑤低效而复杂的表连接
⑥不当的索引
⑦应用程序活动
⑧过载的服务器
⑨数据库的易变性
⑩失控的查询语句
(5)维护备用环境
1)开发环境
2)测试环境
质量保证 集成测试 用户验收 性能测试
3)数据沙箱
检验假设和开发新的数据使用
4)备用的生产环境
支持脱机备份、故障转移和韧性支持
5、管理测试数据集
6、管理数据迁移
1)将过度使用的存储设备上的数据转移到一个单独的环境中
2)根据需要将数据移动到速度更快的存储设备上
3)实施数据生命周期管理策略
4)将数据从旧的存储设备(无论是报废还是停止租赁)迁移到线下或云存储上
6.3 工具
6.3.1 数据建模工具
生成数据库数据定义语言脚本(DDL),支持逆向工程,验证命名标准 检查拼写、存储元数据
6.3.2 数据库监控工具
自动监控关键指标如容量、可用性、缓存性能、用户统计等,并向DBA和网络存储管理员发出当前数据库问题报警。大多数的数据库监控工具可以同时监控多种类型的数据库
6.3.3 数据库管理工具
配置功能、安装补丁和升级、备份和恢复、数据库克隆、测试管理和数据清理任务。
6.3.4 开发支持工具
包含可视化界面,用于连接和执行数据库上的命令。
6.4 方法
6.4.1 在低阶环境中测试
6.4.2 物理命名标准
利用ISO/IEC 11179-元数据注册表(Metadata Registries,MDR)处理数据的语义、数据的表示和数据描述的注册。
6.4.3 所有变更操作脚本化
6.5 实施指南
6.5.1 就绪评估/风险评估
(1)数据丢失的风险
由于技术或程序错误,或者处于恶意的目的,数据可能会丢失。
(2)技术准备的风险
对于新技术需要IT技能和经验准备
6.5.2 组织和文化变化
1)主动沟通
2)站在对方的立场上与之沟通
3)保持专注于业务
4)对他人要有帮助
5)不断学习
6.6 数据存储和数据治理
6.6.1 度量指标
数据存储的度量指标:
1)数据库类型的数量
2)汇总交易统计
3)容量指标
4)已使用存储的数量
5)存储容器的数量
6)数据对象中已提交和未提交块或页的数量
7)数据队列
8)存储服务使用情况
9)对存储服务提出的请求数量
10)对使用服务的应用程序性能的改进
性能度量评估指标:
1)事务频率和数量
2)查询性能
3)API服务性能
操作度量指标:
1)有关数据检索时间的汇总统计
2)备份的大小
3)数据质量评估
4)可用性
服务度量指标:
1)按类型的问题提交、解决和升级数量
2)问题解决时间
6.6.2 信息资产跟踪
数据存储治理中的一部分是确保数据库遵守所有许可协议和监管要求。应对软件使用许可、年度支持费用以及服务器租赁协议和其他固定费用,进行跟踪和年审。
6.6.3 数据审计与数据有效性
数据审计
是根据定义的标准对数据集进行评估的过程,通常是对数据集的特定关注点进行审计。审计的目的是为了确定数据的存储是否符合合同和方法要求。数据审计方法可能包括一个项目特定和全面的检查表、所需的可交付成果和质量控制标准
数据验证
是根据既定的验收标准评估存储数据的过程,以确定其质量和可用性。数据验证程序依赖于数据质量团队或其他数据使用者的需求所建立的标准。
DBA提供部分支持工作:
1)帮助制定和审查方法
2)进行初步的数据筛选和审查
3)开发数据监控方法
4)应用统计信息、地理统计信息、生物统计信息等技术来优化数据分析
5)支持采样及分析
6)审核数据
7)提供数据发现的支持
8)担任与数据库管理相关问题的主题专家