导图社区 5.2 数据工程
根据《信息系统项目管理师》(第四版)教材整理,内容有数据建模、数据标准化、数据运维、数据开发利用、数据库安全。
编辑于2023-08-05 17:21:43 内蒙古自治区5.2 数据工程
5.2.1 数据建模
定义
数据建模是对现实世界中具体的人、物、活动和概念进行抽象、表示和处理,变成计算机可处理的数据
研究内容
主要研究如何运用关系数据库设计理论,利用数据建模工具,建立既能正确反映客观世界,又便于计算机处理的数据模型。
1.数据模型
1)概念模型
把现实世界中的客观对象抽象为某一种信息结构,这种信息结构不依赖于具体的计算机系统,也不对应某个具体的DBMS,它是概念级别的模型。
基本元素
实体
客观存在的并可以相互区分的事物称为实例,而同一类型实例的抽象称为实体
属性
实体的特性称之为属性。
域
属性的取值范围称为该属性的域
键
能唯一标识每个实例的一个属性或几个属性的组合称为键。
关联
在现实世界中,客观事物之间是相互关系的,这种相互关系在数据模型中表现为关联。
一对一、一对多和多对多
对概念模型的要求
念模型是对现实世界的抽象和概括,它应该真实、充分地反映现实世界中事物和事物之间的联系
概念模型应简洁、明晰、独立于机器、容易理解
概念模型应易于变动
概念模型应容易向关系、层次或网状等各种数据模型转换,易于从概念模型导出与DBMS相关的逻辑模型。
2)逻辑模型
逻辑模型是在概念模型的基础上确定模型的数据结构
包括
层次模型
网状模型
关系模型
基本元素
关系、关系的属性、视图
数据操作
查询、插入、删除和更新数据
关系的完整性约束
实体完整性
参照完整性
必须满足
用户定义的完整性
应用领域需要遵照的约束条件,体现了具体领域中的语义约束。
面向对象模型
对象关系模型
3)物理模型
物理数据模型是在逻辑数据模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放。
物理模型的基本元素包括表、字段、视图、索引、存储过程、触发器等
2.数据建模过程
(1)数据需求分析。
分析用户对数据的需要和要求
融合在整个系统需求分析的过程之中。
数据需求分析采用数据流图作为工具,描述系统中数据的流动和变化,强调数据流和处理过程。
(2)概念模型设计。
将需求分析得到结果抽象为概念模型的过程就是概念模型设计,其任务是确定实体和数据及其关联。
(3)逻辑模型设计
逻辑模型设计主要指关系模型结构的设计。
关系模型由一组关系模式组成,一个关系模式就是一张二维表,
逻辑模型设计的任务就是将概念模型中实体、属性和关联转换为关系模型结构中的关系模式。
(4)物理模型设计。
物理模型考虑的主要问题包括命名、确定字段类型和编写必要的存储过程与触发器等。
5.2.2 数据标准化
数据标准化主要为复杂的信息表达、分类和定位建立相应的原则和规范,使其简单化、结构化和标准化,
1.元数据标准化
元数据
元数据是关于数据的数据(Data About Data)。
在信息界,元数据被定义为提供关于信息资源或数据的一种结构化数据,是对信息资源的结构化描述。
其实质是用于描述信息资源或数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。
1)信息对象
元数据描述的对象可以是单一的全文、目录、图像、数值型数据以及多媒体(声音、动态图像)等,也可以是多个单一资源组成的资源集合,或是这些资源的生产、加工、使用、管理、技术处理、保存等过程及其过程中产生的参数的描述。
2)元数据体系
2.数据元标准化
互连、互通、互操作的开放系统互连环境 (Open Systems Interconnection Environment,OSIE)
基本要素
硬件
软件
通信
数据
际标准化组织(Intenational Organization for Standardization,ISO)提出了数据元标准的概念,要求按共同约定的规则进行统一组织、分类和标识数据,规范统一数据的含义、表示方法和取值范围等,保证数据从产生的源头就具备一致性。
1)数据元
数据元是数据库、文件和数据交换的基本数据单元。数据库或文件由记录或元组等组成,而记录或元组则由数据元组成。数据元是在数据库或文件之间进行数据交换时的基本组成。数据元通过一组属性描述其定义、标识、表示和允许值的数据单元。
数据元一般来说由三部分组成
①对象
对象类是可以对其界限和含义进行明确的标识,且特性和行为遵循相同规则的观念、抽象概念或现实世界中事物的集合。
它是人们希望采集和存储数据的事物。对象类在面向对象的模型中与类相对应,在实体-关系模型中与实体对应,如学员、教员、军事院校等。
②特性
特性是指一个对象类的所有成员所共有的特征。
它用来区别和描述对象,构成对象类的内涵。特性对应于面向对象模型或实体-关系模型中的属性,如身高、体重、血压、脉搏、血型等。
③表示
表示可包括值域、数据类型、表示类(可选的)和计量单位四部分,
值域是数据元允许值的集合,例如“学生总数”这一数据元的值域是用非负实数集作为它的允许值集合。
数据类型是表达数据元不同可选值的集合。以这些值的特性和运算为特征,例如学生姓名的数据类型是“字符”。
表示类是表示类型的分类,它是可选的,例如“性别代码”这一值域的表示类是“类别”。
计量单位是用于计量相关值的实际单位,例如学生身高的计量单位是“厘米”。
2)数据元提取
提取方法
自上而下(Top-Down)提取方法
新建系统的数据元提取,一般适用“自上而下”的提取法
在流程和功能分析的基础上,通过建模分析,确立关心的“对象”。在概念数据模型和逻辑数据模型的基础上,分析提取数据元及其属性。
自下而上(Down-Top)提取方法
自下而上提取法也称逆向工程,对于已建系统的数据元提取,一般适用这种自下而上提取法。
数据元直接来自各个信息系统。
数据元创建者依据数据元标准化方法,对信息系统及相关资源的数据,在分析、梳理的基础上,归纳整理出数据元;根据数据元的实际应用,阐明并写出相关数据元在采集、存储和交换过程中各个属性以及属性的约束要求;描述和定义各个属性所需要的属性描述符及其约束要求;根据给定的命名表示规范形成数据元。
3)数据元标准
制定一个数据元标准,应遵循若干个基本过程
描述
界定业务范围
开展业务流程分析与信息建模
借助于信息模型,提取数据元,并按照一定的规则规范其属性
对于代码型的数据元,编制其值域,即代码表与现有的国家标准或行业标准进行协调
发布实施数据元标准并建立相应的动态维护管理机制
3.数据模式标准化
3.数据模式标准化
数据模式是数据的概念、组成、结构和相互关系的总称。
数据模式的描述方式
图描述方法
常用的有IDEFIX方法和UML图,主要用来描述数据集中的实体和实体之间的相互关系;
数据字典方法
用来描述模型中的数据集、单个实体、属性的摘要信息。
4.数据分类与编码标准化
数据分类
是根据内容的属性或特征,将数据按一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序。
两个要素
分类对象由若干个被分类的实体组成;
分类依据取决于分类对象的属性或特征。
数据编码
将事物或概念(编码对象)赋予具有一定规律和易于计算机、人识别处理的符号,形成代码元素集合。 数据分类与编码标准化
就是把数据分类与编码工作纳入标准化工作的领域,按标准化的要求和工作程序,将各种数据按照科学的原则进行分类以编码,经有关方面协商一致,由主管机构批准、注册,以标准的形式发布,作为共同遵守的准则和依据,并在其相应的级别范围内宣贯和推行
是简化信息交换、实现信息处理和信息资源共享的重要前提,是建立各种信息管理系统的重要技术基础和信息保障依据。
5.数据标准化管理
四个阶段
(1)确定数据需求。
本阶段将产生数据需求及相关的元数据、域值等文件。
在确定数据需求时应考虑现行的法规、政策,以及现行的数据标准。
(2)制定数据标准。
阶段要处理“确定数据需求”阶段提出的数据需求。
如果现有的数据标准不能满足该数据需求,可以建议制定新的数据标准,也可建议修改或者封存已有数据标准。
推荐的、新的或修改的数据标准记录于数据字典中。这个阶段将产生供审查和批准的成套建议。
(3)批准数据标准。
本阶段的数据管理机构对提交的数据标准建议、现行数据标准的修改或封存建议进行审查。一经批准,该数据标准将扩充或修改数据模型。
(4)实施数据标准。
本阶段涉及在各信息系统中实施和改进已批准的数据标准。
5.2.3 数据运维
1.数据存储
数据存储就是根据不同的应用环境,通过采取合理、安全、有效的方式将数据保存到物理介质上,并能保证对数据实施有效的访问
含义
①数据临时或长期驻留的物理媒介;
②保证数据完整安全存放和访问而采取的方式或行为。
(1)数据存储介质。
存储介质的类型主要有磁带、光盘和磁盘三种。
(2)存储管理。
资源调度管理
功能主要是添加或删除存储节点,编辑存储节点的信息,设定某类型存储资源属于某个节点,或者设定这些资源比较均衡地存储到节点上。
它包含存储控制、拓扑配置以及各种网络设备如集线器、交换机、路由器和网桥等的故障隔离
存储资源管理
存储资源管理是一类应用程序,它们管理和监控物理和逻辑层次上的存储资源,从而简化资源管理,提高数据的可用性。
被管理的资源包括存储硬件如RAID、磁带以及光盘库。
存储资源管理不仅包括监控存储系统的状况、可用性、性能以及配置情况,还包括容量和配置管理以及事件报警等,从而提供优化策略
负载均衡管理
负载均衡是为了避免存储资源由于资源类型、服务器访问频率和时间不均衡造成浪费或形成系统瓶颈而平衡负载的技术
安全管理
存储系统的安全主要是防止恶意用户攻击系统或窃取数据。
系统攻击大致分为两类
以扰乱服务器正常工作为目的,如拒绝服务攻击DoS等;
入侵或破坏服务器为目的,如窃取数据、修改网页等
2.数据备份
2.数据备份 数据备份是为了防止由于用户操作失误、系统故障等意外原因导致的数据丢失,而将整个应用系统的数据或一部分关键数据复制到其他存储介质上的过程。 这样做的目的是保证当应用系统的数据不可用时,可以利用备份的数据进行恢复,尽量减少损失。 数据备份结构 DAS备份结构、基于LAN的备份结构、LANFREE备份结构和SERVER-FREE备份结构。 备份策略 全备份、差分备份和增量备份。 备份软件 操作系统自带的软件,如麒麟操作系统的“备份”工具,这类软件实现的功能都很简单; 专业备份软件,其能够实现比较全面的功能。
3.数据容灾
3.数据容灾 一切引起系统非正常停机的事件都可以称为灾难,包括不可预料、不可抗拒的自然灾害,系统软硬件故障、人为误操作和恶意攻击等。 根据容灾系统保护对象的不同,分为 应用容灾,用于克服灾难对系统的影响,保证应用服务的完整、可靠和安全等一系列要求,使得用户在任何情况下都能得到正常的服务; 数据容灾,数据容灾则关注于保证用户数据的高可用性,在灾难发生时能够保证应用系统中的数据尽量少丢失或不丢失,使得应用系统能不间断地运行或尽快地恢复正常运行。 数据备份是数据容灾的基础。数据备份是数据高可用的最后一道防线,其目的是为了在系统数据崩溃时能够快速恢复数据。 真正的数据容灾就是要避免传统冷备份所具有先天不足,它在灾难发生时能全面、及时地恢复整个系统 衡量容灾系统有两个主要指标 RPO(Recovery Point Object),灾难发生时允许丢失的数据量 RTO(Recovery Time Object),系统恢复的时间。
4.数据质量评价与控制
4.数据质量评价与控制 数据质量高低必须从用户使用的角度来看,即使准确性相当高的数据,如果时效性差或者不为用户所关心,仍达不到质量管理标准。 数据质量是一个广义的概念,是数据产品满足指标、状态和要求能力的特征总和。 1)数据质量描述 数据质量可以通过数据质量元素来描述,数据质量元素分为数据质量定量元素和数据质量非定量元素。 2)数据质量评价过程 数据质量评价过程是产生和报告数据质量结果的一系列步骤,图5-3描述了数据质量评价过程。 3)数据质量评价方法 直接评价法:通过将数据与内部或外部的参照信息,如理论值等进行对比。确定数据 质量。 间接评价法:利用数据相关信息,如数据只对数据源、采集方法等的描述推断或评估数 据质量。 4)数据质量控制 数据产品的质量控制分成前期控制和后期控制两个大部分。前期控制包括数据录入前的质量控制、数据录入过程中的实时质量控制;后期控制为数据录入完成后的后处理质量控制与评价。 依据建库流程可分为:●前期控制●过程控制●系统检测●精度评价 5)数据清理 从广义上讲,是将数据库精简以除去重复记录,并使剩余部分转换成符合标准的过程。而狭义上的数据清理是特指在构建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完整性、一致性、唯一性、适时性、有效性以适应后续操作的过程。 数据清理的三个步骤: ●数据分析:是指从数据中发现控制数据的一般规则,比如字段域、业务规则等,通过对数据的分析,定义出数据清理的规则,并选择合适的清理算法。 ●数据检测:是指根据预定义的清理规则及相关数据清理算法,检测数据是否正确,比如是否满足字段域、业务规则等,或检测记录是否重复。 ●数据修正:是指手工或自动地修正检测到的错误数据或重复的记录。
5.2.4 数据开发利用
通过数据集成、数据挖掘和数据服务(目录服务、查询服务、浏览和下载服务、数据分发服务)、数据可视化、信息检索等技术手段,帮助数据用户从数据资源中找到所需要的数据,并将数据以一定的方式展现出来,实现对数据的开发利用。
1.数据集成
将驻留在不同数据源中的数据进行整合,向用户提供统一的数据视图(一般称为全局模式),使得用户能以透明的方式访问数据
2.数据挖掘
从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、却是潜在有用的知识。
主要任务包括数据总结、关联分析、分类和预测、聚类分析和孤立点分析。
数据挖掘流程一般包括确定分析对象、数据准备、数据挖掘、结果评估与结果应用五个阶段,
3.数据服务
(1)数据目录服务。是用来快捷地发现和定位所需数据资源的一种检索服务,是实现数据共享的重要基础功能服务之一。
(2)数据查询与浏览及下载服务。据查询、浏览和下载是网上数据共享服务的重要方式,用户使用数据的方式有查询数据和下载数据两种。
(3)数据分发服务。数据分发是指数据的生产者通过各种方式将数据传送到用户的过程。
4.数据可视化
可视化技术是指将抽象的事物或过程变成图形图像的表示方法。
分为七类:一维数据可视化、二维数据可视化、三维数据可视化、多维数据可视化、时态数据可视化、层次数据可视化和网络数据可视化,
5.信息检索
广义的信息检索是指将信息按一定的方式组织和存储起来,然后根据用户需求查找出特定信息的技术,所以全称是信息存储与检索(Information Storage and Retrieval)
狭义的信息检索仅指用户查找特定信息这部分,即按照用户的检索需求,利用已有的检索工具或数据库,从中找出特定信息的过程。
主要方法
(1)全文检索。以文本数据为主要处理对象,根据数据资料的内容而不是外在特征来实现的信息检索手段。
(2)字段检索。把检索对象按一定标准在不同字段中进行著录,并把不同字段作为检索依据。
(3)基于内容的多媒体检索。按检索内容可分为图像检索、视频检索和声音检索等。
(4)数据挖掘。从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中且人们事先不知道的潜在、有用的信息和知识的过程。
常用技术
(1)布尔逻辑检索技术。严格意义上的布尔检索法是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应的逻辑运算,以找出所需信息的方法。
(2)截词检索技术。截词检索技术是指用截断的词的一个局部进行检索,并认为凡是满足这个词局部的所有字符的信息,都为命中的信息。截词符用“?”或“*”表示(不同系统、不同数据库,其代表的含义有所不同)。
(3)临近检索技术。临近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。在某些情况下,若不限制检索词之间的位置关系则会造成误检,影响查准率。
(4)限定字段检索技术。限定字段检索即指定检索词在记录中出现的字段。检索时,计算机只对限定字段进行匹配运算,以提高检索效率和查准率。
(5)限制检索技术。限制检索是通过限制检索范围,达到优化检索的方法。限制检索的方式有很多种,例如进行字段检索,使用限制符,采用限制检索命令等。
5.2.5 数据库安全
1.数据库安全威胁
2.数据库安全对策
子主题
3.数据库安全机制
数据库安全机制是用于实现数据库的各种安全策略的功能集合,正是由这些安全机制来实现安全模型,进而实现保护数据库系统安全的目标。数据库安全机制包括用户的身份认证、存取控制、数据库加密、数据审计、推理控制等内容。