导图社区 数据处理技术概述
这是一篇关于数据处理技术概述的思维导图,知识内容有数据处理概述、数据库技术、大数据处理技术等方面的内容。
编辑于2022-06-03 20:06:36
第四章 数据处理技术概述
4.1 数据处理概述
4,1,1数据处理内容
1.数据采集(人工采集和自动化装置采集)
(1)人工采集数据:一般是经过一定的中间环节而获得的数据,如档案文件、账册、票据、凭证等。 采用人工采集数据的优点是简单、经济,缺点是及时性差、出错率高。
(2)自动化装置采集数据:主要将某种计算装置、测试装置等直接与电子数据处理系统相连接,利用电磁感应、光电感应、声电感应及机械原理等,将所需要的有关数值或状态数据直接送入计算机数据处理系统进行处理。 其优点是:快速准确,缺点是投资大。
2,数据转换及录入
数据的转换也叫数据的预处理,是将采集到的原始数据通过一定的手段转换成适用于计算机处理的形式,使数据代码化。例如,职工文件中的性别、年龄、工作单位等数据,对计算机系统来说,可用相应的代码表示,如用1、0或M、F表示性别,用00001代表工作单位等。 数据的转换一定要注意正确性、完整性检查。
3.数据分类与合并
分类
是根据一定顺序将无序的数据元素调整为一个有序序列,也就是将数据元素按某一关键字的先后顺序(升序或降序)进行排序,形成一个有序文件。
合并
是将两个或多个简单有序集合中的数据按同样的顺序连接成一个有序集合。
4.数据运算
5.数据传输
含义
一是实现数据资源的共享与交换,如利用网络和通信技术共享各网点的数据资源
二是数据处理结果的输出,常以报告、文件、图表等形式输出给各用户,并传送到各部门。
6.数据存储
就是对原始待加工的数据及已加工后的各种信息的存储。为此,需要确定存储哪些信息、存储多长时间、以何种方式存储、采用何种数据结构,以符合速度快、占用内存小、成本低等多方面要求。
7.数据更新、维护
数据更新、维护是指对原文件中的记录或数据项进行修改、插入(增加)、删除及数据存储的调整、数据正确性的检验和安全性的保证等。
8.数据检索
数据检索即从计算机存储的数据中查找和选取所需要的数据。采用何种方式检索,取决于数据存储的形式。例如,在职工文件中可按职工编号或姓名查找某职工的工资、出生年月、职称、职务等。
4.1.2 数据处理方式
分类(根据数据的发生及数据处理的响应时间的不同)
1、批处理方式
批处理方式也是汇总处理方式,是指把一定时间内准备处理的各个业务点的数据累积成批后,一次输入计算机集中进行加工处理。
2.实时处理方式
是指在数据产生的同时,立即输入计算机,计算机既时做出响应并进行相应的处理,将处理结果直接传递给用户。 如监控系统、窗口询问系统、金融流通系统、飞机订票系统等。 优点:响应迅速、人机配合良好,缺点是不能面相大量的数据处理,且由于线路费用增加而增加成本。
4.1.3 数据处理技术
数据处理技术的发展:
数据管理技术的发展大致经历了人工管理、文件系统和数据库系统、数据仓库和大数据等阶段。
数据处理软件:
数据存储和计算:Oracle、DB2、MySQL
数据处理软件主要有:Excel、Python、Matlab、Origin
数据分析与处理方法:
1.数据采集
2.数据统计与分析
3.数据导入/预处理
4.数据挖掘
4.2 数据库技术
概念:数据库技术是信息技术中的一个重要支撑。 数据库技术是计算机科学技术的一个重要分支。1968年,世界上诞生了第一个商品化的信息管理系统(IMS),数据库已成为信息管理、办公自动化、计算机辅助设计等应用的而主要软件工具之一,帮助人们处理各种各样的信息数据。
4.2.2 数据模型
1,人们可以用抽象的模型来描述事物及其运行规律,它是以实际事物的数据特征的抽象表示 来刻画事物的,描述的是事物数据的表征及其特征 2, 数据库是企业或组织所涉及的数据的提取和综合,它不仅反映数据本身,还反映数据之间的联系。 3, 数据库用数据模型对现实世界进行抽象,现有的数据库系统均基于某种数据模型。
E-R模型即实体-联系模型
实体:在现实生活中客观存在且能相互区别的事物成为实体,有共性的实体可以组成一个实体集。
属性:用来描述实体的特征。一个实体有多个属性,学生有学号、班级、年龄等属性。
联系:反应事物之间的关联。
E-R模型的图示表示:
矩形:表示实体(实体名称标记在矩形内)
椭圆:表示属性(属性名标记在椭圆内)
菱形:表示联系(在菱形上标记联系名)
实体和联系之间用无向线段连接。
在数据库中最常见的三种数据模型
层次模型(先驱)
网状模型(奠定基础)
关系模型(主导地位)
1.层次模型
若用图来表示,层次模型是一棵倒立的树。在数据库中,满足以下两个条件的数据模型称为层次模型: (1)有且仅有一个结点无父结点,这个结点称为根结点。 (2)其他结点有且仅有一个父结点。
优点:层次模型对具有一对多层次关系的描述非常自然、直观、容易理解 缺点:限制多
2.网状模型
在数据库中,满足以下两个条件之一的数据模型称为网状模型。 (1)允许一个以上的结点无父结点。 (2)允许结点可以有多于一个的父结点。
3.关系模型
关系模型把世界看作是由实体(Entity)和联系(Relationship)构成的。 所谓联系,就是指实体之间的关系,即实体之间的对应关系。
分类
(1)一对一的联系
(2)一对多的联系
(3)多对多的联系
满足下列条件的二维表,在关系模型中称为关系。 (1)每一列中的分量是类型相同的数据。 (2)列的顺序可以是任意的。 (3)行的顺序可以是任意的。 (4)表中的分量是不可再分割的最小数据项,即表中不允许有子表。 (5)表中的任意两行不能完全相同。
通过联系可以用一个实体信息来查找另一个实体的新信息,关系模型把所有的数据都组织到表中。 表是由行和列组成的,反映了现实世界中的事实和值
4.2.3 关系数据库
1.关系数据库的基本概念
(1)关系:二维表
(2)属性:二维表中垂直方向的列称为属性,有时也叫作一个字段。
(3)域:一个属性的取值范围叫作一个域。
(4)元组:二维表中水平方向的行 称为元组,有时也叫作一条记录。
(5)码:又称关键字(学号能唯一地标识一条记录)
(6)分量:元组中的一个属性值叫作元组的一个分量
(7)关系模式:是对关系的描述,它包括关系名、组成该关系的属性名、属性到域的映象。 通常简记为:关系名(属性名1,属性名2,…,属性名n)
2. 关系运算
对关系数据库进行查询时,若要找到用户关心的数据,就需要对关系进行一定的关系运算。
分类
一种是传统的集合运算(并、差、交、广义笛卡儿积等)
另一种是专门的关系运算
(1)选择:选择运算即在关系中选择满足指定条件的元组(行)
(2)投影:投影运算是在关系中选择某些属性(列)
(3)连接:连接运算是从两个关系的笛卡儿积中选取属性间满 足一定条件的元组。
4.3 大数据处理技术
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。 特征:价值,处理速度快,体积(最显著),类型多样
4.3.1 大数据处理流程
1.大数据采集
2.大数据预处理
3.大数据存储与管理
4.大数据分析
5.数据可视化