导图社区 B大数据技术
江苏专转本计算机大类复习导图,大数据(Big Data)指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合。
编辑于2023-03-24 12:07:22 江苏省B大数据技术
大数据技术
大数据(Big Data)概述
起源
互联网
当前社会,最为突出的大数据环境是互联网
大数据赖以生存的土壤是互联网
本质
洞察
核心
数据
定义
指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合
关键
数据再利用
意义
挖掘数据的潜在价值
大数据的价值重在挖掘,而挖掘就是分析
实现数据重组的创新价值
利用数据的可扩展性拓展业务领域
支撑“大数据无所不能”的观点
互联网金融打破了传统的观念和行为
提出者
全球知名咨询公司麦肯锡
当前大数据技术的基础是由谷歌公司首先提出的
基本概念
数据
数据挖掘
数据分析
数据可视化
发展历程
萌芽时期
突破时期
成熟时期
应用时期
产生的背景
存储设备容量不断增加
CPU处理能力大幅提升
网络带宽不断增加
数据产生方式发生变革
数据产生方式发展阶段
第一阶段:运营式系统阶段
第二阶段:用户原创内容阶段
第三阶段:感知式系统阶段
特征
海量的数据规模(大量化Volume) 最明显
大数据的值特别巨大(✘) 数据很大(✔)
多样的数据类型(多样化Variety)
体现
数据来源多样
结构化数据
半结构化数据
非结构化数据
非结构化数据越来越成为数据的主要部分
快速的数据流转(快速化Velocity)
价值密度低(价值Value)
真实性(Veracity)
利用过程
数据采集——数据归整——数据存储——数据处理——数据呈现
大数据安全的三要素
安全存储
安全传输
安全认证的使用者
大数据的处理模式
批处理模式
流处理模式
大数据需要的特殊技术
数据挖掘
数据采集与预处理
分类
实时分析处理
联机分析处理(OLAP)
数据预处理方法
数据集成
数据清洗
数据归约
数据交换
数据存储和管理
对结构,非结构,半结构等海量数据进行存储
数据处理与分析
利用MapReduce等结合着机器学习和数据挖掘算法实现数据分析和处理
处理结果展示方式
标签云
聚类图
热图
空间信息流
数据安全和隐私保护
安全与隐私保护技术
访问控制
数据溯源
匿名保护
角色挖掘
面临的挑战
导致数据盲点
危及个人隐私
造成群体歧视
产生庞大能源消耗
数据仓库(DW)
定义
是决策支持系统DSS和联机分析应用的结构化数据环境
比尔·恩门于1990年提出
特点
面向主题
集成性
稳定性
时变性
最终目的
为用户和业务部门提供决策支持
数据交易市场
为数据交易提供帮助,本身并不生产,研发数据
大数据的关键技术
Hadoop
定义
Hadoop是Java语言实现的开源软件,运行于Linux平台,
是由Apache公司推出的云计算框架
组件
HDFS(分布式存储/文件系统/核心存储框架)(Apache设计开发的一个分布式文件系统))
定义
指被设计成适合运行在通用硬件上的分布式文件系统,它是一个高容错性的系统,适合部署在廉价的机器上
比较流行的云计算分布式存储系统
GFS(Google设计开发的一个分布式文件系统)
HDFS
MapReduce(分布式计算系统/核心计算框架)
YARN(Hadoop的资源调度系统)
Common(以上组件的底层支撑组件,主要提供基础工具包和RPC框架等)
模式
单机模式
伪分布模式
完全分布模式
功能
存储:提供海量数据的存储服务
计算:提供分析海量数据的编程框架及运行平台
基本功能
支持多语言
保持源代码
可直接运行
特点
扩容能力强
成本低
效率高
可靠
缺点
不适合低延迟数据访问
不支持数据的随机读写
MapReduce
定义
MapReduce最早是由Google公司研究提出的一种适用于并行处理的应用程序
核心步骤
Map(映射)
将一个任务分解成为多个子任务并行执行
Reduce(归约)
将分解后多任务处理的结果汇总起来,得出最后的分析结果并输出
优点
易编程
良好的扩展性
适合PB级别以上的大数据的分布式离线批处理
缺点
难以实时计算
不能流式计算
非循环
主要功能
数据划分和计算任务调度
数据/代码互定位
系统优化
出错检测和恢复
MapReduce与传统并行计算比较
前者比后者学习起来简单
前者是非共享,容错性好,后者是共享式,容错性差
前者适用于批处理、非实时、数据密集型,后者适用于实时、细粒度计算、计算密集型
前者硬件便宜、扩展性好,后者硬件贵、扩展性差
MapReduce通常把输入文件按照64MB来划分
NoSQL
定义
是非关系型数据库,主要用来解决半结构化数据和非结构化数据的存储问题
非关系型数据库的缺点
缺乏数据一致性保证
处理事务性问题能力较弱
难以处理跨表、跨服务器的查询
全称:Not Only SQL
框架层次(由上至下)
接口层
数据逻辑模型层
整体分布层
数据持久层
基本功能
结构管理
提供库,文档和索引等对象管理功能
数据管理
提供查询窗口和命令窗口功能
实时性能展示
提供核心性能指标的实时展示
特点
易扩展
高可用
高性能
大数据量
灵活的数据模型
缺点
不提供对SQL的支持
支持的特性不够丰富
现有的产品不够成熟
数据库分类
键值存储数据库
列存储数据库
文档数据库
图形数据库
具有代表性的非关系型数据库
MongoDB(文档数据库)
Redis(键值对数据库)
Hbase(列存储数据库)
定义
一个分布式、面向列的开源数据库,利用它可在廉价PC Server上搭建大规模结构化存储集群
运行在Hadoop上的NoSQL数据库
Spark
定义
集群分布式计算系统
Spark的内核由Scala语言开发,因此Spark应用也只能用Scala语言开发
Spark延迟低,且比Mapreduce快很多
网络爬虫
分类
按使用场景
通用爬虫(也称全网爬虫)
定义
搜索引擎爬虫
结构
页面数据库
页面爬行模块
页面分析模块
链接过滤模块
初始URL集合
URL队列
爬行策略
深度优先遍历策略
广度优先遍历策略
聚焦爬虫
获取想要的数据
按爬虫软件
云爬虫(不需要安装软件)
采集器(需要安装)
爬虫开源框架
基于Python主流
基于Java
常用工具
八爪鱼
模式
简易模式
自定义采集模式
神箭手云爬虫
集搜客GooSeeker
WebMagic
HTTrack
免费
Scraper
免费
ParseHub
免费
OutWit Hub
定义
一个Firefox(火狐)添加件
目的
搜集信息
管理信息
http://Dexi.io
一个基于浏览器的网络爬虫
爬虫技术常用于网业信息采集
数据挖掘
定义
从大量的,不完全的,有噪声的,模糊的,随机的实际数据中,提取隐含在其中的人们不知道的,但是又有潜在用处的信息和知识的过程
步骤
定义问题
建立数据挖掘库
分析数据
准备数据
建立模型
评价模型
实施
方法
机器学习
神经网络
决策树
SVM(支持向量机)
深度学习
数据库方法
SQL
OLAP(联机分析处理)
统计方法
聚类分析(动态聚类)
要求不同类数据的内容相像度尽可能小
回归分析(多元分析)
判别分析(贝叶斯判别)
数据分析与数据挖掘的区别
数据分析的重点是观察数据,而数据挖掘的重点是从数据中发现知识规则
数据分析得出的结论是人的智力活动结果,而数据挖掘得出的结论是机器从学习中发现知识规则
数据分析不能建立数学模型,需要人工建模,而数据挖掘则直接完成了数学建模
数据清洗
定义
是对数据进行重新审查和校验的过程,目的在于删除重复信息,纠正存在的错误,并提供数据一致性
需要清洗数据的主要类型
残缺数据
错误数据
重复数据
方法
噪声数据清除
缺失值处理
无效值处理
一致性检查
作用
删除重复项
纠正错误
修正逻辑
转换构造
统一规格
常用工具
佳数 rightdata
DataWrangler
它的格式适用于电子表格等应用程序 ,需安装
Google Refine
可以安装在各种操作系统的PC或服务器上
思迈特软件Smartbi
Excel
VBA
Python
PyCharm
“脏数据”
特点
格式不规范
编码不统一
意义不明确
数据不完整
与实际业务关系不大
数据分析
定义
把隐藏在大批杂乱无章的数据进行信息的集中、萃取和提炼出来,以便找出所研究对象的内在规律
方法
用户分析法
指标分析法
对比分析法
漏斗分析法
细分分析法
分析理念
全样非抽样
相关非因果
效率非精确
大数据可视化技术
定义
通过图表将若干数据以直观的方式呈现给读者
数据可视化类型
科学计算可视化
信息可视化
可视化分析
可视化基本特征
易懂性
必然性
专业性
大数据可视化技术
按目标分类的常用数据可视化方法
对比
分布
组成
关系
大规模数据可视化
原位可视化
并行可视化
处理模式
任务并行
数据并行
流水线并行
时序数据可视化
面积图
气泡图
甘特图
折线图
螺旋图
可视化的图形表示
线图
最简单的技术,用于绘制一个变量与另一个变量之间的关系
条形图
用于比较不同类别或组的数量
饼图
用于比较整体的各个部分
直方图
表示连续变量在给定间隔或时间段内的发布
散点图
表示两个数据项联合变化的二维图
盒须图
带须状图的装箱图显示了大数据的分布,并且容易看到异常值
非结构化数据的词云和网络图
作为显示高频或低频单词的一种方式
相关矩阵
通过结合大数据和快速响应时间来快速识别变量之间的关系
为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用
集群处理
独特的内部设计
可视化数据展示技术在展示数据之间的关系以及数据分析结果方面的作用
能够主观反应多维数据之间的空间关系
能够动态演化事物的变化及变化的规律
利用数字孪生技术进行可视化建模,通过数字化模型的虚拟现实交互,仿真,快速成型,可及早发现设计缺陷
柔性生成是指让系统在制造过程中根据产品加工状态的改变自动进行调整,实现制造过程的最优智能决策
语义引擎是指为已有数据添加语义的操作
数据质量管理是指对数据全生命周期的每个阶段中可能引发的各类数据质量问题进行管理
大数据主要应用领域
农业
监测农情
监测预警农产品
精准农业决策
搭建农村综合信息服务系统
工业
对工业设备的实时监控
智能化的工艺流程优化
服务业
金融服务
客户画像
精准营销
风险管控
医疗服务
电子病历
医学影像分析
临床决策支持
个性化医疗
社保资金安全
用户行为分析
旅游服务
旅游个性化定制
客流分析
最具潜能的三大应用领域
公共服务
商业智能
市场营销
大数据未来发展趋势
物联网
智慧城市
构建
数字城市
物联网
云计算
没有联网监控
特征
实现全面感测
面向应用和服务
智慧城市与物理城市融为一体
实现自主组网和自维护
增强现实(AR)和虚拟现实(VR)
区块链技术
语音识别技术
人工智能(AI)
数字汇流
B大数据技术
大数据技术
大数据(Big Data)概述
起源
互联网
当前社会,最为突出的大数据环境是互联网
大数据赖以生存的土壤是互联网
本质
洞察
核心
数据
定义
指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合
关键
数据再利用
意义
挖掘数据的潜在价值
大数据的价值重在挖掘,而挖掘就是分析
实现数据重组的创新价值
利用数据的可扩展性拓展业务领域
支撑“大数据无所不能”的观点
互联网金融打破了传统的观念和行为
提出者
全球知名咨询公司麦肯锡
当前大数据技术的基础是由谷歌公司首先提出的
基本概念
数据
数据挖掘
数据分析
数据可视化
发展历程
萌芽时期
突破时期
成熟时期
应用时期
产生的背景
存储设备容量不断增加
CPU处理能力大幅提升
网络带宽不断增加
数据产生方式发生变革
数据产生方式发展阶段
第一阶段:运营式系统阶段
第二阶段:用户原创内容阶段
第三阶段:感知式系统阶段
特征
海量的数据规模(大量化Volume) 最明显
大数据的值特别巨大(✘) 数据很大(✔)
多样的数据类型(多样化Variety)
体现
数据来源多样
结构化数据
半结构化数据
非结构化数据
非结构化数据越来越成为数据的主要部分
快速的数据流转(快速化Velocity)
价值密度低(价值Value)
真实性(Veracity)
利用过程
数据采集——数据归整——数据存储——数据处理——数据呈现
大数据安全的三要素
安全存储
安全传输
安全认证的使用者
大数据的处理模式
批处理模式
流处理模式
大数据需要的特殊技术
数据挖掘
数据采集与预处理
分类
实时分析处理
联机分析处理(OLAP)
数据预处理方法
数据集成
数据清洗
数据归约
数据交换
数据存储和管理
对结构,非结构,半结构等海量数据进行存储
数据处理与分析
利用MapReduce等结合着机器学习和数据挖掘算法实现数据分析和处理
处理结果展示方式
标签云
聚类图
热图
空间信息流
数据安全和隐私保护
安全与隐私保护技术
访问控制
数据溯源
匿名保护
角色挖掘
面临的挑战
导致数据盲点
危及个人隐私
造成群体歧视
产生庞大能源消耗
数据仓库(DW)
定义
是决策支持系统DSS和联机分析应用的结构化数据环境
比尔·恩门于1990年提出
特点
面向主题
集成性
稳定性
时变性
最终目的
为用户和业务部门提供决策支持
数据交易市场
为数据交易提供帮助,本身并不生产,研发数据
大数据的关键技术
Hadoop
定义
Hadoop是Java语言实现的开源软件,运行于Linux平台,
是由Apache公司推出的云计算框架
组件
HDFS(分布式存储/文件系统/核心存储框架)(Apache设计开发的一个分布式文件系统))
定义
指被设计成适合运行在通用硬件上的分布式文件系统,它是一个高容错性的系统,适合部署在廉价的机器上
比较流行的云计算分布式存储系统
GFS(Google设计开发的一个分布式文件系统)
HDFS
MapReduce(分布式计算系统/核心计算框架)
YARN(Hadoop的资源调度系统)
Common(以上组件的底层支撑组件,主要提供基础工具包和RPC框架等)
模式
单机模式
伪分布模式
完全分布模式
功能
存储:提供海量数据的存储服务
计算:提供分析海量数据的编程框架及运行平台
基本功能
支持多语言
保持源代码
可直接运行
特点
扩容能力强
成本低
效率高
可靠
缺点
不适合低延迟数据访问
不支持数据的随机读写
MapReduce
定义
MapReduce最早是由Google公司研究提出的一种适用于并行处理的应用程序
核心步骤
Map(映射)
将一个任务分解成为多个子任务并行执行
Reduce(归约)
将分解后多任务处理的结果汇总起来,得出最后的分析结果并输出
优点
易编程
良好的扩展性
适合PB级别以上的大数据的分布式离线批处理
缺点
难以实时计算
不能流式计算
非循环
主要功能
数据划分和计算任务调度
数据/代码互定位
系统优化
出错检测和恢复
MapReduce与传统并行计算比较
前者比后者学习起来简单
前者是非共享,容错性好,后者是共享式,容错性差
前者适用于批处理、非实时、数据密集型,后者适用于实时、细粒度计算、计算密集型
前者硬件便宜、扩展性好,后者硬件贵、扩展性差
MapReduce通常把输入文件按照64MB来划分
NoSQL
定义
是非关系型数据库,主要用来解决半结构化数据和非结构化数据的存储问题
非关系型数据库的缺点
缺乏数据一致性保证
处理事务性问题能力较弱
难以处理跨表、跨服务器的查询
全称:Not Only SQL
框架层次(由上至下)
接口层
数据逻辑模型层
整体分布层
数据持久层
基本功能
结构管理
提供库,文档和索引等对象管理功能
数据管理
提供查询窗口和命令窗口功能
实时性能展示
提供核心性能指标的实时展示
特点
易扩展
高可用
高性能
大数据量
灵活的数据模型
缺点
不提供对SQL的支持
支持的特性不够丰富
现有的产品不够成熟
数据库分类
键值存储数据库
列存储数据库
文档数据库
图形数据库
具有代表性的非关系型数据库
MongoDB(文档数据库)
Redis(键值对数据库)
Hbase(列存储数据库)
定义
一个分布式、面向列的开源数据库,利用它可在廉价PC Server上搭建大规模结构化存储集群
运行在Hadoop上的NoSQL数据库
Spark
定义
集群分布式计算系统
Spark的内核由Scala语言开发,因此Spark应用也只能用Scala语言开发
Spark延迟低,且比Mapreduce快很多
网络爬虫
分类
按使用场景
通用爬虫(也称全网爬虫)
定义
搜索引擎爬虫
结构
页面数据库
页面爬行模块
页面分析模块
链接过滤模块
初始URL集合
URL队列
爬行策略
深度优先遍历策略
广度优先遍历策略
聚焦爬虫
获取想要的数据
按爬虫软件
云爬虫(不需要安装软件)
采集器(需要安装)
爬虫开源框架
基于Python主流
基于Java
常用工具
八爪鱼
模式
简易模式
自定义采集模式
神箭手云爬虫
集搜客GooSeeker
WebMagic
HTTrack
免费
Scraper
免费
ParseHub
免费
OutWit Hub
定义
一个Firefox(火狐)添加件
目的
搜集信息
管理信息
http://Dexi.io
一个基于浏览器的网络爬虫
爬虫技术常用于网业信息采集
数据挖掘
定义
从大量的,不完全的,有噪声的,模糊的,随机的实际数据中,提取隐含在其中的人们不知道的,但是又有潜在用处的信息和知识的过程
步骤
定义问题
建立数据挖掘库
分析数据
准备数据
建立模型
评价模型
实施
方法
机器学习
神经网络
决策树
SVM(支持向量机)
深度学习
数据库方法
SQL
OLAP(联机分析处理)
统计方法
聚类分析(动态聚类)
要求不同类数据的内容相像度尽可能小
回归分析(多元分析)
判别分析(贝叶斯判别)
数据分析与数据挖掘的区别
数据分析的重点是观察数据,而数据挖掘的重点是从数据中发现知识规则
数据分析得出的结论是人的智力活动结果,而数据挖掘得出的结论是机器从学习中发现知识规则
数据分析不能建立数学模型,需要人工建模,而数据挖掘则直接完成了数学建模
数据清洗
定义
是对数据进行重新审查和校验的过程,目的在于删除重复信息,纠正存在的错误,并提供数据一致性
需要清洗数据的主要类型
残缺数据
错误数据
重复数据
方法
噪声数据清除
缺失值处理
无效值处理
一致性检查
作用
删除重复项
纠正错误
修正逻辑
转换构造
统一规格
常用工具
佳数 rightdata
DataWrangler
它的格式适用于电子表格等应用程序 ,需安装
Google Refine
可以安装在各种操作系统的PC或服务器上
思迈特软件Smartbi
Excel
VBA
Python
PyCharm
“脏数据”
特点
格式不规范
编码不统一
意义不明确
数据不完整
与实际业务关系不大
数据分析
定义
把隐藏在大批杂乱无章的数据进行信息的集中、萃取和提炼出来,以便找出所研究对象的内在规律
方法
用户分析法
指标分析法
对比分析法
漏斗分析法
细分分析法
分析理念
全样非抽样
相关非因果
效率非精确
大数据可视化技术
定义
通过图表将若干数据以直观的方式呈现给读者
数据可视化类型
科学计算可视化
信息可视化
可视化分析
可视化基本特征
易懂性
必然性
专业性
大数据可视化技术
按目标分类的常用数据可视化方法
对比
分布
组成
关系
大规模数据可视化
原位可视化
并行可视化
处理模式
任务并行
数据并行
流水线并行
时序数据可视化
面积图
气泡图
甘特图
折线图
螺旋图
可视化的图形表示
线图
最简单的技术,用于绘制一个变量与另一个变量之间的关系
条形图
用于比较不同类别或组的数量
饼图
用于比较整体的各个部分
直方图
表示连续变量在给定间隔或时间段内的发布
散点图
表示两个数据项联合变化的二维图
盒须图
带须状图的装箱图显示了大数据的分布,并且容易看到异常值
非结构化数据的词云和网络图
作为显示高频或低频单词的一种方式
相关矩阵
通过结合大数据和快速响应时间来快速识别变量之间的关系
为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用
集群处理
独特的内部设计
可视化数据展示技术在展示数据之间的关系以及数据分析结果方面的作用
能够主观反应多维数据之间的空间关系
能够动态演化事物的变化及变化的规律
利用数字孪生技术进行可视化建模,通过数字化模型的虚拟现实交互,仿真,快速成型,可及早发现设计缺陷
柔性生成是指让系统在制造过程中根据产品加工状态的改变自动进行调整,实现制造过程的最优智能决策
语义引擎是指为已有数据添加语义的操作
数据质量管理是指对数据全生命周期的每个阶段中可能引发的各类数据质量问题进行管理
大数据主要应用领域
农业
监测农情
监测预警农产品
精准农业决策
搭建农村综合信息服务系统
工业
对工业设备的实时监控
智能化的工艺流程优化
服务业
金融服务
客户画像
精准营销
风险管控
医疗服务
电子病历
医学影像分析
临床决策支持
个性化医疗
社保资金安全
用户行为分析
旅游服务
旅游个性化定制
客流分析
最具潜能的三大应用领域
公共服务
商业智能
市场营销
大数据未来发展趋势
物联网
智慧城市
构建
数字城市
物联网
云计算
没有联网监控
特征
实现全面感测
面向应用和服务
智慧城市与物理城市融为一体
实现自主组网和自维护
增强现实(AR)和虚拟现实(VR)
区块链技术
语音识别技术
人工智能(AI)
数字汇流