导图社区 B大数据技术

B大数据技术

江苏专转本计算机大类复习导图，大数据（Big Data）指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合。

编辑于2023-03-24 12:07:22 江苏省

江苏专转本计算机

ᯤ

他的近期作品查看更多>>

B大数据技术
江苏专转本计算机大类复习导图，大数据（Big Data）指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合。
B移动互联网技术
江苏专转本计算机大类复习导图，移动互联网是一种通过智能移动终端，采用移动无线通信方式获取业务和服务的新兴业态，使得用户可以在移动状态下接入和使用互联网服务。
A计算机硬件
江苏专转本计算机大类复习导图，计算机硬件分别有：集成电路（IC）、计算机组成、CPU的结构与原理（CPU是运算器与控制器的总称）、存储器、主板与I/O、常用输入设备、常用输出设备、信息，有兴趣的可以看看哟。

B大数据技术

社区模板帮助中心，点此进入>>

ᯤ

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 40.0k
- 977
- 2.5k
- 401
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 18.7k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 4.5k
- 171
- 11
- 4
- 0
jackrao
python思维导图
- 9.8k
- 557
- 242
- 7
- 0
(*^▽^*)
css
- 4.0k
- 1
- 43
- 3
- 0
A张舫
CSS
- 6.5k
- 272
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 8.2k
- 354
- 209
- 16
- 0
journey
计算机组成原理
- 4.1k
- 98
- 71
- 8
- 0
journey
IMX6UL(A7)
- 2.7k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 3.7k
- 51
- 10
- 1
- 0
蒋龙

B大数据技术

大数据技术

大数据（Big Data）概述

起源

互联网

当前社会，最为突出的大数据环境是互联网

大数据赖以生存的土壤是互联网

本质

洞察

核心

数据

定义

指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合

关键

数据再利用

意义

挖掘数据的潜在价值

大数据的价值重在挖掘，而挖掘就是分析

实现数据重组的创新价值

利用数据的可扩展性拓展业务领域

支撑“大数据无所不能”的观点

互联网金融打破了传统的观念和行为

提出者

全球知名咨询公司麦肯锡

当前大数据技术的基础是由谷歌公司首先提出的

基本概念

数据

数据挖掘

数据分析

数据可视化

发展历程

萌芽时期

突破时期

成熟时期

应用时期

产生的背景

存储设备容量不断增加

CPU处理能力大幅提升

网络带宽不断增加

数据产生方式发生变革

数据产生方式发展阶段

第一阶段：运营式系统阶段

第二阶段：用户原创内容阶段

第三阶段：感知式系统阶段

特征

海量的数据规模（大量化Volume）最明显

大数据的值特别巨大（✘）数据很大（✔）

多样的数据类型（多样化Variety）

体现

数据来源多样

结构化数据

半结构化数据

非结构化数据

非结构化数据越来越成为数据的主要部分

快速的数据流转（快速化Velocity）

价值密度低（价值Value）

真实性（Veracity）

利用过程

数据采集——数据归整——数据存储——数据处理——数据呈现

大数据安全的三要素

安全存储

安全传输

安全认证的使用者

大数据的处理模式

批处理模式

流处理模式

大数据需要的特殊技术

数据挖掘

数据采集与预处理

分类

实时分析处理

联机分析处理（OLAP）

数据预处理方法

数据集成

数据清洗

数据归约

数据交换

数据存储和管理

对结构，非结构，半结构等海量数据进行存储

数据处理与分析

利用MapReduce等结合着机器学习和数据挖掘算法实现数据分析和处理

处理结果展示方式

标签云

聚类图

热图

空间信息流

数据安全和隐私保护

安全与隐私保护技术

访问控制

数据溯源

匿名保护

角色挖掘

面临的挑战

导致数据盲点

危及个人隐私

造成群体歧视

产生庞大能源消耗

数据仓库（DW）

定义

是决策支持系统DSS和联机分析应用的结构化数据环境

比尔·恩门于1990年提出

特点

面向主题

集成性

稳定性

时变性

最终目的

为用户和业务部门提供决策支持

数据交易市场

为数据交易提供帮助，本身并不生产，研发数据

大数据的关键技术

Hadoop

定义

Hadoop是Java语言实现的开源软件，运行于Linux平台，

是由Apache公司推出的云计算框架

组件

HDFS(分布式存储/文件系统/核心存储框架)（Apache设计开发的一个分布式文件系统））

定义

指被设计成适合运行在通用硬件上的分布式文件系统，它是一个高容错性的系统，适合部署在廉价的机器上

比较流行的云计算分布式存储系统

GFS（Google设计开发的一个分布式文件系统）

HDFS

MapReduce(分布式计算系统/核心计算框架)

YARN(Hadoop的资源调度系统)

Common(以上组件的底层支撑组件，主要提供基础工具包和RPC框架等)

模式

单机模式

伪分布模式

完全分布模式

功能

存储：提供海量数据的存储服务

计算：提供分析海量数据的编程框架及运行平台

基本功能

支持多语言

保持源代码

可直接运行

特点

扩容能力强

成本低

效率高

可靠

缺点

不适合低延迟数据访问

不支持数据的随机读写

MapReduce

定义

MapReduce最早是由Google公司研究提出的一种适用于并行处理的应用程序

核心步骤

Map（映射）

将一个任务分解成为多个子任务并行执行

Reduce（归约）

将分解后多任务处理的结果汇总起来，得出最后的分析结果并输出

优点

易编程

良好的扩展性

适合PB级别以上的大数据的分布式离线批处理

缺点

难以实时计算

不能流式计算

非循环

主要功能

数据划分和计算任务调度

数据/代码互定位

系统优化

出错检测和恢复

MapReduce与传统并行计算比较

前者比后者学习起来简单

前者是非共享，容错性好，后者是共享式，容错性差

前者适用于批处理、非实时、数据密集型，后者适用于实时、细粒度计算、计算密集型

前者硬件便宜、扩展性好，后者硬件贵、扩展性差

MapReduce通常把输入文件按照64MB来划分

NoSQL

定义

是非关系型数据库，主要用来解决半结构化数据和非结构化数据的存储问题

非关系型数据库的缺点

缺乏数据一致性保证

处理事务性问题能力较弱

难以处理跨表、跨服务器的查询

全称：Not Only SQL

框架层次（由上至下）

接口层

数据逻辑模型层

整体分布层

数据持久层

基本功能

结构管理

提供库，文档和索引等对象管理功能

数据管理

提供查询窗口和命令窗口功能

实时性能展示

提供核心性能指标的实时展示

特点

易扩展

高可用

高性能

大数据量

灵活的数据模型

缺点

不提供对SQL的支持

支持的特性不够丰富

现有的产品不够成熟

数据库分类

键值存储数据库

列存储数据库

文档数据库

图形数据库

具有代表性的非关系型数据库

MongoDB（文档数据库）

Redis（键值对数据库）

Hbase（列存储数据库）

定义

一个分布式、面向列的开源数据库，利用它可在廉价PC Server上搭建大规模结构化存储集群

运行在Hadoop上的NoSQL数据库

Spark

定义

集群分布式计算系统

Spark的内核由Scala语言开发，因此Spark应用也只能用Scala语言开发

Spark延迟低，且比Mapreduce快很多

网络爬虫

分类

按使用场景

通用爬虫（也称全网爬虫）

定义

搜索引擎爬虫

结构

页面数据库

页面爬行模块

页面分析模块

链接过滤模块

初始URL集合

URL队列

爬行策略

深度优先遍历策略

广度优先遍历策略

聚焦爬虫

获取想要的数据

按爬虫软件

云爬虫（不需要安装软件）

采集器（需要安装）

爬虫开源框架

基于Python主流

基于Java

常用工具

八爪鱼

模式

简易模式

自定义采集模式

神箭手云爬虫

集搜客GooSeeker

WebMagic

HTTrack

免费

Scraper

免费

ParseHub

免费

OutWit Hub

定义

一个Firefox（火狐）添加件

目的

搜集信息

管理信息

http://Dexi.io

一个基于浏览器的网络爬虫

爬虫技术常用于网业信息采集

数据挖掘

定义

从大量的，不完全的，有噪声的，模糊的，随机的实际数据中，提取隐含在其中的人们不知道的，但是又有潜在用处的信息和知识的过程

步骤

定义问题

建立数据挖掘库

分析数据

准备数据

建立模型

评价模型

实施

方法

机器学习

神经网络

决策树

SVM（支持向量机）

深度学习

数据库方法

SQL

OLAP（联机分析处理）

统计方法

聚类分析（动态聚类）

要求不同类数据的内容相像度尽可能小

回归分析（多元分析）

判别分析（贝叶斯判别）

数据分析与数据挖掘的区别

数据分析的重点是观察数据，而数据挖掘的重点是从数据中发现知识规则

数据分析得出的结论是人的智力活动结果，而数据挖掘得出的结论是机器从学习中发现知识规则

数据分析不能建立数学模型，需要人工建模，而数据挖掘则直接完成了数学建模

数据清洗

定义

是对数据进行重新审查和校验的过程，目的在于删除重复信息，纠正存在的错误，并提供数据一致性

需要清洗数据的主要类型

残缺数据

错误数据

重复数据

方法

噪声数据清除

缺失值处理

无效值处理

一致性检查

作用

删除重复项

纠正错误

修正逻辑

转换构造

统一规格

常用工具

佳数 rightdata

DataWrangler

它的格式适用于电子表格等应用程序，需安装

Google Refine

可以安装在各种操作系统的PC或服务器上

思迈特软件Smartbi

Excel

VBA

Python

PyCharm

“脏数据”

特点

格式不规范

编码不统一

意义不明确

数据不完整

与实际业务关系不大

数据分析

定义

把隐藏在大批杂乱无章的数据进行信息的集中、萃取和提炼出来，以便找出所研究对象的内在规律

方法

用户分析法

指标分析法

对比分析法

漏斗分析法

细分分析法

分析理念

全样非抽样