导图社区 第十章 大数据
这是一个关于第十章 大数据的思维导图,大数据,或称巨量数据、海量数据,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成人类所能解读的信息。
编辑于2024-04-03 22:00:58第十章 大数据
大数据的概述
基本概念
大数据,或称巨量数据、海量数据,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成人类所能解读的信息。(使用当前工具无法在可承受时间内进行处理的数据集)。GB(1GB=1024MB),TB(1TB=1024GB),PB(1PB=1024TB),EB(1EB=1024PB)
结构类型
(1)结构化数据
指能够用数据或统一的结构加以表示,包括预定义的数据类型、格式和结构的数据。常见的如Excel中的信息数据,企业用的人事系统、财务系统、ERP等中的数据等。
(2)半结构化数据
是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构化数据(如声音、图像文件等)之间的数据,如电子邮件、用Windows处理的文字、在网上看到的新闻等。
(3)非结构化数据
是指没有固定结构的数据,通常保存为不同类型文件的数据,如移动终端、社交网络产生的声音、图像、影像、留言、日志数据等信息。
核心特征
大数据的特征(4V特征)即Volume(数据体量巨大)人、Variety(数据类型繁多)、 Velocity (数据产生的速度快)、Value(数据价值密度低)。
大数据的时代背景、应用场景和发展趋势
大数据的时代背景
三次信息化浪潮
第一次浪潮 时间:1980年前后 标志:个人计算机 解决问题:信息处理Intel、AMD、IBM、苹果、微软、联想、
第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮 2010年前后 物联网、云计算和大数据 信息爆炸 将涌现出一批新的市场标杆企业
信息科技为大数据时代提供技术支撑
1)信息采集技术的不断完善和实时程度的不断提升;
2)信息存储技术的不断提升;
3)信息处理速度和处理能力的急速提升;
4)信息显示技术的完备和日臻成熟;
5)网络带宽不断增加
数据产生方式的变革促成大数据时代的来临
运营式系统阶段:
数据库的出现使得数据管理的复杂度大大降低,数据往往伴随着一定的运营活动而产生并记录在数据库中的,这种数据的产生方式是被动的。
用户原创内容阶段:
如以智能手机、平板电脑为代表的新型移动设备的出现使得人们 在网上发表自己意见。
感知式系统阶段:
如传感器设备采集的数据。
大数据的应用场景
大数据在互联网、生物医学、电子政务、物流、城市管理、金融、汽车、零售、餐饮、能源、气象、教育、体育和娱乐、安全等方面都有很广泛的应用。
(1)政务大数据
(2)医疗大数据
(3)金融大数据、
(4)气象大数据
(5)工业大数据
(6)电子商务
(7)教育大数据
大数据的发展趋势
根据Wikibon 研究数据,全球大数据市场规模将从2018年的420亿美元增长至2024年的840亿美元。从细分市场来看,大数据软件市场份额占比将呈逐渐上升趋势。同时,政策热度也持续攀升。近年来,各部门相继出台了一系列政策,对我国大数据产业的发展起到了推动作用。未来,推动大数据技术产业创新发展,构建以数据为关键要素的数字经济,运用大数据提升国家治理现代化水平,运用大数据促进保障和改善民生,切实保障国家数据安全将成为重要议题。
我国现今还在数据爆发的初期阶段,随着物联网和通信技术的不断发展,将面临更加庞大的数据浪潮,这虽然为大数据的分析、存储带来了巨大的挑战,但也将会引领大数据技术进入新的发展时代。有挑战也有机遇:大数据将与实体经济深度融合:大数据将与新兴技术协同发展;数据治理将成为大数据技术的重点发展领域;共享经济将成为大数据技术的主要应用方向:大数据将催生新的工作岗位。
大数据系统架构、大数据相关技术
大数据系统架构
(1)系统协调者:
规范和集成各类所需的数据应用活动,构建一个可运行的系统。
(2)数据提供者:
将数据和信息引入大数据系统中,供大数据系统发现、访问和转换为可用的数据。
(3)大数据应用提供者:
大数据应用提供者的活动包括数据的收集、预处理、分析、可视化和访问。
(4)大数据框架提供者:
为大数据应用提供者在创建具体应用时提供使用的资源和服务。
(5)数据消费者:
数据消费者执行的活动通常包括搜索(检索)、下载、本地分析、生成报告、可视化等。
大数据相关技术
(1)大数据采集
1)数据来源:
一般大数据的来源可以分为3种,即平台自营型数据、其他主体运营数据和互联网数据。
2)采集方法:
①数据库采集,使用传统的关系型数据库MySQL和Oracle等来存储数据和HBase、 Rcdis 和MongoDB这样的NoSQL数据库也常用于数据的采集。
②系统日志采集,均采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求。
③网络数据采集,网络数据采集是指通过网络爬虫或网站公开APT等方式从网站上获取数据信息的过程。
④感知设备数据采集,通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。
(2)大数据预处理
数据预处理的主要任务包括数据清洗、数据集成、数据变换、数据归约等。
1)数据清洗 任务通过填写空缺值,消除噪声数据,识别或删除孤立点,并解决不一致性来“清洗”数据,从而改善数据质量,提高数据挖掘的精度和性能。
2)数据集成 是将多个数据源中的数据整合到一个一致的数据存储(如数据仓库)中。
3)在数据预处理阶段,数据被变换或统一,使挖掘过程可能更有效,挖掘的模式可能更容易理解。
4)数据归约 技术可以用来得到数据集的归约表示,归约后的数据集比原数据集小得多,但仍近似地保持原数据的完整性。
(3)大数据存储与管理
1)分布式文件系统:
是把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。HDFS是一个分布式文件系统,具有高容错的特点。它可以部署在廉价的通用硬件上,提供高吞吐率的数据访问,适合那些需要处理海量数据集的应用程序。
2)非关系型数据库(NoSQL数据区):
采用的数据模型是类似键/值、列族、文档等非关系模型,是传统关系型数据库的一个有效补充。NoSQL划分为四大类型:键值数据库、列族数据库、文档数据库、图数据库。NoSQL典型产品包括Memcached、Redis、 MongoDB、HBase等。因此与传统关系数据库相比,NoSQL具有易扩展性、高性能、高可用、灵活的数据模型等特点。
3)云存储:
是一种新兴的网络存储技术,是指借助应用软件将网络中大量各种不同类型的存储设备集合起来协同工作,共同对外提供数据存储和业务访问功能的一种服务。
(4)大数据分析与挖掘
数据分析是指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。 数据挖掘是指提取隐含在数据中的、人们事先不知道的、但又是潜在有用的信息和知识。数据挖掘的常用算法包括分类、聚类、关联规则。
1)分类:分类的任务就是得到一个目标函数把每个属性集x映射到一个预先定义的类标号y中。
2)聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程称为聚类。
3)关联规则:关联规则是形如X→Y的蕴含式,其中,X和Y分别称为关联规则的先导和后继。
(5)大数据可视化
大数据可视化技术是指运用计算机图形学和图像处理技术,将数据转换为可以在屏幕上显示出来进行交互处理的方法和技术。
常用的大数据可视化工具有:Excel、ECharts、Tableau、Matplotlib、Seaborn、Pyecharts、 Power BI。
大数据工具
大数据分析处理平台
(1)Hadoop
Hadoop是一个对大量数据进行分布式处理的软件架构,可以将海量数据分布式地存储在集群中,并使用分布式并行程序来处理这些数据。它被设计成从单一的服务器扩展到成千上万台计算机,每台计算机上部署集群并提供本地计算和存储。Hadoop生态系统目前已成为处理海量数据的首选框架。
Hadoop 框架包含用于解决大数据存储的分布式文件系统HDFS、用于解决分布式计算的分布式计算框架MapReduce和分布式资源管理系统YARN3 个部分。
HDFS的设计思想是将数据文件以指定的大小切分成数据块,将数据块以多副本的方式存储在多个节点上。 MapReduce是Hadoop的核心计算框架,是用于大规模数据集并行计算的编程模型。
YARN是一种Hadoop资源管理器。 随着Hadoop的快速发展,很多组件也被相继开发出来。这些组件各有特点,共同服务于Hadoop工程,构成了Hadoop生态系统。
1)Hbase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,可以对大规模数据进行随机、实时读写访问。
2) Hive 是基于 Hadoop的一个分布式数据仓库工具。
3) Pig 是一个基于Hadoop的大规模数据分析平台。
4)Sqoop是一款开源的工具,主要用于传递Hadoop(Hive)与传统的数据库(MYSQL、 post-gresql 等)间的数据。
5)Flume 是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。
6)Oozie 是基于Hadoop的调度器。
7) Zookeeper 是一个开放源码的分布式应用程序协调服务。
(2) Spark
当前大数据技术蓬勃发展,基于开源技术的Hadoop在行业中应用广泛,但Hadoop本身还存在一些缺陷,最主要的缺陷是MapReduce计算模型延迟过高,无法胜任实时、快速的计算需求。Spark既继承了MapReduce分布式计算的优点,同时弥补了MapReduce的缺陷。
目前,Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分引擊,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台系统。
1)Spark Core (Spark核心)提供底层框架及核心支持。
2)BlinkDB是用于在海量数据上花教宣询的大规模并行查询引擎。
3)Spark SQL是操作结构化数据的核心组件。
4)Spark Streaming是流式计算框架,支持高吞吐量、可容错处理的实时流式数据处理。
5) MLBase专注于机器学习。
6)MLlib是MLBase的一部分,也是Spark的数据挖掘算法库。
7)GraphX是分布式图处理框架,能在海量数据上运行复杂的图算法
8)SparkR: Spark是AMPLab发布的一个基于R语言开发包。
与MapReduce相比,Spark可以通过基于内存的运算来高效处理数据流,其运算要快100 倍以上,而基于磁盘的运算也要快10倍以上。
Hadoop环境搭建
(1)Hadoop搭建分为三种运行模式:单机模式、伪分布模式和全分布式集群模式。
(2)Hadoop 集群安装教程
1)操作系统环境:Hadoop运行在Linux系统环境下,在安装配置Hadoop之前要安装Linux 环境(Ubunt、CentOS/RedHat).DUO
2)装好了 Ubuntu,系统之后,在安装Hadoop前还需要做一些必备工作。
两个节点作为集群环境:一个作为Master节点,另一个作为Slave节点。选定一台机器作为 Master。对master:
① 创建 hadoop用户,如果你安装Ubuntu的时候不是用的“hadoop”用户,那么需要增加一个名为Hadoop 的用户。
②安装SSH、配置SSH无密码登陆,集群、单节点模式都需要用到SSH 登陆(类似于远程登陆,你可以登录某台Linux主机,并且在上面运行命令)。
③安装Java 环境,安装JDK。
3)安装 Hadoop
① 到Hadoop 官网下载Hadoop 安装文件。
②Hadoop 解压后即可使用。输入如下命令来检查Hadoop 是否可用,成功则会显示 Hadoop 版本信息。
4) hadoop 配置
网络配置:集群所用的节点都位于同一个局域网,并修改主机名,Master节点,局域网IP为192.168.1.121;Slave节点,局域网IP为192.168.1.122。
SSH无密码登陆节点,让Master节点可以无密码SSH登陆到各个Slave节点上。
集群/分布式模式需要修改hadoop的5个配置文件,这里仅设置了正常启动所必须的设置项:slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml。
在 Master节点上启动Hadoop。