导图社区 大数据应用基础思维导图
一篇关于大数据应用基础思维导图,包含云计算与大数据、分布式系统实时处理数据、物联网技术获取海量数据等。
编辑于2023-12-04 21:40:18大数据应用基础
数据时代,从我开始
从韩信点兵说起
大数据到底有多大
城建的数据单位有
bit(比特)
Byte(字节)
KB(千字节)
MB(兆字节)
GB(吉字节)
GB以上还有TB、PB、EB、ZB、YB、DB、NB.
这些单位的进率是1024(2的十次方)
1Byte=8bit
1KB=1024Bytes
1MB=1024KB
1GB=1024MB
1TB=1024GB
1TB=1024GB
1PB=1024TB
直观来看,INB等于多少Byte?
1EB=1024PB
1ZB=1024EB
1YB=1024ZB
1DB=1024YB
1NB=1024DB
大数据的定义
维基百科的定义
大数据又称为海量数据,是指所涉及的数据量规模巨大到无法通过人工或者计算机在合理时间内达到截取、管理、处理并整理成为人类所能解读的形式的信息。
研究机构的定义
大数据是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
麦肯锡全球研究所的定义
大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据产生的历程
2005年Hadoop诞生
2008年末,大数据得到部分美国知名计算机科学研究人员的认可。
2009年印度政府建立了用于身份识别管理的生物识别数据库,联合国地球“脉动计划”计划已研究了对如何利用手机和社交网站的数据,原来分析预测和螺旋体病到疾病爆发的问题。
2010年二月,肯尼斯库克尔在《经济学人》上发表了长达14页的大数据专题报告,《数据,无所不在的数据》
2012年3月,美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。
2014年4月世界经济论坛以“大数据的回报与风险”为主题,发布了全球信息技术报告
2017年全球的数据总量是21.6 gb目前全球数据的年增长速度为40%左右,2018年全球大数据产业得到强劲发展。
大数据4V基本特征
体量大
速度快
多样化
价值密度低。
大数据从哪里来
大数据的主要来源分类
①人类活动,人在使用互联网(包括移动互联网)过程中所产生的各类数据:
(2)计算机及各种计算机信息系统产生的数据,多以文件、数据库、多媒体等形式
(3)与理世弄。各类数字设备所采集的数据,如气象系统采集设备所收集的海量气象
数据、视频监控系统产生的海量视频数据等。
现代社会大数据产生的标志。
(1)科学研究产生大数据。
(2)物联网技术产生大数据。
(3)网络化产生大数据。
大数据能做什么
新一代信息技术融合应用的节点在于对大数据的处理分析。
物联网,移动互联网,社交网络及电子商务等,是新一代信息技术的应用形态。这些应用在运行过程中逐渐形曾成产生了大数据。
大数据成为信息产业不断发展的新途径。
随着大数据及其相关技术的不断发展,面向大数据市场的新产品,新技术新业态及新服务逐渐出现,并且发展迅速。
大数据成为提升核心竞争力的关键因素。
随着信息技术的发展,越来越多的行业步入了转型发展的轨道,企业决策从业务驱动逐渐向数据驱动转变,大数据分析可以支持企业推出更加有效和标准的营销策划。 能够为企业制定更符合消费者需求的个性化服务措施。
大数据时代,科学研究方法也会出现相应变化。
大数据及其相关技术对于科研方面的影响日益显现
Facebook的大数据维持用户
据2018年全球数字报告显示,2018年全球社交媒体用户为31.96亿人。同比增长13%。
大数据平台初识
大数据采集
大数据采集
大数据分析
大数据处理
大数据可视化
数据贵州,多彩贵州
贵州大数据立省站略
从一张白纸到一副蓝图,一片发展热土所上大数据之路的贵州省已从昔日工业时代的追随者悄然变成大数据时代的同行者, 甚至领跑者。
2015年,贵州省在全省层面提出实施大数据战略行动。
2018年中国国际大数据产业博览会期间,贵州省共成功契约项目199个,金额352.8亿元。
贵州大数据发展现状
贵州省深入贯彻落实党的十九大精神和习近平总书记对贵州省中国的重要指示, 批示精神深入实施大数据战略行动,强力推进国家大数据综合实验区建设,加快建设数字贵州。
数据整合共享走在全国前列。
数据开放走在全国前列。
贵州大数据发展成果
组建大数据发展领域的省属大型国有企业。
成功打造了“货车帮”加“运满满”。
苹果数据中心落户贵州。
形成大数据产业生态圈。
打造“全球智力收割机”。
培养了最优秀的大数据人才。
推进了精准扶贫大数据应用。
以大数据助力教育扶贫。
推进了医疗大数据的应用。
以大数据促进经济转型升级。
开展大数据标准建设。
“大数据加交通”的融合发展。
云计算与大数据
什么是云计算
传统的电脑。
所谓的电脑其实就是在工作的window s
虚拟化
对于监控程序而言,这个windows不是直接和硬件打交道的,一切资源都需要监控程序来调度。 分配,所以这台Windows机器就是一台虚拟的机器,简称vm,这种通过监控程序把硬件的机器从操作系统分开的过程就是虚拟化。
配载调配和平衡。
云的形成
资源池
二次虚拟
用户的自主管理。
连接到网络。
云的种类。
私有云
公众云
混合云
基础设施及服务
平台及服务
软件及服务
其他的
云计算的定义。
云计算是一种按使用量付费的模式,这种模式提供可用在便捷的按需的网络访问进入可配置的计算资源池。 这些资源能够被快速提供,只需投入很少的管理工作或与服务供应商进行很少的交互。
主要的云计算服务厂商。
百度云
阿里云
亚马逊aws云服务。
微软azure云计算。
云计算技术体系结构
云计算体系结构分为4层,物理资源层,资源池层,管理中间层和a构建成
云计算与大数据的关系
简单来说,云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。
大数据的总结架构包括三层数据存储,数据处理,数据分析。
可以说大数据相当于海量数据的数据库通关,大数据领域的发展可以看出当前的大数据发展一直在向着近似于传统数据库体验的方向发展。
基于云计算和大数据的现代农业平台
智能农业监控平台系统架构。
感知层
传输层
数据层
应用层
终端层
农业食品素颜系统。
第九章分布式系统实时处理数据
什么是分布式系统
分布是系统主要特征。
分布性
分布式系统中的多台计算机之间的空间位置上可以随意分布,系统中的多台计算机之间没有主从之分。
透明性
系统资源被所有计算机共享。
统一性
系统中的若干台计算机可以互相协作来完成一个共同的任务,或者说一个程序可以分布在其他计算机上。并行的运行。
同信性
系统中任意两台计算机都可以通过通信来交换信息。
常见的分布式系统。
GFS
HDFS
Ceph
Lustre
常用的分布式方案。
分布式应用和服务
分布式应用和服务是将应用和服务进行分层和分割,然后将应用和服务模块进行分布式部署。
分布式静态资源
对网站的静态资源如js,css图片等进行分布式部署,可以减轻应用服务器的负载压力,提高访问速度。
分布式数据和存储
大型网站常常需要处理海量数据,单台计算机往往无法提供足够的内存空间,可以对这些数据进行分布式存储。
分布式计算
随着计算机技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要消耗相当长的时间来完成, 所以分布式将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。
分布式与集群的关系
分布式
分布式是指在多台不同的服务器中部署不同的服务模块,通过运程调用,协同工作,对外提供服务。
集群
集群是指在多台不同的服务器中部署相同应用或服务模块,共同一个集群通过负债。均衡设备对外提供服务。
总的来说,分布式是并联工作的,集群是串联工作的。
分布式中的每一个节点都可以做集群,而集群并不一定就是分布式。
Hadoop平台简介
Hadoop名字的由来
该项目的创建者,DongCuntting如此解释Hadoop的得名:“这个名字是我孩子给一头吃饱的棕色大象命名的。”
Hadoop大事记
2004年最初的版本(现在称为IDFS I MapRediuce)ti Dorug Cutting fu MikeCatiarclla开始实施。
2005年12月一-Nutch 移植到新的框架,Hadoop在20个节点上稳定运行。
2006年2月一Apache Hadoop 项目正式启动以支持MapRcduce 和 HDFS的独立发展。
2006年2月雅虎的网格计算团队采用 Hadoop.
2006年4月标准排序(10 GB每个节点)在188个节点上运行47.9个小时。
2007年7月研究集群到达900个节点。
28008年4月研究集群每天装载10 TB的数据。
2009年4月-赢得每分钟排序,59秒内排序500 GB(在1400个节点上)和173分
HDFS框架介绍
Hdfshadop平台的分布式文件管理系统是ap最重要的。组件之一
Namenode节点。
2009年3月-17个集群总共24000台机器。
D AA node与namenode间的交互。
Natanode是具体任务的执行。
Danodenamenoe间的交互
Namenode在每次启动系统时都会动态重建文件系统的元件数据信息,这时它会以心跳轮寻集中的data ode节点data node以心跳响应ae。 Noe定时向naenode发送它所储存的文件块信息。
Hadoop的计算框架
Maprduce是adop的核心计算组件,用于并行计算海量数据。Mapreduce框架的核心步骤主要分为两个部分,Map和reduce
Hadoop为企业带来了什么
大数据不仅适用于大型企业,还适用于各种不同规模的企业。
针对大数据hadop深奥的企业与外部数据的关键内幕提供了基础。
Hadop已经迅速成长为首选的适用于非结构化数据的大数据分析解决方法。
Gogle与hadop有着千丝万缕的联系。
IBM宣布的ap上建立新的存储架构作为集群。运行db2或or ACL数据库,目的是让应用程序支持高性能分析,数据仓库应用程序和运计算。
互联网搜索巨头百度公司也在考虑使用ap
Ap作为一种分布式基础架构,可以使用户在不了解分布式底层细节的情况下,开发分布式程序。
百度公司搜索的Hadoop应用
调整mpreduce策略。
改进hd fs的效率和功能。
修改speeul ative的执行策略。
对资源使用进行控制。
链家利用大数据分析客户需求
平台设计图
墨迹天气处理每天2TB日志数据
平台分析
充分利用移动端积累下来的海量日志数据。
对用户使用情况和广告业务进行大数据分析。
利用阿里云数加大数据技术,基于对日志数据的分析,支持运营团队和广告团队优化现有业务
大数据商业气象
会继续基于成熟的大数据技术和大数据人才资源,将天气监控座深
墨迹会继续扩展气象监控服务宽度。
前期对市场有牵一发而动全身的影响。
通过移动互联网极大提升了多项交互性。
商业气象服务在中国将是一个巨大的创业机会。
物联网技术获取海量数据
物联与大数据
物联网是什么?
物联网是指在物理世界的实体中部署具有一定感知能力、计算能力和执行能力的各种 信息传感设备,通过网络设施实现信息传输、协同和处理,从而实现广域或大范围的人与 物、物与物之间信息交换需求的互联。
物联网如何实现?
数据采集
数据存储
统计分析
物联网的核心技术。
NB-LoT技术
RFID技术
传感器技术
网络通信技术
嵌入式系统技术
云计算
冷链物联大数据平台
冷链无线智能采集终端
数据通道引擎
远程监控客户端软件