导图社区 大数据架构
这是一篇关于大数据架构的思维导图,主要内容有信息化浪潮、大数据4v、大数据影响、大数据应用、大数据与云计算,物联网、架构hadoop。
社区模板帮助中心,点此进入>>
项目时间管理6大步骤
项目管理的五个步骤
安全教育的重要性
电商部人员工作结构
电费水费思维导图
D服务费结算
组织架构-单商户商城webAPP 思维导图。
博弈的理解与运用
个人日常活动安排思维导图
暮尚正常运转导图
大数据架构
信息化浪潮
第三次
2010年前后
大数据,物联网,云计算
信息爆炸
亚马逊,谷歌,阿里云
大数据4v
数据量大
单位tb等
大数据摩尔定律
数据类型繁多
类型
结构化数据0.1
存储在关系数据库
非结构化数据0.9
处理速度快
实时分析结果,秒级响应
价值密度低
有价值信息分布在海量数据中
大数据影响
对科学研究
第一种范式:实验科学
比萨斜塔实验
2:理论科学
牛顿三定律
3:计算科学
第一台通用电子计算机enic
4:数据密集型科学
从数据中挖掘
思维方式
全样而非抽样
通过大数据技术(存储能力,并行处理)针对全集数据,短时间得到分析结果
效率而非精确
秒级响应(海量数据,实时分析)
相关而非因果
传统:为什么销售额下降?从数据中分析,人们倾向买什么‘’
现在:相关,买了尿布要买啤酒
大数据应用
制造金融汽车互联网餐饮
无人驾驶汽车
有针对性广告投入
电信能源物流城市管理
改进电网运行,合理设计店里需求响应系统
智能交通,环保检测,确保电网运行安全
生物医学体育和娱乐安全领域个人生活
流行病预测,智慧医疗
构建我国强大的国家安全保障体系,预防犯罪
分析个人生活行为习惯,个性化服务
大数据与云计算,物联网
云计算
通过网络提供可伸缩的,廉价的分布式计算能力,用户只需在具备网络接入条件的地方,随时获得it资源
服务模式
基础设施即服务iaas
平台即服务paas
软件即服务saas
关键技术
虚拟化
将一台计算机虚拟为多台逻辑计算机
分布式存储
gfs Hadoop hdfs
Hbase以bigtable
分布式计算
map reduce 海量数据并行处理
多租户
是大量用户共享同一堆栈软硬件资源,每个用户按需使用资源,能够对软件服务进行客户化配置,而不影响其他用户使用
物联网
物物相连的互联网,是互联网的延伸,利用局部网络或互联网等通信技术把传感器,控制器,计算机,人员和物等通过新的方式连接在一起,形成人与物,物与物相连,实现信息化和远程管理控制
技术架构
感知层
感知物理世界信息:RFID网络 传感器网络
网络层
信息传输各类型网络:电信网,互联网,广电网,,,
处理层
存储处理
应用层
直接面向用户,智能交通,农业。。。
识别和感知技术(二维码,rfid,传感器等)
网络与通信技术
蓝牙 互联网
数据挖掘与融合技术
云计算基础设施实现存储,大数据技术快速处理分析
关系
云计算为大数据提供技术基础 反提供用武之地
云计算为物联网提供海量数据存储能力 反提供广阔的应用空间
物联网是大数据的重要来源 反为物联网数据分析提供支撑
架构hadoop
Hadoop是平台,核心是hdfs分布式文件系统,mapreduce开源实现
版本区别
1.0
0.20.x演化成1.0.x稳定版
0.21.x,0.22.x增加了hdfsha特性
2.0
0.23.x,2.x
全新架构,HDfs federation 和yarn两系统
hdfsFederation指hdfs集群可以有多个namenode,分别管理一部分资源,共享所有的datanode
3.0
jdk1.8
引入重要功能和优化,hdfs可擦除编码,多名称节点支持,任务级别的mapeduce本地优化,基于cgroup的内存和磁盘io隔离
生态系统hadoop 开源分布式计算平台
Ambari
安装部署配置和管理工具
Zookeeper
分布式协作服务
Hbase
分布式数据库基于列
强大的非结构化数据存储能力
Hive
数据仓库
对Hadoop文件中的数据集进行数据整理,特殊查询和分析存储
Pig
数据流处理
查询大型半结构化数据集,提供了一种更加接近结构查询语言的接口
Mahout
数据挖掘库
Mapreduce
分布式计算框架
Yarn
资源调度管理框架
Hdfs
分布式文件系统
Flume
日志收集
Sqoop
数据库etl
建立数据仓库重要的处理过程
抽取,转换,装载
特性
高可靠性:冗余数据存储方式
高效性:高效处理pb级数据
高扩展性:高效稳定运行在廉价的计算机集群上
高容错性:冗余数据处理,多副本
成本低:廉价计算机集群
Linux系统 JAVA开发
支持多编程语言