导图社区 2.大数据处理框架Hadoop
这是一个关于2.大数据处理框架Hadoop的思维导图,Hadoop是一个大数据处理框架,起源于Nutch,是Apache软件基金会旗下的开源项目,主要用于解决海量的数据存储和处理问题。
社区模板帮助中心,点此进入>>
2.大数据处理框架Hadoop
概述
核心技术
HDFS
MapReduce
发展简史
特性
高可靠性
高效性
高可扩展性
高容错性
低成本
运行在Linux平台上
支持多种编程语言
Hadoop项目结构
分布式文件系统
对数据进行存储
分布式并行编程模型
一代:实时计算
二代:离校批处理
基于磁盘
性能较差(相对Spark)
从磁盘中读取数据
对数据进行计算
YARN
资源管理和调度器
Tez
运行在YARN之上
Hadoop查询处理框架
Hive
Hadoop上的数据仓库
HBase
Hadoop上的非关系型的分布式数据库
Pig
基于Hadoop的大规模数据分析平台
提供类SQL语言Pig Latin
Sqoop
用于Hadoop和传统数据库间的数据传递
Oozie
Hadoop上的工作流管理系统
Zookeeper
提供分布式协调一致服务
Storm
流计算框架
Flume
日志采集,聚合,传输系统
Ambari
Hadoop快速部署工具
Kafka
高吞吐量
分布式发布订阅消息系统
Spark
类似Hadoop MapReduce
通用并行框架
基于内存
性能较优(相对MapReduce)
Hadoop的安装和使用(略)
Hadoop集群的部署和使用
集群基本节点/组件类型
NameNode
负责协调集群中的数据存储
DataNode
协调被拆分的数据块
JobTracker
协调和分解数据计算任务
TaskTracker
负责执行由JobTracker指派的任务
SecondaryNameNode
备份节点
集群硬件配置
集群规模
集群网络拓扑
集群建立与安装
集群基准测试
在云计算环境中使用Hadoop