导图社区 Hadoop
赶快收藏!!你一定不能错过的思维导图,详细的解释了Hadoop的问题和背景,赶紧学起来吧,加油冲冲冲!
这张思维导图讲述了,在 SQL 的发展过程中,产生了许多迭代产品,其中最重要的是SQL,NoSQL和NewSQL — 它们一起负责绝大部分的数据库市场。赶快学习起来吧!
社区模板帮助中心,点此进入>>
安全教育的重要性
个人日常活动安排思维导图
西游记主要人物性格分析
17种头脑风暴法
如何令自己更快乐
头脑风暴法四个原则
思维导图
第二职业规划书
记一篇有颜又有料的笔记-by babe
伯赞学习技巧
Hadoop
HIVE
数据仓库工具
SQL解析引擎
设计特点
支持索引
不同的存储类型
元数据保存在关系型数据库中
类SQL查询方式
缺点
HQL表达能力有限
效率低
pig
封装MapReduce的处理过程
弥补MapReduce编程的复杂性
核心
Pig Latin语言
易于编程
便于优化
灵活
Pig执行环境
主要应用场景
传统的数据流处理,原生数据研究和迭代处理
Mahout
主要目标
提供可扩展的机器学习算法及其实现。目前Mahout支持聚类、分类、推荐
HBase
what
构建在HDFS上的分布式列存储系统
基于Google BigTable模型开发的,典型的键值对系统
主要用于存储海量结构化数据存储
按照表,行,列进行存储
目标主要依靠横向扩展,通过不断增加廉价的商用服务器来增加计算和存储能力
特点
非结构化
多版本
面向列
Zookeeper
主要解决
分布式环境下的协作服务问题,包括命名服务,状态同步,集群管理,配置同步,分布式锁,队列管理等
主要功能
统一命名服务
配置管理
集群管理
目标与特点
简单性
自我复制
顺序访问
高速读取
Flume
日志类数据的收集和处理
目的和特征
高可靠性
可扩展性
支持方便管理
支持用户自定义
Sqoop(SQL-to-Hadoop)
Sqoop可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中
HDFS分布式文件系统
流式数据访问
最小化磁盘寻址开销
基于商用硬件
支持超大文件
高吞吐量
背景
Google三大论文
GFS
MapReduce
Bigtable
问题
海量数据
存储
HDFS
与文件管理有关软件
被管理文件
实施文件管理所需数据结构
分析(MapReduce)
分布式资源调度(Yarn)
开源
高可靠
可扩展
分布式
计算框架