导图社区大数据技术

大数据技术

描述大数据技术生态圈组件的前世今生。从早期Apache nutch项目到Hadoop成为顶级Apache项目，再到大数据技术生态。

编辑于2021-03-22 01:15:06

Hadoop
大数据架构
大数据技术

wangqiusheng

他的近期作品查看更多>>

大数据技术
描述大数据技术生态圈组件的前世今生。从早期Apache nutch项目到Hadoop成为顶级Apache项目，再到大数据技术生态。

大数据技术

社区模板帮助中心，点此进入>>

wangqiusheng

他的近期作品查看更多>>

大数据技术
描述大数据技术生态圈组件的前世今生。从早期Apache nutch项目到Hadoop成为顶级Apache项目，再到大数据技术生态。

相似推荐
大纲

互联网9大思维
- 39.7k
- 977
- 2.5k
- 401
- 0
MindMaster
安全教育的重要性
- 8.5k
- 945
- 100
- 18
- 0
issen
组织架构-单商户商城webAPP 思维导图。
- 18.6k
- 3
- 186
- 9
- 1
Kacyun
个人日常活动安排思维导图
- 9.5k
- 0
- 84
- 0
- 0
少儿栏目外景策划波波老师
域控上线
- 4.3k
- 171
- 11
- 4
- 0
jackrao
西游记主要人物性格分析
- 19.3k
- 1.4k
- 647
- 103
- 0
issen
17种头脑风暴法
- 213.3k
- 4.3k
- 11.9k
- 4.1k
- 1
MindMaster
python思维导图
- 9.6k
- 557
- 242
- 7
- 0
(*^▽^*)
css
- 3.9k
- 1
- 43
- 3
- 0
A张舫
CSS
- 6.3k
- 271
- 189
- 33
- 0
journey

大数据前世今生

2002

Apache Lucene

Apache Nutch

2003

10月

GFS

2004

10月

MapReduce

2006

1月

Doug Cutting 加盟

2月

3月

第一个Hadoop集群

5月

Hadoop集群500节点

2006

11月

BigTable

2007

开始使用Hadoop做离线处理

2008

开始投入研究基于Hadoop的系统云梯

2008

商用公司

2009

Doug Cutting 加盟Cloudera

CDH

2010

5月

Apache HBase

NoSQL

HBase是Google Bigtable的开源实现

6月

Apache Pig

Yahoo一些人觉得Map-Reduce大数据编程太过麻烦，便开发了 Pig。Pig 是一种脚本语言，使用类 SQL 的语法，开发者可以用 Pig 脚本描述要对大数据集上进行的操作，Pig 经过编译后会生成 MapReduce 程序，然后在 Hadoop 上运行。

2011

Apache Hive

编写 Pig 脚本虽然比直接 MapReduce 编程容易，但是依然需要学习新的脚本语法。于是 Facebook 又发布了 Hive。Hive 支持使用 SQL 语法来进行大数据计算，比如说你可以写个 Select 语句进行数据查询，然后 Hive 会把 SQL 语句转化成 MapReduce 的计算程序。

Apache Cassandra

NoSQL

开源分布式NoSQL数据库系统

Apache Flume

分布式的海量日志采集

Apache Sqoop

Hadoop和关系型数据库中的数据相互转移的工具

Apache Oozie

MapReduce 工作流调度引擎

Apache ZooKeeper

分布式应用程序协调服务

2011

商用公司

Ambari HDP HDF

web管理工具

2012

Yarn

资源调度系统

Apache Storm

流计算框架

Apache Kafka

2012

Apache Spark

流计算框架

Apache Spark Streaming

流计算框架

当时 AMP 实验室的马铁博士发现使用 MapReduce 进行机器学习计算的时候性能非常差，因为机器学习算法通常需要进行很多次的迭代计算，而 MapReduce 每执行一次 Map 和 Reduce 计算都需要重新启动一次作业，带来大量的无谓消耗。还有一点就是 MapReduce 主要使用磁盘作为存储介质，而 2012 年的时候，内存已经突破容量和成本限制，成为数据运行过程中主要的存储介质。Spark 一经推出，立即受到业界的追捧，并逐步替代 MapReduce 在企业应用中的地位。

2015

Apache Flink

流计算框架

德国柏林工业大学

2018

两家公司合并

CLOUDERA DATA PLATFORM

主题

“Hadoop80%源码贡献者”

Doug Cutting