导图社区 大数据技术
描述大数据技术生态圈组件的前世今生。从早期Apache nutch项目到Hadoop成为顶级Apache项目,再到大数据技术生态。
社区模板帮助中心,点此进入>>
互联网9大思维
安全教育的重要性
组织架构-单商户商城webAPP 思维导图。
个人日常活动安排思维导图
域控上线
西游记主要人物性格分析
17种头脑风暴法
python思维导图
css
CSS
大数据前世今生
2002
Apache Lucene
Apache Nutch
2003
10月
GFS
2004
MapReduce
2006
1月
Doug Cutting 加盟
2月
3月
第一个Hadoop集群
5月
Hadoop集群500节点
11月
BigTable
2007
开始使用Hadoop做离线处理
2008
开始投入研究基于Hadoop的系统云梯
商用公司
2009
Doug Cutting 加盟Cloudera
CDH
2010
Apache HBase
NoSQL
HBase是Google Bigtable的开源实现
6月
Apache Pig
Yahoo一些人觉得Map-Reduce大数据编程太过麻烦,便开发了 Pig。Pig 是一种脚本语言,使用类 SQL 的语法,开发者可以用 Pig 脚本描述要对大数据集上进行的操作,Pig 经过编译后会生成 MapReduce 程序,然后在 Hadoop 上运行。
2011
Apache Hive
编写 Pig 脚本虽然比直接 MapReduce 编程容易,但是依然需要学习新的脚本语法。于是 Facebook 又发布了 Hive。Hive 支持使用 SQL 语法来进行大数据计算,比如说你可以写个 Select 语句进行数据查询,然后 Hive 会把 SQL 语句转化成 MapReduce 的计算程序。
Apache Cassandra
开源分布式NoSQL数据库系统
Apache Flume
分布式的海量日志采集
Apache Sqoop
Hadoop和关系型数据库中的数据相互转移的工具
Apache Oozie
MapReduce 工作流调度引擎
Apache ZooKeeper
分布式应用程序协调服务
Ambari HDP HDF
web管理工具
2012
Yarn
资源调度系统
Apache Storm
流计算框架
Apache Kafka
Apache Spark
Apache Spark Streaming
当时 AMP 实验室的马铁博士发现使用 MapReduce 进行机器学习计算的时候性能非常差,因为机器学习算法通常需要进行很多次的迭代计算,而 MapReduce 每执行一次 Map 和 Reduce 计算都需要重新启动一次作业,带来大量的无谓消耗。还有一点就是 MapReduce 主要使用磁盘作为存储介质,而 2012 年的时候,内存已经突破容量和成本限制,成为数据运行过程中主要的存储介质。Spark 一经推出,立即受到业界的追捧,并逐步替代 MapReduce 在企业应用中的地位。
2015
Apache Flink
德国柏林工业大学
2018
两家公司合并
CLOUDERA DATA PLATFORM
主题
“Hadoop80%源码贡献者”
Doug Cutting