导图社区大数据架构

大数据架构

这是一篇关于大数据架构的思维导图，主要内容包括：传统数据处理系统，大数据处理系统架构分析，Lambda 架构，Kappa 架构及对比。

提示: 本内容由社区用户上传并分享。平台不对内容的真实性、合法性、知识产权归属及是否侵害第三方权利进行事前审核或保证。本内容可能包含受版权保护的图片、字体或其他第三方素材，使用前请自行确认授权范围。

编辑于2025-06-15 19:10:27

架构
职业技能
程序员
程序世界

ERIZEIUM

他的近期作品查看更多>>

大数据架构

社区模板帮助中心，点此进入>>

ERIZEIUM

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 41.7k
- 984
- 2.5k
- 403
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 19.9k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 5.4k
- 171
- 11
- 4
- 0
jackrao
python思维导图
- 11.2k
- 560
- 243
- 6
- 0
(*^▽^*)
css
- 4.8k
- 1
- 43
- 3
- 0
A张舫
CSS
- 7.5k
- 272
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 9.5k
- 361
- 210
- 15
- 0
journey
计算机组成原理
- 5.0k
- 98
- 71
- 8
- 0
journey
IMX6UL(A7)
- 3.5k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 4.7k
- 51
- 10
- 1
- 0
蒋龙

大数据架构

传统数据处理系统

Hadoop

说明

由 Apache 软件基金会开发的分布式系统基础架构

目标

通过集群处理大规模数据（PB 级），具备高可靠性、高扩展性、高容错性和高效性

简化分布式计算的开发，用户无需关注底层细节即可实现海量数据的存储与计算

核心思想

源自 Google 的 MapReduce 编程模型和 GFS（Google File System）

组成

HDFS

Hadoop Distributed File System

分布式文件系统

数据分块存储（默认 128MB/块）并跨节点冗余备份（默认 3 副本），支持高吞吐量的流式数据访问

容错性

自动处理节点故障，数据可从其他副本恢复

MapReduce

分布式计算框架

将任务分解为 Map（映射）和 Reduce（归约）两个阶段，通过并行处理加速批量计算

抽象简化

开发者仅需实现业务逻辑，无需管理分布式细节

YARN

Yet Another Resource Negotiator

资源调度器

管理集群资源（CPU、内存），支持多计算框架（如 MapReduce、Spark）共享集群

Hadoop Common

基础工具库

提供其他模块依赖的公共功能（如配置管理、RPC 通信）

生态工具

Hive

SQL 接口转换查询为 MapReduce 作业

HBase

分布式 NoSQL 数据库，支持实时读写

Spark

内存计算框架，弥补 MapReduce 迭代计算短板

Flume

日志采集工具，支持流式数据导入 HDFS

大数据处理系统架构分析

挑战

如何利用信息技术等手段处理非结构化和半结构化数据

分类

结构化数据

占 15%

非结构化数据

占 85%

数据挖掘

提取“粗糙知识”

“一次挖掘”

结合主观知识，提取“智能知识”

“二次挖掘”

核心价值

如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模

数据异构性欲决策异构性的关系对大数据知识发现与管理决策的影响

特征

鲁棒性和容错性

Robust and Fault-tolerant

低延迟读取和更新能力

Low Latency Reads and Updates

横向扩容

Scalable

通用性

General

延展性

Extensible

即席查询能力

Allows Ad Hoc Queries

最少维护能力

Minimal Maintenance

可调式性

Debuggable

Lambda 架构

说明

由 Nathan Marz（Apache Storm 创始人）提出的一种大数据处理架构

用于同时处理离线和实时数据的，可容错的，可扩展的分布式系统

架构

批处理层

Batch Layer

处理全量历史数据，生成高精度的离线视图（Batch View）

管理主数据集

数据属性

数据是原始的

数据是不可变的

数据永远是真实的

加速层

Speed Layer

处理实时增量数据，生成低延迟的近似结果（Realtime View）

服务层

Serving Layer

合并批处理和实时结果，提供统一的查询接口

图示

批处理层如何利用 Monoid（幺半群）

结合律

(a⋅b)⋅c=a⋅(b⋅c)

确保数据分片计算后可以任意顺序合并

单位元

存在 e∈M，使得 e⋅a=a⋅e=a

提供初始值（如计数时为 0），支持空数据集的合法计算

批处理层的核心操作（如 SUM、COUNT、MAX）本质上是 Monoid 运算

分片计算

数据分块后并行处理，结果可合并（MapReduce 的 Reduce 阶段）

图示

Kappa 架构

说明

由 LinkedIn 前首席工程师 Jay Kreps（Apache Kafka 作者）提出

核心理念

基于 Lambda 架构优化，通过单一的流处理层统一实时与离线数据处理，摒弃独立的批处理层，依赖消息队列（如 Kafka）的数据重放能力实现历史数据回溯。数据存储在数据湖层

架构

图示

对比