导图社区 大数据架构
这是一篇关于大数据架构的思维导图,主要内容包括:传统数据处理系统,大数据处理系统架构分析,Lambda 架构,Kappa 架构 及 对比。
这是一篇关于安全架构的思维导图,主要内容包括:安全威胁,安全架构,安全相关标准,安全模型,信息安全整体架构设计,网络安全体系架构设计,数据库系统的安全设计,系统架构的脆弱性分析。
这是一篇关于通信系统架构的思维导图,主要内容包括:形式分类,存储网络架构,软件定义网络,通信网络构建案例。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
大数据架构
传统数据处理系统
Hadoop
说明
由 Apache 软件基金会 开发的 分布式系统基础架构
目标
通过集群处理大规模数据(PB 级),具备高可靠性、高扩展性、高容错性和高效性
简化分布式计算的开发,用户无需关注底层细节即可实现海量数据的存储与计算
核心思想
源自 Google 的 MapReduce 编程模型 和 GFS(Google File System)
组成
HDFS
Hadoop Distributed File System
分布式文件系统
数据分块存储(默认 128MB/块)并跨节点冗余备份(默认 3 副本),支持高吞吐量的流式数据访问
容错性
自动处理节点故障,数据可从其他副本恢复
MapReduce
分布式计算框架
将任务分解为 Map(映射) 和 Reduce(归约) 两个阶段,通过并行处理加速批量计算
抽象简化
开发者仅需实现业务逻辑,无需管理分布式细节
YARN
Yet Another Resource Negotiator
资源调度器
管理集群资源(CPU、内存),支持多计算框架(如 MapReduce、Spark)共享集群
Hadoop Common
基础工具库
提供其他模块依赖的公共功能(如配置管理、RPC 通信)
生态工具
Hive
SQL 接口转换查询为 MapReduce 作业
HBase
分布式 NoSQL 数据库,支持实时读写
Spark
内存计算框架,弥补 MapReduce 迭代计算短板
Flume
日志采集工具,支持流式数据导入 HDFS
大数据处理系统架构分析
挑战
如何利用信息技术等手段处理非结构化和半结构化数据
分类
结构化数据
占 15%
非结构化数据
占 85%
数据挖掘
提取“粗糙知识”
“一次挖掘”
结合主观知识,提取“智能知识”
“二次挖掘”
核心价值
如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模
数据异构性欲决策异构性的关系对大数据知识发现与管理决策的影响
特征
鲁棒性和容错性
Robust and Fault-tolerant
低延迟读取和更新能力
Low Latency Reads and Updates
横向扩容
Scalable
通用性
General
延展性
Extensible
即席查询能力
Allows Ad Hoc Queries
最少维护能力
Minimal Maintenance
可调式性
Debuggable
Lambda 架构
由 Nathan Marz(Apache Storm 创始人)提出的一种大数据处理架构
用于同时处理离线和实时数据的,可容错的,可扩展的分布式系统
架构
批处理层
Batch Layer
处理全量历史数据,生成高精度的离线视图(Batch View)
管理主数据集
数据属性
数据是原始的
数据是不可变的
数据永远是真实的
加速层
Speed Layer
处理实时增量数据,生成低延迟的近似结果(Realtime View)
服务层
Serving Layer
合并批处理和实时结果,提供统一的查询接口
图示
批处理层如何利用 Monoid(幺半群)
结合律
(a⋅b)⋅c=a⋅(b⋅c)
确保数据分片计算后可以任意顺序合并
单位元
存在 e∈M,使得 e⋅a=a⋅e=a
提供初始值(如计数时为 0),支持空数据集的合法计算
批处理层的核心操作(如 SUM、COUNT、MAX)本质上是 Monoid 运算
分片计算
数据分块后并行处理,结果可合并(MapReduce 的 Reduce 阶段)
Kappa 架构
由 LinkedIn 前首席工程师 Jay Kreps(Apache Kafka 作者)提出
核心理念
基于 Lambda 架构优化,通过单一的流处理层统一实时与离线数据处理,摒弃独立的批处理层,依赖消息队列(如 Kafka)的数据重放能力实现历史数据回溯。数据存储在数据湖层
对比