导图社区 大数据学习路线图
这是一篇关于数据存储与数据库的思维导图,主要内容包括:关系型数据库,非关系型数据库,搜索引擎,分布式文件系统,分布式数据库,数据采集,基本开发工具,大数据开发基础,服务/软件部署。
编辑于2025-05-28 18:46:57这是一篇关于12个月份的英语单词及每个月份对应的例句的思维导图,主要内容包括:January (一月),February (二月),March (三月),April (四月),May (五月),June (六月),July (七月),August (八月),September (九月),October (十月),November (十一月),December (十二月),有助于学习者直观地理解和记忆每个月份的英文单词及其对应的典型事件或特征。
这是一篇关于数据存储与数据库的思维导图,主要内容包括:关系型数据库,非关系型数据库,搜索引擎,分布式文件系统,分布式数据库,数据采集,基本开发工具,大数据开发基础,服务/软件部署。
这是一篇关于政府工作报告极简版来了的思维导图,主要内容包括:一、2024年工作回顾,二、今年主要预期目标,三、今年部分重点工作。
社区模板帮助中心,点此进入>>
这是一篇关于12个月份的英语单词及每个月份对应的例句的思维导图,主要内容包括:January (一月),February (二月),March (三月),April (四月),May (五月),June (六月),July (七月),August (八月),September (九月),October (十月),November (十一月),December (十二月),有助于学习者直观地理解和记忆每个月份的英文单词及其对应的典型事件或特征。
这是一篇关于数据存储与数据库的思维导图,主要内容包括:关系型数据库,非关系型数据库,搜索引擎,分布式文件系统,分布式数据库,数据采集,基本开发工具,大数据开发基础,服务/软件部署。
这是一篇关于政府工作报告极简版来了的思维导图,主要内容包括:一、2024年工作回顾,二、今年主要预期目标,三、今年部分重点工作。
数据存储与数据库
关系型数据库
MySQL
开源的关系型数据库管理系统
支持多种操作系统
SQL Server
微软开发的数据库系统
适用于Windows平台
Oracle
强大的企业级数据库系统
支持复杂的数据处理
非关系型数据库
Redis
内存中的数据结构存储系统
支持多种数据类型
MongoDB
文档型数据库
灵活的数据模型
HBase
基于Hadoop的NoSQL数据库
面向列的存储模型
Neo4J
图数据库
适合复杂关系的数据存储
InfluxDB
时间序列数据库
优化用于时间戳数据的存储和查询
搜索引擎
Elasticsearch
分布式、Rest风格的全文搜索引擎
基础概念
节点
Elasticsearch的运行实例
集群
多个节点的集合
分片
数据的分片存储
副本
数据的备份
数据类型
基础类型
文本、数字等
复杂类型
对象、嵌套等
基本操作
API使用
索引操作
增、删、改、查索引
文档操作
增、删、改、查文档
检索功能
分词
文本的分词处理
同义词
同义词的处理
高亮
搜索结果的高亮显示
推荐
基于用户行为的推荐系统
聚合功能
Metric聚合
数值型数据的聚合
Buckting聚合
分桶聚合
Pipeline聚合
聚合的聚合
Matrix聚合
多字段的矩阵聚合
集群运维
集群状态
监控集群健康状态
集群扩展
增加节点以扩展集群
集群安全
保护集群免受未授权访问
集群监控
监控集群性能指标
集群备份
数据备份与恢复
调优
写入优化
提高数据写入速度
检索/聚合优化
提高查询效率
索引优化
优化索引结构
磁盘读写优化
提升磁盘I/O性能
数据模型优化
优化数据存储模型
集群部署优化
优化集群部署策略
分布式文件系统
HDFS
基本概念和架构
Blocks
数据块的概念
NameNode
管理文件系统的元数据
DataNode
存储实际数据的节点
平台主要特点
高容错
数据副本机制
高吞吐量
优化的数据读写速度
大数据量支持
适合处理大规模数据集
基本使用
命令行接口
创建目录/文件
删除文件/目录
查看文件内容
导入/导出文件
拷贝/移动文件
对应的API编程接口
核心机制理解
数据读/写原理
数据复制和原理
副本策略
路由策略
心跳机制
快照机制
缓存机制
认证机制
GlusterFS
KFSCeph
Tachyon
分布式数据库
HBase
基本概念和架构
NameSpace
命名空间的概念
Table
表的结构
Row
行的概念
Column
列的概念
TimeStamp
时间戳的作用
Cell
单元格的定义
基本架构
Client
客户端组件
ZooKeeper
集群协调组件
Master
主节点组件
Region Server
区域服务器组件
安装部署和环境搭建
Standalone/伪集群模式
单机模式和伪集群模式
集群模式
真正的集群部署
常用操作
基本Shell命令
状态/版本/Help命令
表操作
增、删、改、查操作
对应的API编程接口
重要机制和原理
存储原理
数据的存储机制
读/写流程
数据读写的处理过程
复制原理
数据复制的机制
负载均衡原理
负载均衡的实现方式
容灾与备份机制
数据的备份与恢复策略
宕机恢复和故障处理
系统故障时的恢复机制
数据采集
Flume
概念
分布式数据采集和聚合框架
基本组件和架构
Event
数据基本单元
Source
数据的收集端
Channel
临时存储数据的管道
Sink
从Channel中取数据
Agent架构模式
单Agent
串联Agent
并联Agent
安装部署
数据采集流程
Source
HTTP Source
Avro Source
Kafka Source
Channel
Memory Channel
JDBC Channel
File Channel
Kafka Channel
Sink
HDFS Sink
Avro Sink
复制模式
多路复用模式
Interceptor
Timestamp Interceptor
Static Interceptor
Regex Interceptor
Logstash
概念
开源数据收集引擎
安装部署
数据采集流程
input
filter
output
强大的插件功能
Sqoop
概念
数据同步和传输工具
下载和配置
安装
基本命令和使用
help
查询库/表
导入/导出数据
job作业
DataX
淘宝开源的数据导入/导出工具
支持HDFS集群与各种关系型数据库之间的数据交换
基本开发工具
Linux操作系统
CentOS
Ubuntu
SSH终端
SecureCRT
Mobaxterm
Xshell
FTP/SFTP工具
WinSCP
FileZilla
Transmit
IDE
IDEA
Eclipse
源码控制工具
Git
SVN
构建工具
Maven
Gradle
大数据开发基础
编程语言
Java
语言基础
基础语法
面向对象
接口
容器
异常
泛型
反射
注解
I/O
JVM虚拟机
类加载机制
字节码执行机制
JVM内存模型
GC垃圾回收
JVM性能监控与故障定位
JVM调优
并发/多线程编程
并发编程基础
线程池
锁
原子类
并发容器
JUC并发工具类
Scala
基础语法
类型系统
类和对象
函数和闭包
字符串/数组/集合
迭代器
Trait模式匹配和正则
隐式转换
异常处理
函数式编程范式
Actor编程
数据结构和算法
数据结构
字符串
数组
链表
堆栈
队列
树
哈希
图
算法
基本算法
查找
排序
算法思想
枚举
递归
贪心
分治
动态规划
回溯
计算机网络
体系结构和分层模型
ARP/RARP协议
IP/ICMP协议
TCP/UDP协议
DNS/HTTP/HTTPS协议
Session/Cookie/Token等概念
操作系统
进程与线程
内存管理和调度
I/O原理
文件管理
数据库基础
SQL语句书写
SQL语句优化
数据库规范化设计
事务/隔离级别/并发/索引等重要机制
设计模式
单例
工厂
代理
策略
模板方法
观察者
适配器
责任链
Linux系统
系统安装部署
基本命令和配置
常用系统和网络管理
基本的Shell编程
服务/软件部署
数据处理
通用计算
MapReduce
分布式计算编程框架
作业配置
作业提交/监控
作业输入/输出
任务运行
Mapper/Reducer/Driver编写
Combiner/Partitioner编写
重要机制理解
Spark
概念
分布式内存计算框架
部署模式
Local模式
Standalone模式
Spark on Yarn模式
核心组件
Spark-Core
RDD核心概念
RDD创建操作
RDD缓存
DAG常用转换/行动算子
键值对操作
连接/聚合操作
数据分区函数传递
分布式共享变量
广播变量
累加器
Spark-SQL
Spark子模块
DataFrame/DataSet操作
聚合操作
连接操作
自定义函数
Spark-Streaming
流式计算子模块
DStream核心
创建输入/输出
转换实战练手
Spark-MLlib
机器学习子模块
特征工程
分类/回归
无监督学习
推荐系统
Flink
基本概念和架构
分层架构
API编程
数据处理(流操作)
窗口类型
数据仓库
Hive
Hive架构
JDBC/ODBC
MetaStore元数据服务
Driver
常用操作
基本shell命令
Hive service
库表定义
数据库操作
数据表操作
数据操作
设置支持事务操作
分区操作
动态分区分桶操作
创建加载使用索引
创建查看更新删除视图
创建查看删除修改函数
数值计算
字符串函数
时间