导图社区 MAC学习知识框架总结分享

MAC学习知识框架总结分享

MAC学习知识框架总结分享，包括理论基础篇、技术底层支撑篇、从萌新到BAT、关键算法支撑篇、框架/中间件底层原理剖析篇、总体设计篇、网络基础设施建设篇等。

编辑于2022-11-04 10:47:12 广东

MAC
MAC学习…

凝

他的近期作品查看更多>>

MAC学习知识框架总结分享

社区模板帮助中心，点此进入>>

凝

他的近期作品查看更多>>

相似推荐
大纲

论语孔子简单思维导图
- 90.3k
- 946
- 1.1k
- 490
- 1
MindMaster
《傅雷家书》思维导图
- 135.5k
- 1.7k
- 2.7k
- 1.3k
- 0
MindMaster
《童年》读书笔记
- 46.6k
- 488
- 987
- 337
- 0
MindMaster
《茶馆》思维导图
- 13.6k
- 176
- 181
- 40
- 0
MindMaster
《朝花夕拾》篇目思维导图
- 26.7k
- 532
- 1.2k
- 300
- 0
MindMaster
《昆虫记》思维导图
- 35.2k
- 272
- 778
- 279
- 0
MindMaster
《安徒生童话》思维导图
- 19.7k
- 277
- 264
- 66
- 0
MindMaster
《鲁滨逊漂流记》读书笔记
- 22.5k
- 310
- 551
- 166
- 0
MindMaster
《这样读书就够了》读书笔记
- 99.4k
- 12.9k
- 9.0k
- 2.2k
- 0
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 11.2k
- 1.8k
- 411
- 38
- 0
Ethan

MAC学习知识框架总结分享

核心理论落地篇：再造淘宝贯穿全系阿里团队代码落地详细每个版本迭代拒绝2-3个月PPT架构师

再造淘宝之咚宝 - 技术支撑 - 完整搭建DevOps

再造淘宝之咚宝 - 统一规则 - 代码规范落地解析

再造淘宝之咚宝-搭建基础服务

再造淘宝之咚宝 - 搭建基础服务 - 分布式ID生成中心

再造淘宝之咚宝 - 搭建基础服务 - 配置中心 SpringCloudConfig / Nacos / Appolo

再造淘宝之咚宝 - 搭建基础服务 - 分布式锁集群与Util基础类库(AP CP）

再造淘宝之咚宝 - 搭建基础服务 - 分布式事务集群与Util基础类库(AP CP)

再造淘宝之咚宝 - 搭建基础服务 - 缓存服务集群搭建

再造淘宝之咚宝 - 搭建基础服务 - 网关服务集群搭建

再造淘宝之咚宝 - 搭建基础服务 - 注册中心服务集群搭建 etcd / nacos / eureka / zk /consul

再造淘宝之咚宝 - 搭建基础服务 - 监控服务集群搭建 spring boot admin / Prometheus+ Grafana / zabbix

再造淘宝之咚宝 - 搭建基础服务 - MQ服务集群搭建 rocket mq / active mq / rabbit mq / kafka

再造淘宝之咚宝 - 搭建基础服务 - ES服务集群搭建

再造淘宝之咚宝 - 搭建基础服务 - 分布式任务调度服务集群搭建【自研】

再造淘宝之咚宝 - 搭建基础服务 -Tengine服务集群搭建采用阿里的SLB / ECS

再造淘宝之咚宝 - 搭建基础服务 -Mysql集群服务集群搭建

再造淘宝之咚宝 - 构建step01 - 用户中心

权限系统设计

session 设计 redis cluster / codis

再造淘宝之咚宝 - 构建step02 - 商品中心

再造淘宝之咚宝 - 构建step03 - 库存中心

再造淘宝之咚宝 - 构建step05 - 订单中心

商品订单处理 disruptor

再造淘宝之咚宝 - 构建step06 - 搜索中心

elastic search

再造淘宝之咚宝 - 构建step07 - 评价中心

再造淘宝之咚宝 - 构建step08 - 客服中心

再造淘宝之咚宝 - 构建step09 - 推荐中心

再造淘宝之咚宝 - 构建step10 - 促销秒杀中心

再造淘宝之咚宝 - 构建step11 - 支付中心

分布式事务 seata / rocket mq 软事务

大数据量统计 bitmap / bloom filter / HyperLogLog

再造淘宝之咚宝 - 构建step12 - 物流中心

再造淘宝之咚宝 - 构建step13 - 租户中心

再造淘宝之咚宝 - 构建step14 - 上云开源

第一篇：千亿流量高并发高可用分布式系统之理论基础篇

透彻解读分布式理论的地基：CAP定理

留美博士小姐姐：CAP定理英文原版论文解读

阿里技术团队也无力，12306服务不可用的魔咒究竟能否打破

深度讲解Redis、Zookeeper、Eureka等开源项目对CAP的取舍

数据一致性（强一致性 - 弱一致性 - 最终一致性）、可用性

淘宝网如何做到 SLA 6个9以上的高可用服务

互联网企业架构中的1秒法则

课程链接

透彻解读AP下保持事务最终一致性：BASE

课程链接

分布式锁理论以及在各种场景下的实践路线

分布式AP锁之Redis

分布式CP锁之ZK

分布式CP锁之ETCD

分布式锁之SBLock落地

课程链接

分布式微服务中的难题分布式事务的规划指导

传统事务的基本特性（ACID）

分布式需要事务？传统事务不行吗？

两阶段提交方案之XA

两阶段提交方案之Seata

解决痛点之方案TCC

tcc-transaction

TXC

LCN

GTS

Alibaba Seata

Hmily

ByteTCC

落地方案之可靠消息最终一致性方案

落地方案之最大努力通知方案

SAGA

课程链接

1、网关限流-服务限流-分布式事务

2、分布式事务-2pc两阶段提交协议-3pc三阶段提交协议

3、分布式事务解决方案-消息队列-定时任务-本地事件表

4、分布式事务解决方案LCN（Lock Confirm notify）原理-实战

5、分布式事务解决方案TCC（Try Confirm Cancel）原理-实战

6、分布式事务解决方案TCC-mysql-redis-混合实战

7、分布式事务解决方案Seata AT模式

8、分布式事务解决方案Seata-at-tcc-空回滚-幂等-悬挂

9、分布式事务解决方案Seata 实战

10、分布式事务解决方案-可靠消息服务-最大努力通知-事务消息

服务端主从架构设计脑裂问题终极解决方案

永不宕机随时在线之服务高可用设计方案

服务无状态化 + 服务冗余

----如果服务必须有状态且要寻求高可用，这时该怎么办？（主从）

负载均衡 + 重试幂等

异步MQ + 系统超时设计

服务自我保护 + 存储冗余/Sharding/缓存

架构的拆分与服务治理

持久化层高可用之主主主从 Cluster NewDB(TiDB）

弹性伸缩虽易扩展之服务高扩展设计方案

无限扩流极限承压之服务高性能设计方案

任你左顾右盼我自恒定不变之幂等

用幂等操作生成唯一交易号

防止重复提交

状态机幂等

对外API如何保持幂等

https://www.cnblogs.com/Koaler/p/12033194.html

https://www.sohu.com/a/376955463_661203

guava map

第二篇：千亿流量高并发高可用分布式系统之技术底层支撑篇（面试）

技术底层支撑之内存IO/网络IO/磁盘IO

磁盘存储性能高于内存存储，Kafka是如何做到的

Linux内核级讲解：异步网络IO Epoll核心解析

Linux内核级讲解：文件IO，内存映射原理

Linux内核级讲解：内核态、用户态转换

Linux内核级讲解：数据零拷贝、网卡推送

课程链接

1、虚拟文件系统，文件描述符，IO重定向

2、内核中PageCache、mmap作用、java文件系统io、nio、内存中缓冲区作用

3、Socket编程BIO及TCP参数

4、C10K问题及NIO精讲和IO模型性能压测

5、网络编程之多路复用器及Epoll精讲

6、网络编程java API 实战多路复用器开发

7、全手写急速理解Netty模型及IO模型应用实战

8、Netty之IO模型开发本质手写部分实现推导篇

9、全手写基于Netty的RPC框架自定义协议，连接池

10、全手写基于Netty的RPC框架协议编解码问题粘包拆包与内核关系

11、全手写基于Netty的RPC框架 provider端简单dispatcher实现RPC调用全流程

12、全手写基于Netty的RPC框架简单重构框架分层及RPC传输的本质及有无状态的RPC区别

技术底层支撑之多线程与高并发（单机）

课程链接

1、单机高并发应该掌握的线程基础：线程状态，异常与锁等

2、解析自旋锁CAS操作与volatile

3、JUC包下AtomicXXX类与新的同步机制：Latch Semaphore等

4、LockSupport，高频面试题，AQS源码，以及源码阅读方法论

5、强软弱虚四种引用以及ThreadLocal的原理与源码

6、线程池可用的各种高并发容器详解：CopyOnWriteList，BlockingQueue等

7、详解线程池：自定义线程池，JDK自带线程池，ForkJoin，源码解析等(一）

8、详解线程池：自定义线程池，JDK自带线程池，ForkJoin，源码解析等(二）

9、单机压测工具JMH，单机最快MQ - Disruptor原理解析

技术底层支撑之JVM调优

课程链接

1、JVM入门级class文件格式

2、详解Class加载过程

3、Java内存模型

4、内存屏障与JVM指令

5、Java运行时数据区和常用指令

6、JVM调优必备理论知识-GC Collector-三色标记

7、JVM调优实战

8、JVM实战调优

9、JVM实战调优

10、垃圾回收算法串讲

11、JVM常见参数总结

技术底层支撑之JMM详解

课程链接

1、Java内存模型

技术底层支撑之Linux内核

课程链接

1、Linux系统的内存映射

2、内核同步方法及用汇编启动内核

技术底层支撑之操作系统

课程链接

1、java程序员需要了解的底层知识第一课

2、硬件和操作系统的底层知识

3、操作系统之进程管理

面试算法系列篇：技术底层支撑之数据结构算法 - 从萌新到BAT

高频面试题训练营

面试中破解面试题的解题技巧

面经

leecode

基础班+进阶班讲过内容的敏感度建立

基础班+进阶班的所有内容根据具体题目做强化练习

进一步加深基础内容的实现技巧

边界能力的锻炼

补充额外的学习内容

线段树

ac自动机

网络流算法

蓄水池算法

随机生成算法

预处理结构设计

类似斐波那契数列问题的O(logN)解法

LRU替换算法

LFU替换算法

bfprt算法

还有很多很多算法，具体实战时都会一一讲解，但只讲高频的。算法世界是无穷的，不可能都讲，但高频一定会讲

算法和数据结构基础班+进阶班

基础算法

时间复杂度、空间复杂度、常数项时间

基于比较的排序算法

选择排序

冒泡排序

插入排序

归并排序

快速排序

堆排序

不基于比较的排序算法

计数排序

基数排序

二分法及其扩展

常见位运算的性质和使用

递归

递归的设计

递归复杂度的计算

几种递归的尝试模型

从左往右的尝试模型

范围上尝试的模型

样本对应模型

业务限制模型

贪心算法

贪心算法的证明

贪心算法的偷巧方式

动态规划

暴力递归和动态规划的关系

记忆化搜索

每种尝试模型如何变成动态规划的实现

斜率优化

四边形不等式优化

状态压缩的动态规划

KMP算法

Manacher算法

资源限制类题目的算法设计

基础数据结构

堆结构

系统实现堆结构的使用

手动实现堆结构

系统实现与手动实现的对比

链表

面试与笔试的不同要求

高频面试题举例

约瑟夫环问题

二叉树

二叉树的基本遍历

树型dp的解题套路

Morris遍历

队列

栈

有序表

AVL树

SB树

红黑树

跳表

前缀树

并查集

图

图的表达方式

图的宽度遍历

图的深度遍历

拓扑排序

最小生成树

Kruskal算法

prim算法

Dijkstra

哈希函数

哈希表

布隆过滤器

一致性哈希

窗口最大值或最小值的更新结构

单调栈结构

课程链接

基础班

进阶版

第三篇：千亿流量高并发高可用分布式系统之关键算法支撑篇

Paxsos算法

ZAB

RAFT

Gossip

请求负载均衡之RoundRobin算法

请求负载均衡之加权随机轮询法

请求负载均衡之Latency-Aware算法

路由寻径之距离矢量算法

分布式任务调度算法

沙丁算法

分布式协调与同步算法 JK

分布式计算之MR Stream Actor 流水线

布隆过滤算法 / 布谷鸟过滤算法

常见哈希及哈希碰撞问题

漏桶算法

令牌桶

分布式ID生成算法雪花 LEAF等

AES/RSA

分布式存储之Kademlia算法

分布式存储之CRUSH算法

分布式存储之一致性哈希算法

pagerank

ItemCF/UserCF协同过滤

倒排索引之TFIDF/MD25算分

线性回归算法

线性回归算法的原理及参数优化方案

基于Spark MLlib训练回归算法模型

逻辑回归算法

逻辑回归算法的原理及算法公式推导

KNN分类算法

KNN识别手写数字与KMeans聚类算法原理

KNN手写数字识别及KMeans算法原理

KMeans聚类算法

手写KMeans聚类算法及实现精准微博营销案例

分析KMeans精准营销案例代码及KMeans在推荐系统的应用

SVM分类算法

决策树算法

决策树算法的原理

随机森林算法

随机森林算法与算法总结

DBScan密度聚类算法

LSH局部敏感Hash算法

ALS矩阵分解算法

Word2Vec词向量算法

TextRank算法

基于TextRank算法+TF-IDF算法提取关键词

第四篇：千亿流量高并发高可用分布式系统之框架/中间件底层原理剖析篇

剖析原理解读源码之Spring Core

Spring源码讲解1

Spring源码讲解2

剖析原理解读源码之SpringMVC

1、Springmvc的源码讲解1

2、Springmvc的源码讲解2

剖析原理解读源码之MyBatis

1、Mybatis源码讲解1

2、Mybatis源码讲解2

剖析原理解读源码之Tomcat

剖析原理解读源码之SpringBoot

1、springboot启动源码解析一

2、springboot启动源码解析二

3、springboot启动源码解析三

4、springboot自动装配源码解析

5、springboot与tomcat整合源码解析

剖析原理解读源码之SpringCloud核心

剖析原理解读源码之MQ

1、RocketMQ 源码分析 Consumer启动流程长轮询 ProcessQueue

2、RocketMQ 源码分析 MQClientInstance.start 任务调度

3、RocketMQ 刷盘机制源码分析 Broker启动流程源码分析

剖析原理解读源码之ELK

剖析原理解读源码之Netty

1、Java NIO 一

2、Java NIO 二

3、NIO之ByteBuffer

4、Netty 之NIO selector

5、 Netty之内存管理

6、 Netty之内存管理二

7、 NETTY小结

8、 Netty 内存管理

9、 Netty 内存管理

10、 Netty 内存管理

11、 Netty 启动原理

12、 Netty之channel原理一

13、 Netty编码器

14、 Netty总结

剖析原理解读源码之Hotspot

1、Hotspot虚拟机原理一

2、Hotspot虚拟机编译环境

3、spu解析优化

4、spu架构设计和优化

5、Sku 性能提升

6、Hotspot启动原理

7、Hotspot启动原理

8、Hotspot启动原理

剖析原理解读源码之Redis

剖析原理解读源码之Linux内核

剖析原理解读源码之MySQL

剖析原理解读源码之Ctrip携程Apollo

剖析原理解读源码之国内开源（待定）

国内开源框架鼻祖JFinal创始人谈：国产本地化开源项目设计之路

国内开源框架鼻祖JFinal作者谈：能与Mybatis比肩的ORM框架该如何设计

国内开源框架鼻祖JFinal作者谈：能与SpringMVC竞争的极简MVC框架该如何设计

国内开源框架鼻祖JFinal作者谈：性能超越Thymeleaf 50%的模板引擎核心架构

剖析原理之互联网核心

深入剖析互联网企业中对IPv4/IPV6的选择

Linux网络内核原理及线上生产调优

深入网卡驱动能否再将延迟降低1ms？

所有流量的入口：域名与DNS解析原理

Http协议原理与企业自定义网络协议实现

可控流量，防劫持HttpDNS架构原理

CDN架构师：如何构建一个可以支撑高并发、高可用、高吞吐量、低延迟的CDN云服务

第五篇：千亿流量高并发高可用分布式系统之总体设计篇

从单体到微服务系统架构

从单机到微服务架构演化

适用于创业型的单体应用如何做到快速开发快速交付

最小原型设计原则、小步快跑、可落地的敏捷开发

成本与风险之间的杠杆：企业到底该不该使用云服务

降低软件复杂性的原则和方法

如何把单体应用中的数据库和Tomcat、Jvm调优到极致

酒香也怕巷子深，互联网项目中如何使用Nginx、URLRewrite对百度Google做SEO优化

瞬间提供百倍并发，深度剖析淘宝动静分离架构

淘宝网初期对数据源的调优策略与热点缓存设计

淘宝初期数据库分库分表架构策略

使项目风险可控：从单元测试到持续集成、持续交付、持续测试的最佳实践

企业级集群化服务：如何正确预估服务用量和单节点服务器CPU、内存、网卡、网络带宽预算清单

集群化服务

企业级集群化服务：架构方案带来的生产环境中的痛点

企业级集群化服务：深度剖析几种负载均衡器底层原理与技术选型

用户权限会话在分布式系统高并发场景下的架构设计

微服务

微服务前生今世

微服务如何对大型项目解耦

如果让我设一套微服务框架，我该怎么做？

课程链接

从微服务到异构系统多级缓存系统架构

亿级流量介入层网关设计：拼多多高并发系统架构

高德地图如何支撑过亿日活：亿级流量接入层服务的演化之路

美团网：kubernetes容器化服务集群管理实战

美团网：高并发分布式ID生成终极方案

京东大前端日志系统架构设计与应用

在商业项目中模块/服务该如何拆分？服务拆分原则

传统项目该如何向微服务转型

语言异构：SpringCloud如何整合Go、php等语言做异构系统架构

消息异构：Kafka、RabbitMQ整合ESB、BUS，企业级消息总线统一化消息接口设计及组件

服务扩容

硬件与云服务扩容

水平扩容与系统拆分

自动化运维与弹性扩容

丢卒保车：可降级的弹性扩容方案

课程链接

服务降级

兜底数据加持保证友好型

服务的限流降级

服务超时降级

降级补偿重试/自动处理

降级开关在系统中的应用

数据组装降级

爬虫和机器人过滤

服务读降级

服务一致性降低写降级

富前端降级

web中的js降级

应用层降级 Hystrix

片段降级

提前预埋资源保证高可用

课程链接

分布式系统中的多库join该如何完成

超大型分布式系统架构设计

多地多活系统网络拓扑

跨机房网络专线降低系统延迟

全球化数据中心系统架构

异地数据延迟与数据一致性问题拆解

多租户平台化服务中的二级域名系统架构实现

亿级流量网关系统设计

从微服务到ServiceMesh

微服务的优缺点

多语言微服务带来的问题

微服务中重复开发多带来的问题

微服务中服务治理与业务逻辑的解耦合

跨语言解决服务治理的所有问题

ServiceMesh的哲学思考

ServiceMesh的落地实践之Istio

ServiceMesh的优缺点

ServiceMesh中的服务治理

从ServiceMesh到Serverless

ServiceMesh对于中小企业的不友好

屏蔽所有和业务无关的部分

突出前端弱化后端之BaaS

突出前端弱化后端之FaaS

数据的流动，纯粹的服务

分分合合从微服务到大中台

大中台由来之从SuperCell到阿里

大中台小前台的思维逻辑解读

大中台小前台思想在业务维度上的思考

大中台落地实践之业务中台

大中台落地实践之数据中台

大中台落地实践之算法中台

大中台落地实践之技术中台

大中台落地实践之组织中台

大中台哲学思考之组织创新

站到更高角度理解企业中台

第六篇：千亿流量高并发高可用分布式系统之网络基础设施建设篇

基础设施解决多机房全球同服问题

基础设施解决负载均衡问题

基础设施解决服务故障自动摘除自动发现

基础设施构建富媒体问题

DNS相关

私有DNS服务器搭建

实战部署HttpDNS与开发实践

课程链接

多级缓存资源静态化落地实战

CDN

CDN概述

CDN的动态加速

Google QUIC协议

CDN调度系统、负载均衡

CDN 统计、监控等管理系统开发

直播CDN实时通信的系统高可用架构和规划

CDN全链路压测、故障诊断、故障容灾、智能调度、弹性扩容与防攻击

CDN自动化运维平台

课程链接

番外篇：Nginx/Tengine玩儿很大

解读Nginx

解读淘宝网Tengine应用场景及环境部署

解读Openresty应用场景及环境部署

解读基于Nginx内核的开源产品级应用

解读Nginx原生版本

应用场景及环境部署

Nginx单节点与集群化部署

Nginx对比Apache Httpd、IIS、lighthttpd与技术选型

互联网企业级应用

虚拟主机

Nginx location 匹配规则与优先级

Nginx proxy_pass与反向代理

Nginx upstream 与负载均衡

Nginx负载均衡算法

Nginx负载均衡重试策略

Nginx多域名解析、泛域名解析

安全配置SSL、TLS与HTTPS

Nginx 日志收集与输出

Nginx Ip访问控制

Nginx 用户认证机制

Nginx自动索引

Nginx虚拟目录

底层原理

Nginx的进程、线程与CPU内核数

Nginx与操作系统文件描述符

Nginx单个进程最大连接数

Nginx对于http mime.types支持

Nginx编码类型支持

Nginx文件上传限制

nginx.pid

Nginx底层异步网络编程与SendFile

Nginx gzip动态数据压缩输出

Nginx响应Http请求内部流程

OpenResty 和 Nginx 如何分配和管理内存

LuaJIT GC64 模式

互联网高级应用

Nginx集群原理与搭建

Nginx 动静分离

动静性能对比与压力测试

nginx健康状态监控

CDN服务器 Nginx + squid-cache

http_proxy 本地磁盘缓存

Nginx 集群同步 remote synchronize

Nginx SSI 动态文件合并

TMPFS 磁盘文件内存化

Nginx对Http协议支持

Nginx下发 ETag 、Cache-Control、Last-Modified、Expires

Nginx对客户端缓存作用域配置 from disk cache & from memory cache

Nginx限流算法 limit_req_zone

Nginx限流算法 limit_req_conn

Nginx限流算法 ngx_http_limit_conn_module

Nginx限流算法 burst缓存处理

Nginx限流算法 nodelay降低排队时间

Nginx限流算法 ngx_http_limit_conn_module

Nginx限流算法之带宽限制

Nginx 服务降级

Nginx 本地DNS缓存

Nginx 内存监控

Nginx 整合 luajit

根据CPU数目设置进程个数和绑定CPU亲缘性

Nginx 对计算密集型应用调优

二次开发

Lua语言基础

Nginx 整合Lua开发

Nginx + Lua 高性能网关开发

Nginx lua-resty-mysql连接Mysql数据库

Nginx 模板引擎动态渲染resty.template

Nginx缓存 lua-resty-lrucache

Nginx缓存 lua_shared_dict

容器化开发docker-openresty

Nginx lua-resty-redis 直接访问Redis服务

Nginx redis2-nginx-module 直接访问Redis服务

Lua语言开发定向流量分发、一致性哈希负载均衡算法

Nginx lua-resty-http 对SpringCloud 微服务调用

Nginx lua代码预热与热加载

Nginx Lua 开发Waf软防火墙

l 防止 SQL 注入，本地包含，部分溢出，fuzzing 测试，XSS/SSRF 等 Web 攻击

l 防止 Apache Bench 之类压力测试工具的攻击

l 屏蔽常见的扫描黑客工具，扫描器

l 屏蔽图片附件类目录执行权限、防止 webshell 上传

l 支持 IP 白名单和黑名单功能，直接将黑名单的 IP 访问拒绝

l 支持 URL 白名单，将不需要过滤的 URL 进行定义

l 支持 User-Agent 的过滤、支持 CC 攻击防护、限制单个 URL 指定时间的访问次数

l 支持支持 Cookie 过滤，URL 与 URL 参数过滤

l 支持日志记录，将所有拒绝的操作，记录到日志中去

Nginx HTTP CONNECT 正向代理模式

Nginx 非阻塞异步OpenSSL

Nginx 主动监控检查

Nginx 会话保持

Nginx 动态解析upstream中出现的域名

Nginx proxy、memcached、fastcgi、scgi、uwsgi失败重试

课程链接

1 Tengine原理、对比、部署、配置、虚拟主机

2 Tengine 反向代理、负载均衡、 session共享等

3 Tengine 动静分离 https SSL 非对称加密

4 Nginx OpenSSL 自签名证书 xca FastDFS介绍

第七篇：千亿流量高并发高可用分布式系统之核心服务设计篇

分布式架构之网关层设计与落地详解

分布式网关之什么是网关？

分布式网关之为什么需要网关？

分布式网关之什么是流量网关与业务网关

分布式网关之网关职责该如何划分

分布式网关之主流网关开源项目介绍

开源网关应用API与底层源码分析

开源网关底层源码分析之Kong

课程链接

开源网关底层源码分析之zuul

课程链接

开源网关底层源码分析之gateway

开源网关底层源码分析之sentinel

网关服务定制开发

网关服务二次开发之自研Nginx + Lua 的高性能高可用网关服务

网关服务二次开发之网关服务二次开发之前置缓存双写一致性保障

网关服务二次开发之协议转换

网关服务二次开发之服务静态化实现方案

网关服务二次开发之前置缓存设计与实现

网关服务二次开发之高性能API网关底层原理与性能调优

网关服务二次开发之前置缓存预热

网关服务二次开发之前置缓存穿透终极解决方案

分布式网关架构设计

分布式系统网关限流前置与后端微服务限流原理与技术选型

分布式网关架构设计之带宽限流与请求限流算法

分布式网关架构设计之链路监控预警（邮件、钉钉..）

分布式网关架构设计之请求转发与后端服务负载均衡算法

分布式网关架构设计之动态路由与定向流量分发算法

分布式网关架构设计之高性能流量网关安全保障之WAF

分布式网关架构设计之鉴权session、JWT、CAS与Oauth2 应用场景与技术选型

分布式网关架构设计之高性能高可用亿级流量网关设计

分布式网关架构设计之亿级流量网关层日志收集与大数据风控预警

分布式网关架构设计之亿级流量网关扩容

分布式架构之业务层设计详解

业务层之一分钟定位问题，服务链路追踪大法

业务层之资源隔离防止服务雪崩

分布式微服务架构设计业务层拆分原则

业务层在整体架构中的定位

业务层之技术主导拆分策略

业务层之业务线主导拆分策略

业务层之模块化服务拆分策略

业务层之网络区域拆分策略

业务层之通用组件拆分策略

业务层之共享中间件拆分策略

业务层之服务闭环数据放置策略

业务层之冗余数据设计策略

业务层之SOA服务AKF拆分原则

分布式微服务业务层高可用高并发架构设计

高可用高并发之水平扩展（扩容）架构原则

高可用高并发之基于客户端的负载均衡设计

高可用高并发之服务可用性判定

高可用高并发之服务恢复算法

高可用高并发之1秒原则急速响应

高可用高并发之服务动态上下线

高可用高并发之服务弹性伸缩

高可用高并发之流量限制连接限制

高可用高并发之服务快速失败与Retry策略

高可用高并发之服务限流算法

分布式微服务业务层业务数据架构设计

业务数据之ORM框架日常开发

业务数据之CRUD前后端代码一键生成

业务数据之ELK站内搜索与数据分析

业务数据之NoSql数据库对象数据库图数据库商业应用场景与技术选型

业务数据之文档数据库列式数据库内存数据库商业应用场景与技术选型

业务数据之使用与互联网项目的分布式用户附件存储方案

业务数据之Mysql集群调优与SQL调优

业务数据之Mycat/Sharding数据库分库分表实现与生产调优

业务数据之冷热数据分离在美团网中的应用

业务数据之缓存无限前置提供急速响应

业务数据之写入请求数据双写一致性方案

业务数据之缓存防穿透终极解决方案

业务数据之如何解决缓存雪崩问题

业务数据之多级缓存设计与一直性问题解决方案

业务数据之闭环数据设计原则

业务数据之Cache Center 与闭环Cache设计原则

业务数据之数据访问快速失败与兜底数据设计

业务数据之接口报文级联编排

业务数据之接口报文设计

业务数据之神一样的CAP定理

业务数据之强一致性下的商业场景

业务数据之最终一致性下的商业场景

业务数据之使用消息中间件异步调用服务解耦

业务数据之课降级的持久化层架构设计

业务数据之日志风控预警大数据架构设计

业务数据之日志流量大数据分析预测

业务数据之千人千面用户画像分析实时推荐系统架构

业务数据之美团数仓架构设计

分布式微服务业务层服务治理架构设计

服务治理之状态实时上报网关

服务治理之服务注册与发现

服务治理之服务链路追踪

服务治理之监控中心预警

服务治理之熔断与恢复策略

服务治理之服务降级与兜底数据设计

服务治理之自动化运维与统一配置动态下发

服务治理之Config Center 与服务消息总线

服务治理之服务监控状态上报

第八篇：千亿流量高并发高可用分布式系统之核心服务设计 - 微服务全栈篇

微服务全家桶概述

Spring Cloud Netflix

单体应用向微服务异构平台架构演变

SpringCloud微服务组件生态体系 SpringCloud Netflix/Alibaba

从零开始构建微服务项目各组件应用场景及代码实现

Eureka 微服务注册与发现

Actuator 微服务监控

RestTemplate 服务器远程调用

Ribbon 客户端的负载均衡

OpenFeign 声明式服务调用

Hystrix 微服务熔断、降级、资源隔离

HystrixDashboard

Zuul 微服务网关

Config 微服务配置中心

Sleuth zipkin 微服务链路追踪

SpringCloud基本使用

- SpringData Jpa

- SpringData JDBC

- SpringData ES

- SpringData Solr

SpringData MangoDB

- SpringData Redis

- mybatis

模板引擎

ThymeLeaf

Enjoy

阿里架构师独家讲解SpringCloud Alibaba

SpringCloud Alibaba Sentinel

OpenFeign Support

RestTemplate Support

Dynamic Data Source Support

Alibaba Zuul 扩展

Spring Cloud Gateway

Sentinel Endpoint

Configuration

SpringCloud Alibaba Seata

Seata AT mode

Seata TCC Mode

SEATA Saga Mode

2PC 核心理论

TCC 模式核心理论

3PC 核心理论

柔性事务

刚性事务

分布式事务隔离机制

全局事务服务

SpringCloud Alibaba RocketMQ

Quick Start

Linux下使用Maven编译源码安装

各版本要求

RocketMQ个角色介绍

rocketmq-console编译安装

安装启动常见错误

#程序员英语# 官网首页中英讲解

应用场景

应用解耦

流量削峰

大数据处理

异构系统

RocketMQ 角色

broker

broker集群

producer

consumer

nameserver

为什么不用zookeeper？

nameserver特点

对比JSM中的Topic和Queue

Consumer Group 与 Producer Group概念

RocketMQ常用API

消息消费模式

集群消息

广播消息

消息发送

同步消息

异步消息

单向消息

批量消息发送

过滤

TAG

SQL表达式过滤

延迟消息

顺序消息

重试机制

broker投递

事务消息

RocketMQ运维

MQAdmin

性能测试

rocketmq-console

底层原理

源码分析

Broker

核心类

启动流程

消息存储机制

消息转发流程

心跳机制

Consumer

核心源码分析

注册过程

消息拉取模式

Nameserver

启动流程

存储机制

核心类

海量消息积压下消息负载均衡原理

push模式与pull模式？

消息存储机制

磁盘存储速度问题

零拷贝技术在RocketMQ中的应用

内存映射MappedByteBuffer

存储结构与服务源码分析

CommitLog内部结构

MappedFileQueue

MappedFile

ConsumerQueue

indexFile

config

consumerFilter.json

consumerOffset.json

delayOffset.json

subscriptionGroup.json

topics.json

刷盘机制源码分析

刷盘过程

同步刷盘

异步刷盘

配置选项

NameServer 源码分析

设计特点

心跳流程

集群部署

高吞吐、高并发、高可用集群

集群原理与实战

单Master模式

多Master模式

多Master多Slave模式（异步复制）

多Master多Slave模式（同步双写）

双主双从集群搭建

Topic中的Queue分布

手动创建topic

自动负载

RocketMQ4.6 新特性

主备切换故障转移模式

DLedger

RocketMQ SpringBoot 整合

RocketMQ 高薪面试FAQ

说说你们公司线上生产环境用的是什么消息中间件?

为什么要使用MQ？

多个mq如何选型？

RocketMQ由哪些角色组成，每个角色作用和特点是什么？

RocketMQ中的Topic和ActiveMQ有什么区别？

RocketMQ Broker中的消息被消费后会立即删除吗？

那么消息会堆积吗？什么时候清理过期消息？

RocketMQ消费模式有几种？

消费消息时使用的是push还是pull？

为什么要主动拉取消息而不使用事件监听方式？

说一说几种常见的消息同步机制？

broker如何处理拉取请求的？

RocketMQ如何做负载均衡？

producer端负载均衡策略

如何知道mqs的，mqs的数据从哪儿来？

consumer端消费流程

当消费负载均衡consumer和queue不对等的时候会发生什么？

平均分配

环形分配

负载均衡算法

如何应对消息丢失问题？

什么场景会造成消息丢失？

RocketMQ如何保证消息不丢失？

RocketMQ有没有消息重复消费问题？

什么场景下会产生重复消费？

如何避免？

顺序消费

如何让RocketMQ保证消息的顺序消费

你们线上业务用消息中间件的时候，是否需要保证消息的顺序性?

如果不需要保证消息顺序，为什么不需要?

假如我有一个场景要保证消息的顺序，你们应该如何保证?

应用场景是啥？

讲一下消息刷盘机制底层实现

RocketMQ消息存储在Broker的内存吗？

使用的是磁盘式存储消息吗？

为什么不在内存中存储？

这么设计是为什么？

磁盘存储如何保证高吞吐量？

rocketMq的消息堆积如何处理

下游消费系统如果宕机了，导致几百万条消息在消息中间件里积压，此时怎么处理?

你们线上是否遇到过消息积压的生产故障?如果没遇到过，你考虑一下如何应对?

如果consumer和queue不对等，上线了多台也在短时间内无法消费完堆积的消息怎么办？

堆积时间过长消息超时了？

堆积的消息会不会进死信队列？

你们用的是RocketMQ?那你说说RocketMQ的底层架构原理，磁盘上数据如何存储的，整体分布式架构是如何实现的?

零拷贝等技术是如何运用的?

你们用的是RocketMQ?RocketMQ很大的一个特点是对分布式事务的支持，你说说他在分布式事务支持这块机制的底层原理?

如果让你来动手实现一个分布式消息中间件，整体架构你会如何设计实现?

看过RocketMQ 的源码没有。如果看过，说说你对RocketMQ 源码的理解?

高吞吐量下如何优化生产者和消费者的性能?

再说说RocketMQ 是如何保证数据的高容错性的?

课程链接

1、RocketMQ 功能大纲消息中间件应用场景 linux的部署角色对比jms

2、RocketMQ 消息消费模式集群消息广播消息同步消息异步消息单向消息批量消息 TAG SQL表达式过滤

3、RocketMQ 分布式事务事务消息顺序消费重试机制

4、RocketMQ 源码分析 Consumer启动流程长轮询 ProcessQueue

5、RocketMQ 源码分析 MQClientInstance.start 任务调度

6、RocketMQ 刷盘机制源码分析 Broker启动流程源码分析

7、RocketMQ NameServer特点 NameServer启动流程消息路由之HeartBeat信息收集集群模式消息存储架构模型消息路由发现

8、RocketMQ 搭建高可用主从同步双写集群，基于raft 协议的 commitlog 存储库DLeger

9、RocketMQ 常见面试题，Topic分布、负载均衡

10、RocketMQ 面试总结 SpringBoot开发

11、DevOps Jenkins安装 maven git 整合

SpringCloud Alibaba Nacos

service registration

service discovery

Nacos Config

Nacos Discovery Endpoint

More Starter Configurations

Dynamic Configuration Udpates

Custom Namespaces

Custom Groups

Custom Data Id

Nacos Config Endpoint

Config AutoConfiguration

SpringCloud Alibaba Dubbo

Spring Cloud Distributed Configuration

Dubbo Configuration Center

Spring Cloud Native Registration Center

Dubbo Native Registration Center

Dubbo built-in implementation

Spring Cloud Hystrix

Alibaba Sentinel

Spring Cloud service call

Zipkin

opentracing

SpringCloud高级使用

客户端的负载均衡

Spring Cloud LoadBalancer

微服务的调用

OpenFeign

微服务网关

Spring Cloud Gateway

配置中心

Consul

web

响应式web Spring Reactive

什么是响应式web

异步调用 callback的本质

servlet3的异步

业务线程的异步

服务器推SSE实现

响应式和阻塞式的微服务

背压的概念

服务调用中的三种耦合

响应式中的流量控制

RXJava2

观察者模式同步与异步实现

Project Reactor 中的Flux、Mono

webflux

如何使用Netty作为web容器

基于注解的WebFlux阻塞式与响应式实现

WebFlux + SSE 服务器推

WebFlux中的ServerHttpRequest 与SpringMVC的区别

响应式数据库

MangoDB

Rest Repositories

使用 Spring HATEOAS 开发 REST 服务

Jersey

Spring Session

Spring WebService

权限

OAuth2

Security

注册中心

Alibaba Nacos

流量哨兵

Alibaba Sentinel

权限与单点登录设计

分布式事务

消息整合

- Spring For RabbitMq

- Spring For Kafka

- Spring For ActiveMQ

- RocketMQ整合

分布式锁

企业级消息总线

- Camel

- Bus

批处理

Spring Batch

动态验证

Spring validation

邮件

Mail Sender

任务调度

- Quartz Scheduler

- XXL-job

容器化

Docker容器化部署

Cloud Foundry和Kubernetes

链路追踪

Zipkin

监控运维

Actuator

Spring Cloud Admin

Admin健康检查邮件、钉钉群通知

课程链接

微服务下的持续集成

jenkins maven git 整合

sonarqube

增益篇：ServiceMesh理论与落地实战

为什么ServiceMesh在理念上优于MicroService

ServiceMesh之基础理论解析

ServiceMesh之技术选型

ServiceMesh实战落地之Istio

0 概述

service mesh介绍

service mesh简介

service mesh基本特性

什么是istio

istio使用场景

istio架构设计

数据平面

Sidecar（Envoy）

控制平面

Pilot

Mixer

Citadel

Galley

istio核心配置

1 快速入门

环境准备

部署istio

部署微服务

创建规则和路由

验证

请求过程的完整分析

常用命令及操作

2 流量管理

整体介绍

入口流量管理

路由

根据权重拆分流量

通信超时控制

故障重试

出口流量管理

金丝雀部署

A/B 测试

灰度发布

3 安全控制

Denier适配器

黑白名单

服务与身份认证

访问控制

安全加固

4 服务弹性

负载均衡

连接池

健康检查

熔断

超时

重试

限流

5 故障检测

指标收集

日志收集

链路追踪

指标可视化

故障排除

6 实战演练

制定目标

方案部署

测试验证

切换演练

试点上线

第九篇：千亿流量高并发高可用分布式系统之数据治理篇

数据生态技术栈

大数据简史&启蒙

课程链接

Hadoop生态之HDFS分布式存储原理

Hadoop生态之HDFS对计算层和其他存储层的支撑原理

1、hadoop-HDFS理论基础读写流程

2、hadoop-HDFS集群搭建-伪分布式模式

3、hadoop-HDFS集群搭建-HA模式概念

4、hadoop-HDFS集群搭建-HA模式验证

5、hadoop-HDFS权限、企业级搭建、idea+maven开发HDFS

Hadoop生态之MapReduce计算框架启蒙

1、hadoop-MapReduce原理精讲、轻松入门

2、hadoop-MapReduce调度原理，Yarn原理

3、hadoop-MapReduce-Yarn集群搭建、idea开发MR的WC程序

Hadoop生态之MapReduce计算框架源码深度分析

1、hadoop-MapReduce作业提交方式、源码-客户端提交源码

2、hadoop-MapReduce源码-MapTask-input源码精讲

3、hadoop-MapReduce源码-MapTask-output和ReduceTask精讲

4、hadoop-MapReduce开发-分组取TopN-API精炼

5、hadoop-MapReduce开发-推荐系统-大数据思维模式

Hadoop生态Yarn资源管理原理分析

Hadoop生态Yarn与计算框架整合实践分析

大数据交换之接入与导出分析

数据采集Flume&sqoop

Hadoop项目-Flume讲解及数据清洗模块准备工作

Hadoop项目-MR输出数据到mysql的输出格式化类、sqoop的简单介绍

大数据ETL实现分析

分布式数据库存储HBase

1、HBase架构介绍、数据模型

2、HBase伪分布式及完全分布式安装、HBase 基本命令

3、HBase Java API、Protocol Buffer简单介绍

4、HBase与MapReduce整合、Hbase表设计

5、Hbase优化及LSM树

数据管理与数据仓库概述

数据仓库Hive原理分析

1、Hive的架构介绍及远程数据库模式安装

2、Hive的远程元数据服务模式安装及Hive SQL

3、Hive Serde、HiveServer2、Hive函数

4、Hive参数设置、运行方式、动态分区、分桶

5、Hive视图、索引、权限管理

6、Hive优化、文件类型、HiveServer2高可用

数据仓库之元数据管理

分布式消息系统Kafka原理

课程链接

分布式消息系统Kafka对大数据计算框架的支撑

大数据Spark计算框架的深度剖析

1、scala语言、函数式编程、数据集处理、iterator设计模式实现

2、scala语言、流程控制、高级函数地址

3、scala语言、集合容器、iterator设计模式源码分析

4、scala语言、match、case class、implicitt、spark wordcount

5、spark-core、复习hadoop生态、梳理术语、hadoopRDD 源码分析

6、spark-core、wordcount案例源码分析、图解

7、spark-core、集合操作API、pvuv分析、RDD源码分析

8、spark-core、聚合计算API、combineByKey、分区调优

9、spark-core、二次排序、分组取TopN、算子综合应用

10、spark-core、集群框架图解、角色功能介绍、官网学习、搭建

11、spark-core、history服务、standaloneHA、资源调度参数

12、spark-core、基于yarn的集群搭建、配置、资源调度参数、优化jars

大数据Spark计算框架离线批量计算源码分析

13、spark-core-源码、RpcEnv、standaloneMaster启动分析

14、spark-core-源码、Worker启动、sparksubmit提交、Driver启动

15、spark-core-源码、Application注册、Executor资源申请

16、spark-core-源码、sparkContext、DAGScheduler、stage划分

17、spark-core-源码、TaskScheduler、Executor运行Task、SparkEnv

18、spark-core-源码、MemoryManager、BlockManager

19、spark-core-源码、Dependency、SortShuffleManager

20、spark-core-源码、SortShuffleWriter、内存缓冲区buffer1

21、spark-core-源码、SortShuffleWriter、内存缓冲区buffer2

22、spark-core-源码、UnsafeShuffleWriter、Tungsten、Unsafe、堆外

23、spark-core-源码、ShuffleReader、Tracker、Scheduler完整调度

24、spark-core-源码、RDD持久化、检查点、广播变量、累加器1

25、spark-core-源码、RDD持久化、检查点、广播变量、累加器2

大数据SparkSQL分析系统源码分析

大数据SQL分析总结

26、spark-sql、大数据中的SQL组成原理

27、spark-sql、datafram到dataset开发

28、spark-sql、整合hive的metastore搭建企业级数仓1

29、spark-sql、整合hive的metastore搭建企业级数仓2

30、spark-sql、复杂sql、函数、自定义函数、开窗over函数、OLAP

31、spark-sql-源码、sql解析、dataset到rdd的执行计划

32、spark-sql-源码、antlr4的sql解析、AST语法树的逻辑到物理转换

33、spark-sql-源码、逻辑计划、优化器、物理计划、转换RDD

大数据Spark计算框架流式计算框架源码分析

34、spark-streaming、流式计算之微批计算原理及standalone

35、spark-streaming、api、ha、检查点、窗口等机制

36、spark-streaming、整合MQ-kafka开发

37、spark-streaming、源码分析、流式微批任务的调度原理

38、spark-streaming

实时流式计算框架Flink原理剖析

Flink数据分析系统实践及源码分析

1、Flink初始及搭建集群环境

2、Flink基于Yarn多种启动方式

3、Flink运行架构及并行度设置

4、Flink各种算子精讲1

5、Flink各种算子精讲2

6、Flink各种算子精讲3

7、基本函数类及富函数的使用

8、Flink Checkpoint及SavePoint精讲

9、Flink Window窗口剖析1

10、Flink Window剖析2

11、Flink时间语义+Watermark

12、Flink Window剖析3

13、Flink Table API 编程

14、Flink SQL编程

15、Flink 复杂事件处理CEP

离线数据仓库概念

离线数据仓库之数据生成及采集

数据仓库理论与搭建

数据可视化

实时数据仓库搭建

实时数仓对BI的支持及可视化大屏实战

企业级数据平台解决方案

混合云中的数据管理和分析

企业级Edge管理

企业级数据交换管理，基于Apache Nifi

企业级数据实时分析管理

企业级数据流式处理管理

企业级数据仓库管理

企业级元数据管理

企业级数据治理管理

企业级产品介绍

Cloudera CDH

Cloudera Data Hub

Cloudera Data Warehouse

Aliyun Maxcompute

Aliyun Dataworks

Aliyun QuickBI

Aliyun DataV

Aliyun AnalyticDB

企业级实时分析数仓

上百亿规模快速查询

hadoop生态数据仓库的标准SQL实现

亚秒级大数据查询交互实现

实时数据流上简历秒级可见数据仓库

商业智能BI的支撑分析与实现

第十篇：千亿流量高并发高可用分布式系统之人工智能加成篇

数据融合模块

数据采集

flume分布式数据采集用户行为数据

数据迁移

sqoop增量数据导入

sqoop全量数据导入

构建画像模块

物品画像

一切能够刻画这个物品的数据都属于物品画像

节目描述信息提取关键词

1、TF-IDF指标

hive：keyword_idf表

hive：keyword_tf-idf表

节目基本属性

创作时间

上映时间

节目时长

.......

hive:program_profile表

用户画像

一切能够刻画这个用户的数据都属于用户画像

用户行为数据

历史浏览的节目的关键词

分值

浏览时间

衰减系数 1/(log(n)+1)

浏览时长

喜好分值

hbase:user_profile

rowkey:UserID

列簇

label

itemID

kw|score

info

province

city

用户基本属性

省份

城市

召回策略模块

内容召回策略

计算节目的相似度

节目向量化

tf-idf

Word2Vec

hive：tmp_keywprd_weight hbase：tmp_keywprd_weight

计算节目的相似性

KMeans算法

LSH局部敏感Hash算法

hbase:program_similar

rowkey：itemid

列簇

similar

itemid

score

基于用户历史浏览的节目召回相似的节目

hbase:recall:content,history_recall

行为召回策略

基于用户对节目的评分矩阵，采用LFM隐语义模型构建两个隐语义矩阵优化算法：ALS

hbase:recall:als,history_recall

热门召回策略

流式计算框架实时统计节目的热度

1、基于用户浏览时长计算出观看百分比

2、Redis hot+1

redis：Sorted Set类型

实时召回策略

实时计算

内容召回

hbase:recall:online,history_recall

多路召回

防止出现冷启动问题

增加推荐列表新颖性

防止信息茧房问题

排序模型模块ctr预估

构建训练集

基于所有用户的行为数据构建

反馈数据类型

显式用户反馈数据

特点：明确得知用户对物品的喜好程度评价系统

隐式用户反馈数据

特点：无法准备的得知用户对物品的喜好程度

用户画像

用户行为数据

用户基本属性

redis:构建用户画像部分的特征索引

物品画像

hbase:tmp_keyword_weight

hive:tmp_keyword_weight

label标签

0：不喜欢

1：喜欢

hbase:ctr_feature

算法：分类算法 SparkMLlib LogisticRegress

保存模型参数

Redis：model

key：index

value：weight

模型评估指标

混淆矩阵

正确率

准确率

召回率

F-measure

微服务模块

生产者

基于用户召回结果构建测试样本

特征索引

用户基本属性特征索引

用户行为数据部分

物品画像 hbase:tmp_keyword_weight

测试样本+model = 预测score

HashMap集合排序 TopN

消费者

AB Test模块

AB Test

基线桶

试验桶

AAB test

基线桶1

基线桶2

试验桶

Spark调优模块

代码调优

1、避免创建重复的RDD

2、尽可能复用同一个RDD

3、频繁使用的RDD 进行持久化

cache

persist

MEMORY_ONLY

MEMORY_ONLY_SER

MEMORY_AND_DISK

DISK相关的持久化策略以及带有_2的不要用

unpersist

4、尽可能多的使用广播变量

每个Executor一份

5、尽可能多的使用高性能算子

mapPartition

foreachPartition

reduceByKey

AggregateByKey

combineByKey

map都存在combine

mapPartitionWithIndex

数据倾斜的解决方案

1、提前预聚合

2、提高并行度

1、改变HDFS block个数

2、初始化RDD的时候，设置分区数

3、使用shuffle类算子的时候，设置并行度 reduceByKey join

4、spark.default.parallelism

conf.set("spark.default.parallelism","10")

spark-submit --conf spark.default.parallelism=10

全局：spark-default.conf配置文件

5、repartition coalesce

repartition(numPartition)=coalesce（numPartition,true）默认有shuffle，适合增加分区数

coalesce(numpartiton,isshuffle) 适合减少分区数

3、过滤掉导致数据倾斜的key

sample、wc、filter

4、双重reduce聚合

1、随机加前缀

2、第一次聚合

3、去掉前缀

4、第二次聚合

5、join 添加随机前缀+分拆RDD

筛选导致数据倾斜的key

分拆RDD

RDD添加N以内随机前缀

RDD扩容N倍

聚合

union

6、join 导致数据倾斜的key过多

全局加随机前缀，全局扩容N倍

数据本地化调优

本地化级别

PROCESS_LOCAL

NODE_LOCAL

task计算的数据在本节点的磁盘上

task计算的数据在本节点的其他的进程内存中

NO_PREF

RACK_LOCAL

ANY

调优

任务的流程

资源调优

资源调优是计算框架调优的根本

1、加大集群管理的资源Yarn standalone

注意点：核心支持超线程，一个core分配两个thread

SPARK_WORKER_CORES 48

2、增加Executor使用的资源

--executor-cores

--executor-memory

--total-executor-cores

3、提高任务的并行度

推荐系统落地实践

课程链接

1、推荐系统的来龙去脉与推荐架构

2、推荐系统架构设计及构建推荐系统训练集

3、推荐系统代码实现及测试

4、实现推荐系统在线推荐微服务

5、基于节目的推荐系统，架构剖析，数据迁移

6、提取节目的关键词，构建节目画像

7、基于TextRank算法+TF-IDF算法提取关键词

8、构建节目画像与用户画像

9、构建用户画像及性能调优

10、基于节目画像计算节目的相似度

11、Spark调优总结及word2vec算法原理

12、基于物品画像计算相似度

13、实现基于模型的召回策略

14、构建特征中心及模型召回实现

15、训练排序模型及搭建推荐系统微服务

16、推荐系统项目-大总结

第十一篇：千亿流量高并发高可用分布式系统之服务质量保障一（CI/CD）篇

持续集成CI/CD Gitlab/Jenkins

Maven / Gradle / Ant

课程链接

Git / Svn

课程链接

JIRA/禅道

Deploy: docker vagrant puppet chef ansible saltstack k8s Istio

课程链接

镜像仓库:Harbor

监控：ELK Zabbix Prometheus Grafana

代码检测SonarCube

灰度

第十二篇：千亿流量高并发高可用分布式系统之服务质量保障二（测试）

测试工作的发展方向

敏捷化

高度自动化

云化

服务化

模型化

智能化

传统测试与敏捷测试

测试开发实践

软件质量趋势

瀑布模式

课程链接

敏捷DevOps模式

课程链接

伪敏捷模式

课程链接

职业及技能规划

互联网测试开发技能要求分析

课程链接

不同阶段测试开发技能介绍

课程链接

常见测试开发职业误区

课程链接

测试开发实践

基于传统测试项目体验

课程链接

基于敏捷测试项目体验

课程链接

测试开发详解

详解1

环境及后续课程简介

课程链接

原型交互AxureRP简介

课程链接

HTML基础简介

课程链接

CSS与Js基础

课程链接

AJAX前后台交互

课程链接

Vue框架体系

课程链接

Windows窗体程序开发

课程链接

基于WPF的Hybird程序开发

课程链接

基于WPF的HTTP请求封装

课程链接

安卓APP架构Native开发原理

课程链接

详解2

安卓APP架构Hybird开发及前台开发总结

课程链接

Springboot基础

课程链接

RESTAPI后台开发

课程链接

mybatis数据库服务

课程链接

基于Rest的CURD服务开发

课程链接

基于Swagger2构建可视化的Rest接口服务说明

课程链接

分层体系

分层自动化体系1

单元测试基础理念

课程链接

junit5驱动和断言

课程链接

SpringbootTest

课程链接

Controller集成测试技术及jackson解析框

课程链接

Junit数据驱动

课程链接

mockito

课程链接

分层自动化体系 2

单元测试覆盖率基础

课程链接

onthefly动态覆盖率模式

课程链接

maventest测试执行及报告

课程链接

通过maven生成测试覆盖率报告

课程链接

Allure测试报告美化体系

课程链接

分层UI自动化体系1

WebDriver基础理念

课程链接

WebDriver浏览器启动及无头模式

课程链接

Xpath定位1

课程链接

Xpath定位2

课程链接

CSS定位

课程链接

单一对象和多对象的处理

课程链接

对象过滤及属性获取

课程链接

Vue的数据驱动测试脚本练习

课程链接

常见对象操作1

课程链接

常见对象操作2

课程链接

分层UI自动化体系 2

javascriptExecutor

课程链接

隐式等待及显示等待

课程链接

截图及封装

课程链接

日志体系

课程链接

Cookie管理

课程链接

PO基本概念

课程链接

PO框架开发

课程链接

SeleniumGrid分布式执行

课程链接

测试报告框架及美化

课程链接

代理模式Har性能解决方案

课程链接

分层UI自动化体系 3

分层UI自动化体系_cypress简介

课程链接

AppiumNative自动化

课程链接

AppiumHybird自动化

课程链接

微信小程序自动化

课程链接

分层接口自动化体系1

接口测试入门

课程链接

Fiddler基本入门

课程链接

Fiddler扩展断点体系

课程链接

Fiddler扩展挡板及脚本体系

课程链接

PostMan基础

课程链接

PostMan请求执行、断言

课程链接

PostMan场景开发

课程链接

PostMan场景监控

课程链接

Postman的MockSever使用

课程链接

Postman的持续集成

课程链接

分层接口自动化体系2

Jmeter接口速成

课程链接

单元测试工具

Junit5

TestNG

Mock工具

Mockito

Mock Server

测试开发落地之接口自动化框架

测试开发落地之UI自动化框架

测试开发落地之微服务测试

测试开发落地之大数据测试

走向测试架构师之构建测试框架

构建DevOps

构建测试Mock平台

第十三篇：千亿流量高并发高可用分布式系统之服务质量保障三（运维）篇

内核调优

/etc/sysctl.conf

安全

监控

高可用

lvs

nginx

keepalived

服务动态降级弹性扩容

openstack

k8s

docker

kvm

全链路追踪与监控

灰度发布

混合云运维

页面静态化与二级CDN建设

谷歌SRE模式

CMDB与应用配置管理

为什么阿里运维团队从200->2

从Ops->SRE->DevOps->AIOps->NoOps

第十四篇：千亿流量高并发高可用分布式系统之新技术与新趋势探索篇

架构演进背后的推动力是什么？

有没有银弹能够覆盖所有架构？

Serverless能否成为将来的中心热点？

随着算力越来越强架构有没有可能发生根本改变？

5G与IoT给架构设计带来了哪些创新与改进？

传说中的智能架构到底长什么样？

除了技术和业务架构最应该考虑什么？

有没有一种让我们跟随甚至引领架构的方法论？

第十五篇：技术人的哲学思考架构人的人生架构寻找财富自由之路寻找精神自由之路

架构人应该构建自己的人生架构

超越技术重新解读架构

丝般顺滑的架构人涨薪升职思考

重新定义什么是财富自由

技术人靠技术能不能达到财富自由

财富自由真的是我们人生的终极目标吗

出世是否是达到精神自由的唯一路线

到底有没有真正意义上的精神自由

科技与人类文明的哲学思考

其他人的成功路线到底于我们有什么启发

如何培养架构师的大局观

如何培养架构师的大格局与大视野

如何破局个人非连续成长

个人成长不断打造第二曲线方法论

一半技术，一半管理，从架构到技术团队管理

论架构师的自我修养

能落地的架构师才是真正的架构师