导图社区 问题快速诊断恢复
这是一篇关于故障发生的思维导图,主要内容包括:客户端异常,服务端异常请求耗时增加 服务状态码异常等。
如今OKR更成为管理圈的热词,OKR理解起来非常简单,这是一篇关于报警与OKR的思维导图,希望能够带来帮助。
社区模板帮助中心,点此进入>>
夏令营
2019商城活动时间表
部门规划
技术部门
项目经理管理培训
创业计划书经典案例
项目复盘的九步法
篮球大纲
调研事项
PPT统计图图像展示-职场工具报告
故障发生
客户端异常
检查更新
客户端提测新版本
服务器端兼容
静态资源问题
服务端异常
请求耗时增加
入口流量未增加
服务端耗时
大量接口超时
存在发布,立即回滚
无发布 APM 定位公共组件
特定请求超时
查看上游请求
查看请求特征
中间件耗时
定位中间件硬件问题
定位中间请求异常请求
定位中间与服务耦合问题
入口流量增长
服务扩容
运维参与资源水位评估
运维参与扩容状态
中间压力检测
mysql
如CPU打满,立即切换
确认本地盘空间,充足直接扩容
指定SQL限流/自动感知限流
活跃绘画数量/自动感知限流
redis
redis 带宽扩容
定位大key
业务降级
删key重建 + db限流
定位热key
上升proxy层面 (需要开启)
热key 较大,可考虑删除
mongodb
已被打满,控制台立即切换
云盘版本,快速扩容
阿里云快速扩容
Hbase
已被打满,控制台切换节点
Hbase扩容节点,数据需要迁移
ES
ES 停止协调节点
ES集群扩容 + 分片balance
ES恢复协调节点
服务自身限流
sentinel 自动限流
APM分析 + sentinel 部分接口限流
服务入口限流
nginx域名维度限流/重启完成服务/流量恢复
服务状态码异常
499 客户端主动退出
确认uri
新增uri
客户端
修改超时
服务端
确认耗时原始
历史uri
后端自身耗时
扩容
下游服务耗时
转入下游处理
运维检查中间件异常
紧急扩容/切换处理
502 服务不可用
排查服务异常重启或挂掉原因
OOM
最近历史发布,回滚
无更新,调整jvm
中间件无法链接
定位中间件
服务过载扩容
容器状态异常
服务发布过程中产生异常
node节点造成的服务异常
503 部分请求超时,请求繁忙
检查后端服务压力
确认问题原因
504 读取数据超时
检查是否有返回较大请求
限流
运维接入中间件处理
慢查询,大key等
定位中间件问题
mysql cpu/iops/活跃链接打满
主库 控制台主备切换
慢查询/活跃链接处理
redis 主备切换(控制台)
大key,热key定位(报警)
慢查询定位
慢查定位,大key定位
定位慢查询
增加查询节点