导图社区 报警与OKR
如今OKR更成为管理圈的热词,OKR理解起来非常简单,这是一篇关于报警与OKR的思维导图,希望能够带来帮助。
这是一篇关于故障发生的思维导图,主要内容包括:客户端异常,服务端异常请求耗时增加 服务状态码异常等。
社区模板帮助中心,点此进入>>
项目时间管理6大步骤
项目管理的五个步骤
电商部人员工作结构
暮尚正常运转导图
产品经理如何做好项目管理
车队管理
创业者10条创业经
创业十大思维误区
管培生课程作业
商业模型
故障发生
请求耗时增加
入口流量未增加
服务自身耗时
大量接口超时
发布,回滚
无发布
运维介入处理中间件问题
特定请求超时
查看上游请求
查看请求特征
中间件耗时
定位中间件
紧急扩容
限流
入口流量增长
服务扩容
运维参与资源水位评估
运维参与扩容状态
中间压力检测
DBA redis 带宽扩容
DBA Rds 限流
服务入口限流
nginx限流
rpc服务入口限流
服务状态码异常
499
客户端主动退出
确认uri
新增uri
客户端
修改超时
服务端
确认耗时原始
历史uri
后端自身耗时
扩容
下游服务耗时
转入下游处理
运维检查中间件异常
紧急扩容/切换处理
502
服务不可用
排查服务异常重启或挂掉原因
OOM
最近历史发布,回滚
无更新,调整jvm
中间件无法链接
服务负载
503
部分请求超时,无法链接后端
检查后端服务压力
确认问题原因
504
读取数据超时
检查是否有返回较大请求
运维接入中间件处理
慢查询,大key等
用户功能异常
检查更新
客户端提测新版本
服务器端兼容
未发布
定位问题接口
下游服务
下游服务介入处理
中间件
运维介入处理
定位数据是否异常
报警
故障
nginx错误码
慢查询
研发处理
可视化
处理方法
运维处理
子主题
case报警
预警
内存报警
cpu报警
负载报警
pod报警
阈值
合理报警阈值
初始阈值,不断调整
cpu
内存
绝对阈值
zk 堆积
binlog 延迟
不合理阈值
报警条数过多
无法引起业务重视
处理
报警合理
问题处理
可观测性
无发生
自愈
自动化
无法处理
减少报警
无法处理原因
报警不合理
调整阈值
去掉报警
总结
归因
业务问题
推动业务改造
调整上限
运维自身问题
解决问题
运维内部报警解决
思考
是否必要
研发是否能看懂
研发是否能够处理
OKR
目标
反复确认目标与自己的理解
我要做什么
怎么做
做到什么程度
过程
prd/项目计划
节点把控
结果
结果是否符合预期
结果给我带来了什么
结果给公司/团队带来了什么
工作
无期限
排查问题
时间优化
问题优化
日常需求
拒绝重复/抽象
研发内部闭环
有期限
专项/OKR
完成度
时间
延展
深度
技术深度
资源深度
个人提升
技能
能力
团队收益
个人时间
其他人时间
绩效
重要紧急
快
稳
2021
预期内
拆解OKR
基础环境改造
团队OKR
预期外
专项
ipv6
ipv4
多活
降本增效
安全
bugfix
问题
忙
为什么忙
重复较多
突发事情
为什么有很多事情插进来
队列
工作计划排期
项目计划排期
为什么故障这么多
姿势
梳理通盘
协作与支持
专业性
主动性
主动响应报警
主动发现问题
项目推动能力
进度把控力
推动能力
不缺
非常好