导图社区 监控体系
IT运维监控体系梳理,涵盖监控工具及IT服务体系梳理。
社区模板帮助中心,点此进入>>
互联网9大思维
安全教育的重要性
组织架构-单商户商城webAPP 思维导图。
个人日常活动安排思维导图
域控上线
西游记主要人物性格分析
17种头脑风暴法
python思维导图
css
CSS
监控体系
采集
定义监控项
用户层
SDK,ROM
H5
页面响应延迟
页面加载情况
页面按钮功能
APP
APP功能
APP页面
应用层(服务状态,服务功能)
内部服务
加速服务
中心服务
数据中心服务
外部服务
CDN
域名
支付
SLB
DNS
业务层
加速效果监控
用户行为监控
数据中心
用户数据监控
系统层
硬件
操作系统
cpu、mem、net、limit、disk、内核等
安全漏洞
挖矿
DDOS攻击
CC攻击
网络层
机房连通性
节点连通性
防火墙配置
路由规则
基础服务层
TB、git、svn、钉钉、Jenkins、跳板机
定义采集频率
基础指标
自定义监控项
采集频率不影响监控工具性能
告警级别决定告警频率
监控项的重要性
监控数据
数据存储
数据存储周期≥1年
history,trends等表创建表分区
关闭housekeeping,提升mysql性能,降低服务端耗能
数据展示
按类别展示
区域
集群
机房
地区
供应商
功能
配置大屏,地图
大屏展示重点游戏的服务情况
大屏展示告警信息以及告警处理进度
地图展示节点网络连通性
数据分析
告警处理结果复盘,总结优化告警,编写告警维护文档,实时更新告警处理方法。
监控数据分析,可以实现机器学习,达到故障分析,故障定位,自动处理告警,容量预测,实现自动缩容和扩容等功能。
数据来源
服务日志
采集接口信息(http状态码)
采集不同级别日志
服务异常日志
服务正常日志
配置文件
根据配置库定义的服务配置,扫描服务配置文件,确认配置的准确性
根据配置库定的系统配置,扫描系统配置文件,确认配置的准确性
服务接口模拟
接口请求状态
接口请求耗时
接口功能是否实现,功能性的验证
操作系统信息
监控指标
延迟
响应延迟
流量
系统、地域、机房、单机
错误
异常类
日志报错
接口异常
代码抛出错误
饱和度
性能
利用率
os的使用指标
存活
服务
进程
端口
SLA
服务的可用性
趋势
未来
机器学习
告警
阈值
数值比较与查找、数值的计算
最新的值
比较大小
最近时间范围内
最大值
最小值
平均值
总和
绝对值
最近时间范围内超过阈值的个数
最近时间范围内的波动(涨幅、跌幅)
max-min(最大值与最小值的差)
last-pre(当前值和上一个值比较)
特定时间范围内,本期与上期的平均值,最大值,最小值的波动比较(同比,环比)
日志
日志等级
日志来源
字符串
正则匹配
API
字符串匹配
其他(二进制文件校验MD5值、文件内容)
字符串长度
时间
时间比对
趋势预测
在指定的一段时间内,取出百分线数值。比如网络带宽流量,在某段时间内会有毛刺,去掉最高的几个值,计算出次高的值。
预测监控指标未来的最大值、最小值、增量值或平均值,用于评估从现在开始到未来一段时间内的数值变化情况。
监控指标达到设定的阈值所需要的时间(以秒为单位)。
分级、分类
告警等级
灾难
严重
重要
一般
警告
告警压缩
告警条件(超过阈值)
同类型告警合并一条
同一故障影响的整个告警链合并一条
告警通知
通知人员
研发负责人
运维负责人
操作人
通知方式
钉钉
大屏幕
邮件
微信
短信
电话
告警处理
责任人
处理人
处理进度
处理时间
处理结果
告警分析
告警报表
告警总结
监控工具
维度
存储
统计、分析
展示
扩展性
可用性
备选工具
综合工具
Zabbix
MongoDB Manager
Ganglia
Open Falcon
Prometheus
InfluxDB
elasticsearch
grafana
告警工具
脚本
日志监控
splunk
端到端监控
skynet
其他工具
udp_echo
APM
对接其他平台
流程管理平台
数据展现平台
自动化操作平台
数据分析平台
配置管理数据库