导图社区 IT系统运维建设规划
IT系统运维建设规划:运维体系:统分运维;1、明确统建系统和分建系统的清单和运维维护边界,针对统建系统进行集中运维管理;2、分建系统重点进行考核和督查管理。
信息安全架构建设能力集v1.0,具体有: 1安全建设考量 2安全团队建设 3安全治理 4安全风险管理 5安全规划 6安全技术体系 7安全工作知识技能 8业务安全与风控 9安全合规 10安全审计 11安全应急 12安全组织评价 13安全运营
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
统一运维
01组织保障
011运维管理组
运维管理人员
012运维工作组
7*24小时监控值班人员
应用运维人员
运维开发人员
数据库管理人员
技术支持人员
客户服务人员
安全策略/风险人员
013运维审计组
014运维执行组
运维工作体系建设,整体定义运维工作组织体系
02运维流程规范
021运维规范
022反馈问题机制
023协同机制
024奖惩考核
运维体系建设,人员,资源,安全,故障,变更,巡检,重保,监控,考核等多项定义运维管理规范,对所有业务系统进行指导和监督作用; 1、通过运维规范,明确各系统的工作机制,制定运维考核奖惩。 2、集中反馈问题机制,定义故障处理流程,发布运维流程制度; 3、建立应急协同机制;明确责任边界,针对系统、安全进行责任边界和划分和定义; 4、制定运维考核奖惩:对整体和各系统定义运维服务考核标准,定期对各系统进行考核的通报和晾晒;
03运维技术支撑
031平台工具
032稳定性保障
1、运维平台工具:将所有在线系统通过一体化平台进行集中化管理,实时展示所有的在线子系统实时运行情况展示,实时收集各子系统的每天系统运维状态和数据;将运维的数据数字化,透明化展示; 模块上整体大运维平台分为运维大屏展示、资源管理、用户管理、项目管理、审计管理、日志管理、工单管理、故障管理、安全管理、监控管理、考核管理、成本管理、文档管理、统计分析等 2、运维稳定性保障:定期对各子系统进行部署架构审查; 2.1、梳理各系统对内外接口调用关系, 2.2、提前发现和处理系统单点; 2.3、部署架构不合理,各系统内部之间复杂调用逻辑关系; 2.4、服务参数配置不合理,历史故障出现重点要修复等问题 2.5、定期对系统部署的监控覆盖范围,监控报警有效性,服务主动探测和埋点报警等报警进行审计和测试验证; 2.6、性能压力测试:定期对各子系统的性能指标进行压力测试和更新;对系统的降级限流进行审查测试和验证; 2.7、定期对核心系统的核心接口请求成功率的指标进行统计分析和管理; 2.8、用户满意度:针对小范围的报错信息进行集中治理,提升整体用户使用满意度;
04运维服务考核
041运维服务考核
042考核指标
稳定性
可用性
故障数(分等级)
故障时长(分等级)
可运维性
监控覆盖度
监控响应时长
可管理性
变更工单覆盖率
巡检覆盖率
安全
安全性
安全能力
安全检查覆盖度
安全监控覆盖度
安全隐患改进率
事件处理达标率
安全态势
安全事件数
防护成功数
高效
资源使用
资源平均利用率
资源最大利用率
服务考核建设:即整体根据各系统场景,制定运维考核细则,定期考核通报,晾晒;考核成绩约谈,奖惩进行管理; 核心定义服务考核指标,稳定,安全,搞笑
运维体系:统分运维; 1、明确统建系统和分建系统的清单和运维维护边界,针对统建系统进行集中运维管理; 2、分建系统重点进行考核和督查管理 整体系统依靠一个完整的运维体系来报障整体的稳定运行;
运维
事前
稳定性审查
安全风险审查
服务定期巡检上报
服务配置进行标准统一
重大/重保系统服务资源保障
事中
1、故障报警的接手和判断,对故障进行应急处置 2、对多业务关联的进行协同应急; 3、故障过程中定期通告和升级;
事后
1、故障复盘,故障具体原因进行分析 2、提出临时或长期解决方案 3、并对故障原因和解决方案全系统排查和清理, 避免二次相同故障发生 4、对故障按照等级进行故障定级和责任划分,最后输出完整故障报告;