导图社区 软件系统故障模式库
软件系统典型故障模式库,千万不要错过,虽然希望不要有任何故障但还是以防万一,此导图详细的介绍了站点级故障,本地硬件/网络故障以及软件故障,同时含有注意事项
编辑于2022-06-24 14:33:29软件系统故障模式库
站点级故障
远端系统
远端系统与本地系统连接中断,本地系统无法调用远端系统接口
北向
南向
同层级
本地IDC系统
电源类
正常情况下,IDC类机房需配备独立双路供电,UPS电源
本地站点发生全部供电电源及UPS供电中断故障
本地站点发生主备电源线路切换故障
本地站点发生双路供电电源中断故障,UPS供电启动
机房内配电柜故障下线
网络故障
网络需考虑Internet,本地机房对外,本地机房内部,不同业务网段的故障
本地站点机房对外网络全部发生事故中断
对外核心路由器/交换机故障
对外防火墙故障
对外网关服务器故障
本地站点机房内部网络全部发生事故中断
内部网络核心路由器/交换机故障
内部网关服务器故障
DHCP
本地网络DHCP服务器故障下线
本地网络DHCP内地址信息丢失
本地网络内被启动多DHCP服务器
DNS
本地网络DNS服务器故障下线
本地网络DNS服务内域名列表异常丢失
本地网络内被启动多DNS服务器
本地机房不同业务网段单网段发生网络中断故障
管理网段
业务数据网段
数据备份网段
。。。
网段故障测试需要根据实际业务部署情况进行
通用网络故障
应根据实际网络情况和业务特性选择故障模式 网络故障可以不考虑整站故障
网络闪断
单次闪断时间
500ms
1s
。。。
闪断发生周期
3s
10s
。。。
闪断持续过程
1min
5min
。。。
故障模式的选择需要根据实际业务情况进行,根据业务通信周期和单次通信耗时选取故障参数
网络丢包
丢包率5%,10%
通常要求保证丢包率在10%以下不影响通信,或具备错误报文识别和重发能力
网络拥塞
网络速度
100Mbps
10Mbps
1Mbps
128Kbps
8Kbps
持续时间
30min
5min
1min
周期性
故障发生轮次
故障间隔周期
exp: 网络故障发生拥塞,网速仅剩10Mbps,持续1分钟后恢复正常,每3分钟发生一次,持续10次
网络拥塞测试过程重点观察因网络拥塞后导致业务数据堆积的情况
网络包延迟
网络包从发送端发出后发生到达接收端发生延迟
延迟量
500ms
1s
1min
。。。
网络包乱序
乱序比例
5%
。。。
机房内交换机出现短接
本地站点可用区(AZ )
高可靠可用部署方案通常采取同IDC中心,双/多机房双/多可用区方式,负载均衡类服务在各可用区均部署,避免一地故障影响全局
可用区1整区故障下线
可用区2整区故障下线
可用区网络故障参见:
可用区间网络通信中断,其余网络均可正常服务
理论上可用区失能测试需要对每个可用区均进行一次测试
NTP Server故障
整套系统应当使用同一个时间源,若因网络需要多时间源,应有唯一的根时间源
NTP根服务器故障下线,故障持续一个以上时间同步周期
NTP根服务器时间发生跳变
跳变范围
分钟
小时
天
月
年
常规测试方法为进行 1天3小时15分的跳变进行观察
跳变维度
时钟向左
向左跳变即为向历史时间跳变
时钟向右
向右跳变即为向未来时间跳变
多次跳变
基础测试一次跳变,极端情况可测试每次时间同步后均发生时间跳变
NTP根服务器故障后,各服务器时间不一致
单台关键服务器时间与其他服务器时间不一致
例如数据库主服务器
多台服务器时间均不一致
时间差根据业务特性决定,例如数据同步周期等
其他故障
仅做参考
机房温度过高
机房温度过低
配电柜管理模块被拆除
灾备系统
灾备系统组网应与业务组网隔离,对业务生产系统低侵入
备份系统
备份系统故障下线
一个备份周期间隔内故障恢复
多个备份周期均未恢复,备份数据产生数据量积压
全量备份过程中发生故障
增量备份过程中发生故障
备份数据恢复过程中发生故障
备份过程中发生网络故障
网络中断
一个备份周期间隔内故障恢复
多个备份周期均未恢复,备份数据产生数据量积压
全量备份过程中发生故障
增量备份过程中发生故障
备份数据恢复过程中发生故障
网络丢包
网络闪断
网络拥塞
需要考虑右侧场景
全量备份过程中发生故障
增量备份过程中发生故障
备份数据恢复过程中发生故障
备份系统资源不足
CPU占用率高
内存占用率高
硬盘无可用空间
硬盘IO过低
备份系统服务进程故障
进程异常退出
进程挂起
进程异常状态
T
D
Z
需要考虑右侧场景
全量备份过程中发生故障
增量备份过程中发生故障
备份数据恢复过程中发生故障
备份系统数据异常
备份数据发生丢失
增量备份周期维度丢失
全量丢失
备份数据被异常复写
增量备份周期维度复写
全量复写
例如使用1周前的备份文件将昨天的备份文件复写掉 同时需要考虑文件复写检测和复写成功后执行恢复操作的故障影响
本地主备系统
主站系统故障下线
备站系统故障下线
主备站点网络故障
具体网络故障参见,这里仅基于网络用途进行描述:
主备站点间心跳检测网络故障
主备站点间数据同步网络故障
其他用途网络故障
包含故障模式
主站侧故障
备站侧故障
主备站均故障
主备站点间NTP服务器时间不一致
站点级故障仅考虑NTP服务器导致的时间不一致
主备系统间数据异常
主系统内数据发生异常丢失
备系统内数据发生异常丢失
主系统内数据被强制复写
备系统内数据被强制复写
主备系统数据同步机制被破坏
异地容灾系统
后面再写
异地主备系统
异地多活系统
云化系统
云化系统站点级故障仅考虑可用区类,其余故障在软件故障下分解
可用区(AZ )
可用区1整区故障下线
可用区2整区故障下线
理论上可用区失能测试需要对每个可用区均进行一次测试
Iaas层管理平面故障
Iaas层数据平面故障
Paas管理平面
Paas数据平面
监控系统
监控系统应当独立于业务生产系统运行,不依赖,不干扰,不侵入
监控系统故障下线导致失能
监控层网络故障无法联通生产系统
本地硬件/网路故障
机柜级故障
硬件物理层
机柜降温风扇故障
电源故障
机柜整柜断电
机柜主路电源中断
机柜备路电源中断
机柜主电源闪断一次
机柜网络故障
故障模式需要根据接入的网络用途进行区分测试,例如管理平面,业务平面,灾备平面等,这里仅对物理因素导致的故障描述
交换机故障下电
交换机出现网口短接
不同网络平面交换机被混接
交换机WAN口脱线
服务器级故障
实际测试应考虑服务器具体用途后进行SFMEA后决定测试内容
电源故障
服务器供电中断
服务器主路电源中断
服务器备路电源中断
服务器供电闪断一次
服务器硬件故障
热插拔硬盘故障
RAID0 控制盘被拔出后重新插入
任意RAID组成盘被拔出后重新插入
RAID0 控制盘被拔出后重新插入空白盘
任意RAID组成盘被拔出后重新插入空白盘
磁盘无法读写
服务器温度过高
服务器散热风扇被拔出
服务器开关被长按
服务器开关被连续高频短按20次
服务器可热插拔组件被进行热插拔操作
服务器网络故障
其他网络问题由软件层面进行覆盖
网卡网线被拔出
网卡网线被拔出后,被插入错误网络网线
其他故障
服务器连接磁阵光纤线被拔出
软件故障
云化系统内部软件故障采用相同模式库,需基于业务使用的维度进行SFMEA设计
服务使用网络故障
网络闪断
单次闪断时间
500ms
1s
。。。
闪断发生周期
3s
10s
。。。
闪断持续过程
1min
5min
。。。
故障模式的选择需要根据实际业务情况进行,根据业务通信周期和单次通信耗时选取故障参数
网络丢包
丢包率5%,10%
通常要求保证丢包率在10%以下不影响通信,或具备错误报文识别和重发能力
网络拥塞
网络速度
100Mbps
10Mbps
1Mbps
128Kbps
8Kbps
持续时间
30min
5min
1min
周期性
故障发生轮次
故障间隔周期
exp: 网络故障发生拥塞,网速仅剩10Mbps,持续1分钟后恢复正常,每3分钟发生一次,持续10次
网络拥塞测试过程重点观察因网络拥塞后导致业务数据堆积的情况
网络包延迟
网络包从发送端发出后发生到达接收端发生延迟
延迟量
500ms
1s
1min
。。。
网络包乱序
乱序比例
5%
。。。
基础资源故障
CPU占用率100%
内存占用率100%
文件句柄数占用100%
磁盘空间占用100%
CPU占用率超过告警阈值
内存占用率超过告警阈值
文件句柄数占用超过告警阈值
磁盘空间占用超过告警阈值
文件系统只读状态,无法写入
文件系统无法读写
根据软件或服务运行的维度考虑,PM,VM,容器实例
服务实例故障
服务进程故障
进程异常退出
进程异常状态
进程挂起
T
D
Z
服务实例启动失败
服务实例启动程序被反复调用
服务实例被非管理系统重启(系统后台命令行直接重启或直接使用底层命令重启)
JAVA进程
高频FullGC动作
OldSpace高位无回收
服务可用资源
服务会话连接数量超过告警阈值
服务会话连接数量满
服务所依赖其他服务连接池满,本服务无法申请到连接资源
分配给服务的计算资源超过告警阈值
分配给服务的计算资源耗尽
分配给服务的计算资源不足或服务无法申请到资源
服务使用存储空间超过告警阈值
服务使用存储空间耗尽
服务集群故障
主从服务
集群服务Leader节点异常下线
集群服务Slave节点异常下线一个节点
集群服务Slave节点异常下线全量节点
主从发生非正常切换
主从服务间心跳检测异常
服务全量下线后,仅一个服务节点启动
服务全量下线后,重新启动
服务重载状态,新增服务节点进行垂直扩容
服务重载状态,增加服务可调用资源进行水平扩容
主备服务
主服务异常下线
备服务异常下线
主备服务间心跳检测异常
备服务启动时主服务未启动
主服务启动后,备服务长时间未启动
服务全量下线后,重新启动
服务重载状态,对服务进行水平扩容
负载均衡服务
服务单节点下线
服务半数节点下线(配合AZ故障)
服务全量下线后,重新启动
负载均衡接口,逐个节点发生重启动作
服务重载状态,增加服务可调用资源进行水平扩容
包括不限于应用程序的进程,docker实例进程,VM实例进程,服务进程看护程序等
需要对各层级进行区分
Iaas层故障
Iaas管理平面
Iaas数据平面
Paas层故障
Paas管理平面
Paas数据平面
Saas层故障
子主题
服务自身故障
需要注意所有故障都需要关注故障恢复
!!注意所有的故障都要考虑故障发生持续时间;故障持续时间可能产生不同的结果,常规故障持续时间为1分钟,5分钟,30分钟。。。根据测试需要和模拟的故障场景进行选择