导图社区 故障处理思维导图
一张思维导图带了解故障处理,包括FusionCloud故障处理、FusionAccess故障处理两个板块,希望梳理的内容对你有所帮助!
编辑于2021-10-05 17:57:09故障处理
FusionCloud故障处理
Nova服务异常处理思路
主机系统故障
处理主机故障
组件故障
处理故障组件
时间不同步
同步时间
进程卡死或不写心跳
手动重启服务
打开存储多路径开关,没有安装多路径软件
安装存储多路径软件
Rabbitmq连接异常或者消息队列占满
修复 rabbitmq服务r根据告警台的73401告警,进行告警处理
Nova依赖的组件故障
根据日志中具体报错,修复依赖服务参照其他组件故障的修复方法修复
cinder相关进程挂死处理思路
1、卷及快照相关操作无响应
2、CPS命令检查 cindere组件状态正常无告警产生
3、使用 cinder service-list查询服务正常
4、检查 cinder- volume日志无更新
5、重启 cinder- volume进程
Cinder-volume异常处理思路
存储管理平面网络异常
用ping、SSH、Telnet检查网络是否异常
后端存储配置错误(人为修改)
存储设备资源&RAID配置检查
Cinder-volume节点时间不一致
时间同步
Cinder-volume启动脚本执行异常
多路径软件包安装
多路径开关配置
创建虚拟机故障点
服务异常
Nova服务异常
Cinder服务异常
Neutron服务异常
其他服务异常
网络问题
网络配置错误
Neutron组件异常
存储问题
存储对接失败
资源不足
存储网络配置错误
其它问题
flavor问题
rabbitmq服务异常
可以分区...
FusionAccess故障处理
若干台虚拟机登录时卡在启动界面
说明无法正常登录虚拟机
假如该阅览室有100台云桌面,10台卡在登录界面属于小范围故障。假设这10台都在一个CNA中,可能是该CNA出现了故障。
如果不是,则需要在CNA上查看是否有误操作,如虚拟机关机,虚拟机端口组修改了,虚拟机正在迁移等状况,通过VNC查看虚拟机IP地址是否被修改,在DHCP服务器中IP地址是否已分配超额。
在ITA服务器中查看各组件状态,如ITA,HDC,DB等组件的状况,并且确定WI到HDC,HDC 到DB的网络状态,客户端到HDA的网络状态。查看ITA中这些虚拟机分配状态,是否是正常的,有可能发放失败,重启虚拟机后再次查看连接是否正常。虚拟机模板是否正常,也可能是这些虚拟机对接的链接克隆模板制作有问题。
可能是和license不够造成的虚拟机无法登录,去license服务器查看license是否充足。
假如有100台云桌面,90台无法登录,属于大规模故障,此时除以上排查方法外,还需要排查物理硬件故障,如检查交换机线缆或存储的线缆是否松动,也可能是CNA集群故障,物理服务器故障,存储故障,网络故障等,需登录相关平台查看是否有告警提示,进行相应排查。
某台完整复制虚拟机不见了
虚拟机不见了说明获取虚拟机列表失败
可能是网络故障,查看WI到HDC,HDC到DB之间的网络状态,通过ping命令检查网络连通性
HDC组件或GuassDB故障,去ITA服务器上查看HDC和GuassDB组件状态,可以在业务不忙时重启ITA服务器
可能是发放失败,去ITA中查看这台虚拟机的发放状态
也可能是发放给该用户的虚拟机被收回,尝试再次给该用户分配虚拟机
4000个云桌面,其中有100个云桌面突然无法登录
属于大规模故障
可能是ITA上的组件异常,可以查看ITA上的告警以及在状态监控中查看各服务是否正常,如果组件异常可以尝试重启该组件或重启ITA服务器
可能是这100台虚拟机所在的CNA出现故障, 上行链路断开,虚拟机化存储故障,交换机出现异常等。尝试重启这些虚拟机所在的CNA主机,如果无法重启等待HA机制,这些虚拟机迁移到其他主机上开机后再次尝试登录。可以去查看FC平台上的告警,检查服务器网口和交换机网口,如果是光纤接口需要查看光纤模块状态,检查存储是否故障。
可能是DHCP地址池的IP地址被分配完了,可以增加新的地址池再次尝试。
可能是这些虚拟机所属的用户或用户组被误删除,去AD服务器查看用户或用户组是否正常,重新添加同样的的用户或用户组即可
可能是物理硬件故障,比如交换机或存储的线缆松动,可以去机房排查硬件是否故障,如果在检查故障的时候,发现其中其他设备故障,有相关告警,这个时候可以将正常的设备与故障设备的配置进行对比,看是不是由于配置改变导致的故障。
虚拟机列表里的虚拟机图标是灰色的
可能是虚拟机与HDC服务器网络不通,可以排查网络(物理链路、ping、ipconfig、route、dns、vlan)
虚拟机状态没有报到HDC里,(1)排查网络(2)尝试再次登录
虚拟机不是运行中,在WI点击虚拟机后,等待一段时间,待HDC拉起虚拟机后再登录
虚拟机内部AccessAgent状态异常,(1)自主维护台登入虚拟机,使用自检工具“一键修复”后重试(2)重启虚拟机后重试(3)重新卸载安装AccessAgent
虚拟机为蓝色,但是连不上怎么排错
1.有VAG的情况:VAG故障,客户端到VAG,VAG到HDC,HDC-HDA之间网络异常
2.无VAG情况:客户端-HDA之间网络异常
3.license不足
4.客户端安装不正确
桌面云发放虚拟机失败
(1)网络问题,各组件通信故障,尝试在ITA上去ping通所有基础组件虚拟机包括ping通FusionCompute。也可能是虚拟机网络故障,由于DHCP问题(包括但不限于DHCP故障,DHCP地址池分配完全等)导致虚拟机未能正常获取IP地址,虚拟机模板网卡驱动未能成功加载(在虚拟机模板安装VMtools时会安装网卡驱动)发放时若选择手动配置IP地址,手动配置错误,发放端口组选择错误时。
(2)桌面云组件故障,可能是ITA接口故障,对接VRM失败导致创建的消息未能及时发送到虚拟机,HDC故障后导致后续注册失败,DB故障也可能导致注册失败,模板中HDA故障导致未能正常发放。
(3)FusionCompute及其他组件故障,可能是VRM故障导致与ITA对接失败,CNA故障导致创建虚拟机失败,FC集群资源不足,AD故障加域或验证域失败,DHCP故障导致虚拟机未能正常获取虚拟机IP地址。DNS故障导致虚拟机加域失败
(4)基础组件对接问题,检查数据库连接、VAG/VLB连接、AD连接、HDC连接等
(5)可能各个组件之间或虚拟机模板的时间不一致导致的,去对应服务器或虚拟机模板查看时间调整到一致
用户通知我桌面登录不了,排错
1、确认版本配套:客户端AccessClient版本与虚拟机AccessAgent版本是否匹配;然后浏览器是否为兼容版本;
2、工具自检:使用自助维护网关登录虚拟机,使用连接自检工具进行一键检查,一般能看出故障点,点击一键修复;如果还是无法修复,就强制重启虚拟机,查看重启后的状态;如果还是解决不了故障,则使用日志收集工具收集日志,查看是否有明显error报错;
3、检查基础架构虚拟机服务状态:在ITA虚拟机中查看告警以及状态监控中查看各服务是否正常;在Linux基础架构服务器中(HA,WI,HDC,DB,vAG,vLB,License)中敲startTools打开工具菜单,在界面选择status,查看本地服务状态;在windows服务器中(AD,DNS,DHCP,ITA)中点击win+r运行,输入services.msc,查看相关服务是否正常启动;
4、模块日志分析:根据问题现象,首先使用工具或者查阅错误码处理知道,6XXXX一般是HDP Client故障;40XXX一般是HDA故障;41XXX一般是WI故障;1XXXX一般是ITA组件故障。
虚拟机蓝屏故障
1)登录fusioncompute管理界面,在虚拟机和模板选项中找到该虚拟机,在右侧操作选项里选择强制重启,虚拟机是否可以正常进入操作系统
2)强制重启虚拟机后,通过VNC窗口登录虚拟机。在虚拟机刚启动出现启动菜单时,按“F8”键,进入“高级启动选项”菜单,如图1所示,选择“最后一次的正确配置(高级)”启动操作系统,是否可以正常进入操作系统。
3)挂载ISO修复系统,修复后是否可以正常进入系统。本地准备修复系统时所需的对应ISO文件,选用的ISO文件最好是制作虚拟镜像时使用的ISO。如果无法找到镜像制作时使用的ISO,也可以使用相同操作系统版本的ISO文件。
分支主题 3
任务中心的错误提示査看系统告警按告警帮助步骤处理查看 Fusion Sphere日志搜索日志关键错误根据日志提示处理