城市数字平台

  重新定义城市信息基础设施,赋能城市数字化转型

华为RH2288H V3 Vmware紫屏如何处理?

2019-08-06 10:51:14   

RH2288HV5机架服务器.jpg
客户在使用华为RH2288H V3服务器配置Qlogic FC HBA卡,运行Esxi6.0u3系统存在FC HBA卡链路闪断,导致存储LUN断开或紫屏

 处理过程

1、OS主机日志文件vmkernel中存在qlnativefc驱动打印如下错误。
 
2017-08-09T05:12:38.068Z cpu44:77853)WARNING: qlnativefc: vmhba2(44:0.0): Timeout: Max mbx wait reached.
2017-08-09T05:12:38.068Z cpu44:77853)WARNING: qlnativefc: vmhba2(44:0.0): Mailbox command 0x54 timeout occurred. Issuing ISP abort.
2017-08-09T05:12:38.068Z cpu44:77853)WARNING: qlnativefc: vmhba2(44:0.0): Firmware has been previously dumped (0x4307cc8f3000) -- ignoring request...
2017-08-09T05:12:38.068Z cpu44:77853)qlnativefc: vmhba2(44:0.0): Inside qlnativefcAbortIsp
2017-08-09T05:12:38.068Z cpu44:77853)qlnativefc: vmhba2(44:0.0): Performing ISP error recovery - ha= 0x4307d3a6dc20.
2017-08-09T05:13:08.070Z cpu88:140078)WARNING: qlnativefc: vmhba2(44:0.0): Timeout: Max mbx wait reached.
2017-08-09T05:13:08.080Z cpu37:77853)qlnativefc: vmhba2(44:0.0): FW: Loading via request-firmware...
2017-08-09T05:13:08.158Z cpu30:77853)WARNING: qlnativefc: vmhba2(44:0.0): Firmware dump previously allocated.
2017-08-09T05:13:08.169Z cpu30:77853)qlnativefc: vmhba2(44:0.0): Setting ELS command intercept.
2017-08-09T05:13:08.191Z cpu41:77853)qlnativefc: vmhba2(44:0.0): Enabling PUREX.
2017-08-09T05:13:08.202Z cpu28:77853)qlnativefc: vmhba2(44:0.0): DPORT feature : disabled.
2017-08-09T05:13:08.202Z cpu28:77853)qlnativefc: vmhba2(44:0.0): FAWWN feature : disabled.
2017-08-09T05:13:09.292Z cpu38:77853)qlnativefc: vmhba2(44:0.0): LIP reset occured (f700).
2017-08-09T05:13:09.327Z cpu38:77853)qlnativefc: vmhba2(44:0.0): LOOP UP detected (4 Gbps).
2017-08-09T05:13:10.745Z cpu29:77853)qlnativefc: vmhba2(44:0.0): fcport 2200886639aca5fc (targetId = 0) ONLINE
2017-08-09T05:13:10.780Z cpu29:77853)qlnativefc: vmhba2(44:0.0): fcport 2201886639aca5fc (targetId = 1) ONLINE
2017-08-09T05:13:10.813Z cpu34:77853)qlnativefc: vmhba2(44:0.0): fcport 2210886639aca5fc (targetId = 2) ONLINE
2017-08-09T05:13:10.856Z cpu51:77853)qlnativefc: vmhba2(44:0.0): fcport 2211886639aca5fc (targetId = 3) ONLINE
2017-08-09T05:13:11.346Z cpu28:77853)qlnativefc: vmhba2(44:0.0): fcport 20000425c5e7a5f5 (targetId = 4) ONLINE
 
2、Esxi系统紫屏时,vmkernel日志中会伴随如下类似信息
 
ALERT: IntrCookie: 3411: Interrupt received on invalid vector (cpu 0, vector 72); ignoring it.
 
 
 

原因

为了在处理器之间平均分布中断负载,ESXi 会执行中断重新平衡。在此过程中,ESXi 可能会修改分配给I/O设备的目标处理器和中断向量。此过程称为I/O设备中断迁移。当平台中不存在VT-d中断重新映射程序或ESXi中已禁用VT-d中断重新映射程序(引导选项iovDisableIR=TRUE)时,ESXi 会通过修改I/O设备中的PCI MSI/MSI-X寄存器来执行I/O设备中断迁移。ESXi 在意外处理器中断向量上接收到中断,并已忽略该中断,因为ESXi不知道中断源或要调用的软件处理程序,接收此类中断是不正常的,并且可能会导致断开I/O连接和/或出现ESXi PSOD。
 

 解决方案

参考vmware KB启用interrupt remapper中断映射方式,不使用Esxi提供的IOV特性。
 
具体步骤如下:
 
通过将 vmkernel 引导选项iovDisableIR设置为FALSE来启用 VT-d 中断重新映射程序。
 
1.     使用 SSH 会话和 root 凭据连接到 ESXi 主机。
2.     运行以下命令:
esxcli system settings kernel set --setting=iovDisableIR -v FALSE
3.     重新引导 ESXi 主机。
4.     运行以下命令,确保 iovDisableIR 设置为 FALSE:
esxcli system settings kernel list -o iovDisableIR
例如:
esxcli system settings kernel list -o iovDisableIR
Name Type Description Configured Runtime Default
------------ ---- --------------------------------------- ---------- ------- -------
iovDisableIR Bool Disable Interrupt Routing in the IOMMU... FALSE FALSE TRUE
 
如果发现其他 ESXi 版本存在此问题,请执行以下操作:
 
确保在 BIOS 中启用 VT-d 中断重新映射程序。
运行以下命令验证是否处于启用状态:
vsish -e get /hardware/iov/IntrRemappingEnabled
 
如果已在 BIOS 中启用 VT-d 中断重新映射程序并用于 ESXi,则此命令返回值1,否则返回值0。
 
如果警示仍然存在,请联系 VMware 技术支持,提出支持请求。

 建议与总结

该问题在ESXi 5.5p10、6.0p04、6.0u3 和 6.5为已知问题。

相关推荐