城市数字平台

  重新定义城市信息基础设施,赋能城市数字化转型

华为视频会议MCU单板或者整机(反复)重启、挂

2021-12-14 16:43:46   

现象描述

MCU单板或者整机(反复)重启、挂死。

关键字

重启、小系统、web无法登录、会场挂断、MCU离线

可能原因

  1. 系统大系统被损坏或者不存在(反复重启的情况)
  2. 人为操作重启
  3. 电源供电功率不足
  4. 硬件连接没有扣好或者硬件故障
  5. 网络SSH/SNMP攻击,包括主控板或者本板遭到攻击

排查思路如 图1 所示。

图1单板重启排查思路
MCU单板重启排查思路2-1.jpg

排查思路及步骤

本问题涉及MCU单板的工作状态方面的问题,排查的大致方向如下:

  • 查看告警灯、run灯的亮灭情况。
  • 断网测试,确认是否为网络原因。
  • 反复重启的情况下,排查是否硬件故障,进行硬件的拆装尝试。

总体原则为“先定界,再定位”,排查全景图如图2-11所示。

图2MCU单板重启排查全景图

MCU单板重启排查全景图2-2.jpg

  1. 排查是否人为操作的重启
  2. 反复重启的情况下,使用串口线,查看单板的启动输出log,确认软件完整性和CF卡是否存在故障。
  3. 排查是否存在网络攻击,可以尝试断网后观察是否能够正常进入大系统,MCU接入的网络端口镜像抓包。
  4. 排查硬件故障,使用其他单板的NP、DSP扣板、底板进行交叉验证,确认是否硬件故障。

具体操作描述

  1. 排查是否认为操作导致的重启、半夜鸡叫(自动重启)

     

    导出MCU的日志信息,在O类日志中查找reboot,看是否存在人为重启操作记录。

    人为重启示例为web用户admin重启了该MCU。

    mcu日志信息2-3.jpg

    半夜鸡叫示例:

    日志信息2-4.jpg

     

  2. MCU的电源供电排查:

     

    根据MCU的额定功率、以及MCU的输入电源、插排的电源供电能力比对,是否存在电源供电功率不足的情况。

    1. MCU的额定功率可以参考MCU的产品说明书,根据局点的单板情况,计算出本MCU的额定功率。
    2. 查看MCU所接的电源功率,确认是否满足电源供电,如VP9660要求至少两个电源正常工作。
    3. 查看MCU电源供所接的电插、保险开关的功率,看是否可以满足条件,另外VP9660、VP8660等有电源备份的MCU,建议电源输入不要从一个插排引入,避免因为异常掉电导致MCU重启。

     

  3. 是否存在网络攻击:

     

    先通过断网测试确认是否可以正常加载,如果不能正常启动,则对网口镜像抓包来确认(此处的抓包最好是镜像抓包,MCUweb界面的抓包无法获取到全部的报文,可能导致问题判断不准确)。

     

  4. 查看MCU的温度,是否在正常范围:

     

    mcu状态信息2-5.jpg

     

  5. 排查是否为硬件故障(反复重启的情况下适用)

     

    1. CF卡故障:
    2. NP扣板故障:
    3. DSP扣板故障
    4. 底板故障

    以上四种情况的故障均需要通过交叉互换硬件的方式进行验证,将其他正常单板的CF卡、NP扣板、DSP、底板进行互换测试,达到确认是那个部件的故障的目的。

     

现有局点案例

表1 现有局点案例

表1 现有局点案例

局点

问题描述

问题根因

解决措施

局点1

MCU异常重启

SSH攻击造成MCU异常

在MCU的web界面将SSH服务关闭。并且找到攻击的源头,在防火墙上进行屏蔽。

局点2

MCU异常重启

插排的额定功率不足,导致MCU在会议过程中重启

整改机房内插排的连接,保证MCU的电源供电。

信息收集

  1. 组网信息,MCU版本信息,配置文件(RM、MCU)。
  2. 问题出现时,在MCU所接交换机通过镜像方式获取MCU网口的所有包。
  3. 收集一键定位信息,不支持的版本请收集日志和edr
  4. 收集串口打印信息(反复重启的情况下收集)
  5. 硬件交叉测试结果

相关推荐