原因分析:流程图:
分析判断可能原因:1、IP层故障所导致。2、数据配置存在问题。3、单板软硬件故障。
原因排查:1、IP层故障分析先分析M3UA的协议栈:M3UA SCTP IPMZM02是下挂在SZS11下的,这个M3UA是SERVER与MGW之间的。从M3UA链路故障告警上分析,原因码为48,是SCTP偶联异常断链,从协议栈上看,如果IP层出现故障,那SCTP层肯定是故障了,先判断是否IP层故障所导致呢?
在MGW上进行PING包操作,华为MGW的本地维护终端提供了命令行和图形操作界面的PING包操作,本案例通过图像操作来进行PING包操作。在MGW本地维护终端的左下角点击维护,如下图:
在跟踪管理中选择PING接口跟踪
在下图中机框号、槽位号、板位置是源IP地址所对应的MPU单板。可以通过如下方法检查到MPU所在位置:+++ HUAWEI UMG8900 2010-05-21 11:33:31O&M #20 %%LST IPADDR: BT=MPU;%%RETCODE = 0 执行成功 IP地址配置信息-------------- IP地址 板类型 板组号 槽位号 接口类型 接口编号 IP地址掩码 主从标志 域标识 是否属于VLAN VLAN标识 目的IP地址 10.XXX.XXX.X MPU 1 NULL ETH 0 255.255.255.252 主 0 否 NULL NULL 10.XXX.113.130 MPU 2 NULL ETH 0 255.255.255.252 主 0 否 NULL NULL(结果个数 = 2) IP地址配置信息续1----------------- IP地址 检测间隔 检测阈值 是否是环回IP 是否配置MPLS MPLS0 MPLS1 MPLS2 MPLS3 IP地址描述 10.XXX.XXX.X NULL NULL 否 否 NULL NULL NULL NULL NULL 10.XXX.113.130 NULL NULL 否 否 NULL NULL NULL NULL NULL(结果个数 = 2)%%LST BRD: LM=BTBN, BT=MPU, BN=2;%%RETCODE = 0 执行成功
槽位记录表---------- 机框号 = 2 槽位号 = 7 板位置 = 前插 板类型 = MPU 硬件类型 = MMPU 板组号 = 2 备份状态 = 1+1 备份 主备状态 = 主用 管理状态 = NULL CPU忙门限 = 90 CPU正常门限 = 80内存过载阈值 = 90 安装状态 = 安装 操作状态 = 正常 机框号 = 2 槽位号 = 8 板位置 = 前插 板类型 = MPU 硬件类型 = MMPU 板组号 = 2 备份状态 = 1+1 备份 主备状态 = 备用 管理状态 = NULL CPU忙门限 = 90 CPU正常门限 = 80内存过载阈值 = 90 安装状态 = 安装 操作状态 = 正常(结果个数 = 2)--- END--- END 在上述指令查询中,可以查到IP地址为10.XXX.113.130所对应的MPU为板组号是2,其框号是2、槽号是7,前插单板。在点击PING接口跟踪的窗口中输入相关信息。
结果是可以正常PING通的
2、数据配置问题分析:对M3UA链路配置数据进行检查,SERVER和MGW两端核对配置,对于M3UA链路,分别有服务端和客户端的配置,其中MGW应该配置为服务器端,SERVER为客户端,检查数据发现不存在问题。对M3UA链路进行重新删除重定义并在SERVER侧进行激活操作,激活后M3UA链路仍然为故障状态,IP层状态是正常,数据配置也正常。
3、单板软硬件故障分析:在SERVER和MGW侧开启SCTP层的消息跟踪,打开方法同样也是在左下角的跟踪按钮,然后在IP消息跟踪中选择SCTP消息跟踪,SERVER侧:
从结果上看,SERVER侧由于是客户端,一直发送INIT到MGW侧,但是没有收到MGW的任何回复。对SERVER的IP接口进行分析,在SERVER接收IP报文的处理流程为:IP报文--->WIFM板处理MAC消息后,根据源IP地址(对端设备IP地址)、源端口号(对端设备端口号)、目的端口号(SERVER),通过以太网总线将消息分发到指定的WBSG进行处理--->WBSG单板进行SCTP和M3UA处理从刚才进行PING操作可以正常,证明了WIFM单板的接口处理是没有问题的,从SCTP消息跟踪中发现SERVER并没有收到MGW回复的INIT_ACK消息,是否告警中的WIFM单板的转发功能有问题呢? 4、对告警中的WIFM单板进行逐一复位操作,单板复位后,再检查故障的M3UA链路,已经为激活状态。
解决措施:1、进行PING包操作,检查IP层的物理连接状态,PING包正常响应显示IP层的物理连接状态为正常;2、检查故障的M3UA链路数据配置,进行删除重定义,然后在SERVER侧对故障M3UA链路进行激活操作,仍然无法激活故障链路;3、对SERVER和MGW侧进行SCTP接口跟踪操作,发现SERVER侧收不到MGW回复的INIT_ACK消息,尝试复位告警中WIFM单板;