1,问题描述

如上图拓扑:

某局点本端两台AR3260路由器做主备,与IDC机房2台其他厂商路由器通过传输专线做对接。对接方式为静态路由。客户希望正常情况下业务走主路由器,主路由器链路故障时,备路由器接管业务。目前已经在主路由器和备路由器做好不同优先级的静态路由配置。对端厂商设备也做好了相应的配置。因过传输设备,中间有若干节点,中间节点故障或对端路由器故障不会使我方路由器的互联接口状态转为DOWN,故现做NQA与静态路由联动,检测对端互联IP的可达性。若互联IP不可达,则联动的静态路由被失效,备路由器的次优路由生效,业务切至备路由器。

客户做完配置后实测,正常情况下,测试业务PC端tracert 业务正常通过主路由器互联IP通信;

在主路由器上对互联接口shutdown,模拟链路故障,查看路由表,静态路由失效,备路由器的路由生效,终端PC 进行tracert发现业务已切换至备路由器互联IP通信,测试正常。

在对端路由器上对互联接口shutdown,模拟链路故障,查看路由表,静态路由未失效,终端PC进行tracert,业务依然走至主路由器后无法继续通信。NQA未按正常预计失效掉静态路由。测试失败。

2,告警信息

业务未正常切换,静态路由器未失效,依然在主路由器

3,处理过程

第一步:故障出现时,查看路由表,静态路由依然生效。

第二步:对互联IP进行ping测试,发现对端互联IP已经ping不通。

第三步:查看NQA配置:

nqa test-instance IDC ZHU

test-type icmp

destination-address ipv4 10.XXX.1.249

frequency 15

interval seconds 3

timeout 1

start now

配置正常,已经start now启动

第四步:检查NQA测试结果,使用命令display nqa results test-instance IDC ZHU,查看对应NQA测试例的检测信息,有以下回显:

NQA entry(IDC, ZHU) :testflag is active ,testtype is icmp

1 . Test 96902 result The test is finished

Send operation times: 3 Receive response times: 0

Completion:failed RTD OverThresholds number: 0

Attempts number:1 Drop operation number:0

Disconnect operation number:0 Operation timeout number:3

System busy operation number:0 Connection fail number:0

Operation sequence errors number:0 RTT Status errors number:0

Destination ip address:10.XXX.1.249

Min/Max/Average Completion Time: 0/0/0

Sum/Square-Sum Completion Time: 0/0

Last Good Probe Time: 0000-00-00 00:00:00.0

Lost packet ratio: 100 %

2 . Test 96903 result The test is finished

Send operation times: 3 Receive response times: 0

Completion:failed RTD OverThresholds number: 0

Attempts number:1 Drop operation number:0

Disconnect operation number:0 Operation timeout number:3

System busy operation number:0 Connection fail number:0

Operation sequence errors number:0 RTT Status errors number:0

Destination ip address:10.XXX.1.249

Min/Max/Average Completion Time: 0/0/0

Sum/Square-Sum Completion Time: 0/0

Last Good Probe Time: 0000-00-00 00:00:00.0

Lost packet ratio: 100 %

此命令会显示最近5次的 NQA检测结果,根据回显,NQA已经检测到测试IP不可达。

第五步:检查静态路由联动配置:

ip route-static 10.xx3.1.0 255.255.255.0 10.xxx.1.249 description TO-IDC track nqa IDC ZHU

检查发现静态路由联动配置错误。上述回显,description后是描述信息。经确定,是客户在原静态路由基础上,直接复制全部配置在其后增加 track nqa IDC ZHU 配置,然后刷配置进设备。实际上此次配置只是修改了静态路由的描述信息,因描述信息可以增加空格,客户勿以为已经做好NQA联动。正确静态路由配置如下:

ip route-static 10.xx3.1.0 255.255.255.0 10.xxx.1.249 track nqa IDC ZHU description TO-IDC

修改静态路由器联动配置后,查看路由表,对应静态路由已经正常失效,备路由器次优路由生效,业务正常切换。重新恢复链路后进行主备切换测试,均正常切换。

恢复链路后NQA检查结果如下:

NQA entry(IDC, ZHU) :testflag is active ,testtype is icmp

1 . Test 1 result The test is finished

Send operation times: 3 Receive response times: 3

Completion:success RTD OverThresholds number: 0

Attempts number:1 Drop operation number:0

Disconnect operation number:0 Operation timeout number:0

System busy operation number:0 Connection fail number:0

Operation sequence errors number:0 RTT Status errors number:0

Destination ip address:10.xxx.1.249

Min/Max/Average Completion Time: 10/360/133

Sum/Square-Sum Completion Time: 400/130600

Last Good Probe Time: 2018-04-13 14:50:34.4

Lost packet ratio: 0 %

可看到Completion:字段结果为success

查看路由表:

dis ip routing-table

Route Flags: R - relay, D - download to fib

------------------------------------------------------------------------------

Routing Tables: Public

Destinations : 8 Routes : 8

Destination/Mask Proto Pre Cost Flags NextHop Interface

10.xx3.1.0/24 Static 60 0 RD 10.xxx.1.249 GigabitEthernet0/0/3

静态路由正常生效。

断开接口口查看NQA状态:

NQA entry(IDC, ZHU) :testflag is active ,testtype is icmp

1 . Test 52 result The test is finished

Send operation times: 3 Receive response times: 0

Completion:failed RTD OverThresholds number: 0

Attempts number:1 Drop operation number:2

Disconnect operation number:0 Operation timeout number:1

System busy operation number:0 Connection fail number:0

Operation sequence errors number:0 RTT Status errors number:0

Destination ip address:10.xxx.1.249

Min/Max/Average Completion Time: 0/0/0

Sum/Square-Sum Completion Time: 0/0

Last Good Probe Time: 0000-00-00 00:00:00.0

Lost packet ratio: 100 %

NQA按预期转为failed

查看路由表:

Routing Tables: Public

Destinations : 8 Routes : 8

Destination/Mask Proto Pre Cost Flags NextHop Interface

10.XX3.1.0/24 O_ASE 150 1 D 10.XX5.2.22 XGigabitEthernet0/0/0.1

可看到静态路由已经失效,业务路由已经从邻居学到,业务已经转至备路由器。

经测试,NQA正常工作,故障解决。

4,根因

主要原因有以下几点:

第一:本地静态路由是否生效,依赖于对应的下一跳互联接口直连路由是否存在,以及对应的联动策略是否生效。客户在本端路由器做接口故障模拟时,因接口被shutdown,直连路由失效,所以对应的静态路由同时失效,并不是因NQA联动原因失效。

第二:静态路由描述信息可增加空格,做配置模板时未实际配置命令做测试,导致勿以为联动配置已经做上。实际上重复制命令后只是修改了静态路由的描述信息。正确的联动配置要在下一跳IP之后开始配置,描述信息会被显示在所有命令之后。

5,解决方案

修改静态路由联动NQA的正常配置后解决

6,建议与总结

直连路由会影响静态路由是否生效,需要注意。

描述信息会显示在配置最后面,做配置模板要做配置实际验证,新配置要在描述信息之前。

查看原文 >>
相关文章