HUAWEI交換機(jī)如何判斷環(huán)路故障
定義
以太網(wǎng)交換網(wǎng)絡(luò)中為了提高網(wǎng)絡(luò)可靠性,通常會(huì)采用冗余設(shè)備和冗余鏈路,然而現(xiàn)網(wǎng)中由于組網(wǎng)調(diào)整、配置修改、升級割接等原因,經(jīng)常會(huì)造成數(shù)據(jù)或協(xié)議報(bào)文環(huán)形轉(zhuǎn)發(fā),不可避免的形成環(huán)路。如圖1所示,三臺(tái)設(shè)備兩兩相連就會(huì)形成環(huán)路。當(dāng)設(shè)備未部署環(huán)路保護(hù)協(xié)議或者組網(wǎng)配置發(fā)生變更時(shí),環(huán)形組網(wǎng)中就可能會(huì)產(chǎn)生廣播風(fēng)暴。
圖1 以太網(wǎng)交換網(wǎng)絡(luò)冗余鏈路組網(wǎng)圖

二層環(huán)路最大的危害就是會(huì)產(chǎn)生廣播風(fēng)暴,以太網(wǎng)是一個(gè)支持廣播的網(wǎng)絡(luò),在沒有環(huán)路的環(huán)境中,廣播包在網(wǎng)絡(luò)中以泛洪的形式被送達(dá)到網(wǎng)絡(luò)的每一個(gè)角落,以保證每個(gè)設(shè)備都能夠接受到它。在帶寬允許的情況下,每個(gè)網(wǎng)橋在接收到廣播報(bào)文以后,都會(huì)向除接收端口以外的其他所有接口轉(zhuǎn)發(fā)這個(gè)廣播包,一旦網(wǎng)絡(luò)中有環(huán)路,這種簡單的廣播機(jī)制就會(huì)引發(fā)災(zāi)難性后果。
環(huán)路中一個(gè)廣播報(bào)文被反復(fù)轉(zhuǎn)發(fā)了千萬次,產(chǎn)生了廣播風(fēng)暴并且很快達(dá)到或接近端口線速,并迅速消耗鏈路帶寬。根據(jù)轉(zhuǎn)發(fā)規(guī)則,這些廣播報(bào)文不僅僅只是在環(huán)路上無限轉(zhuǎn)發(fā),環(huán)路設(shè)備還會(huì)向其他端口轉(zhuǎn)發(fā)一份,這樣整個(gè)網(wǎng)絡(luò)中都充斥著大量重復(fù)廣播報(bào)文。如果全網(wǎng)絡(luò)都采用千兆端口互連,那么幾乎每一條鏈路上都充斥著1000M/s的廣播報(bào)文,正常的數(shù)據(jù)報(bào)文將很難再獲得轉(zhuǎn)發(fā)的機(jī)會(huì)。
二層網(wǎng)絡(luò)設(shè)備處于同一個(gè)廣播域下,廣播報(bào)文在環(huán)路中會(huì)反復(fù)持續(xù)傳送,無限循環(huán),形成廣播風(fēng)暴,引發(fā)MAC地址表不穩(wěn)定等故障現(xiàn)象,進(jìn)而影響正常業(yè)務(wù),導(dǎo)致用戶通信質(zhì)量較差,甚至通信中斷。
為防止環(huán)路出現(xiàn),并保證網(wǎng)絡(luò)的可靠性,交換機(jī)設(shè)備上通常會(huì)部署一些破環(huán)協(xié)議。目前S系列交換機(jī)支持的二層環(huán)路破環(huán)協(xié)議主要有:
- STP/RSTP/MSTP
- RRPP
- SEP
- Smart Link
- ERPS
除了二層環(huán)路破環(huán)協(xié)議,S系列交換機(jī)同時(shí)支持環(huán)路檢測技術(shù),主要的環(huán)路檢測技術(shù)有:
- Loop Detection
- Loopback Detection
總體思路
所有故障皆“事出有因”,故障的發(fā)生一定是在一個(gè)穩(wěn)定的正常運(yùn)行的網(wǎng)絡(luò)中,某一網(wǎng)絡(luò)環(huán)節(jié)發(fā)生了變化而引起的,這些誘發(fā)網(wǎng)絡(luò)產(chǎn)品生故障的變化包括:
- 網(wǎng)絡(luò)調(diào)整:包括但不限于組網(wǎng)調(diào)整、配置修改、升級割接等操作;
- 網(wǎng)絡(luò)環(huán)境發(fā)生變化:包括但不限于網(wǎng)絡(luò)風(fēng)暴、特定節(jié)日/促銷活動(dòng)/智能終端導(dǎo)致用戶行為變化,網(wǎng)絡(luò)設(shè)備電源/溫度環(huán)境發(fā)生變化、傳輸光纜被切斷、夏令時(shí)跳變、微波受大雨/大霧等其后影響、洪水/火災(zāi)/地震/雷擊等外界不可抗力;
- 網(wǎng)絡(luò)設(shè)備發(fā)生故障:包括但不限于軟件發(fā)生缺陷、硬件老化故障(單板異常、光纖光模塊故障)等。
所有這些誘發(fā)故障的內(nèi)在因素絕大多數(shù)都有其“外在異常表現(xiàn)”,具體會(huì)反映在特定網(wǎng)元的告警、日志、流量統(tǒng)計(jì)、端口狀態(tài)等信息中。因此故障快速定位的關(guān)鍵在于,如何有效而快速的通過事發(fā)時(shí)間、影響范圍、所做操作及故障網(wǎng)絡(luò)范圍的網(wǎng)元基本信息的查看,快速發(fā)現(xiàn)這些“外在異常表現(xiàn)”所在的點(diǎn),進(jìn)而鎖定故障網(wǎng)元節(jié)點(diǎn),找出問題根因。
如下圖所示,網(wǎng)絡(luò)中出現(xiàn)二層環(huán)路通常會(huì)有如下現(xiàn)象,如果分析現(xiàn)網(wǎng)問題發(fā)現(xiàn)存在以下異常表現(xiàn)中的一個(gè)或者多個(gè),則網(wǎng)絡(luò)中存在二層環(huán)路可能性較大。
圖2 二層環(huán)路常見異常表現(xiàn)

環(huán)路故障診斷步驟
判斷網(wǎng)絡(luò)中是否存在二層環(huán)路,一般可以使用查看接口帶寬流量、查看MAC漂移告警、部署環(huán)路檢測、查看CPU占用率四種方法進(jìn)行確認(rèn)。這四種方法沒有嚴(yán)格的操作順序,為更加準(zhǔn)確判斷故障屬性,可以使用其中的一種或多種方法來進(jìn)行問題定位。

如何快速破環(huán)
以太網(wǎng)環(huán)路會(huì)在短時(shí)間內(nèi)形成數(shù)據(jù)風(fēng)暴,當(dāng)端口的流量達(dá)到帶寬的最大負(fù)荷,會(huì)形成鏈路擁塞,影響網(wǎng)絡(luò)業(yè)務(wù)。因此,在確認(rèn)現(xiàn)網(wǎng)存在數(shù)據(jù)環(huán)路后,您需要第一時(shí)間按照如下步驟處理,盡快恢復(fù)數(shù)據(jù)業(yè)務(wù)。
- 1、梳理網(wǎng)絡(luò)拓?fù)洳⒆R(shí)別環(huán)路。
環(huán)形網(wǎng)絡(luò)拓?fù)湟话爿^為復(fù)雜,可以尋求到網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)全圖,具體到網(wǎng)絡(luò)的VLAN規(guī)劃信息,每臺(tái)設(shè)備名稱、系統(tǒng)MAC、管理IP,本端端口名稱、對端端口名稱。
完整的拓?fù)湫畔⑹墙鉀Q環(huán)路問題的首要條件,如果沒有拓?fù)鋱D,需要從發(fā)現(xiàn)環(huán)路的設(shè)備,通過逐跳登錄,記錄設(shè)備信息、端口信息和VLAN信息,手動(dòng)繪制完整的拓?fù)洹?/p>
- 2、緊急破環(huán)。
緊急破環(huán)的操作前提是不要影響遠(yuǎn)程登錄設(shè)備所涉及的中間設(shè)備、端口和VLAN等,避免引入其他問題,出現(xiàn)設(shè)備脫管、無法遠(yuǎn)程登錄的現(xiàn)象。
緊急破環(huán)又稱手動(dòng)破環(huán),當(dāng)網(wǎng)絡(luò)風(fēng)暴嚴(yán)重影響正常的業(yè)務(wù)時(shí),需要使用此方法盡快恢復(fù)業(yè)務(wù)。您可以通過如下三個(gè)方法緊急破環(huán)。
-
- 端口退出已成環(huán)的VLAN
在已經(jīng)成環(huán)的網(wǎng)絡(luò)上,將其中一個(gè)端口退出成環(huán)VLAN,屬于影響面最小的破環(huán)方法。根據(jù)端口類型可執(zhí)行如下表所示相關(guān)命令。
注意:緊急破環(huán)的操作前提是不要影響遠(yuǎn)程登錄設(shè)備所涉及的中間設(shè)備、端口和VLAN等,避免引入其他問題,出現(xiàn)設(shè)備脫管、無法遠(yuǎn)程登錄的現(xiàn)象。
|
端口類型 |
命令行 |
備注 |
|---|---|---|
|
Access |
undo port default vlan |
執(zhí)行此命令后,可能會(huì)影響下游設(shè)備業(yè)務(wù),請謹(jǐn)慎操作。 |
|
Trunk |
undo port trunk allow-pass vlan id |
無 |
|
Hybrid |
undo port hybrid vlan id |
執(zhí)行此命令后,該端口將不區(qū)分tagged和untagged報(bào)文。 |
-
- Shutdown已經(jīng)成環(huán)的端口
- Shutdown已經(jīng)成環(huán)的物理端口,也可以達(dá)到破環(huán)的效果。
- 執(zhí)行此動(dòng)作之前,您需要確保在接口視圖下執(zhí)行命令shutdown關(guān)閉接口后,不會(huì)影響正常數(shù)據(jù)業(yè)務(wù),即端口兩端設(shè)備在所有VLAN內(nèi)仍能通信。
- 拔出成環(huán)光纖破環(huán)
- 通過拔出成環(huán)的端口的連接光纖,也可以緊急破環(huán)。
- 該方法可以使用Shutdown端口代替,只有在設(shè)備無法遠(yuǎn)程登錄時(shí)才使用。
- Shutdown已經(jīng)成環(huán)的端口
- 3、確認(rèn)業(yè)務(wù)已經(jīng)恢復(fù)。
- 通過Ping等操作測證網(wǎng)絡(luò)通信質(zhì)量,并觀察現(xiàn)網(wǎng)業(yè)務(wù)是否已經(jīng)恢復(fù)。
- 環(huán)路拓?fù)浯嬖谌哂噫溌泛团渲茫虼谁h(huán)路破除后業(yè)務(wù)一般會(huì)自行恢復(fù)。
出處:http://www.rzrgm.cn/zhangwencheng
版權(quán):本文版權(quán)歸作者和博客園共有,歡迎轉(zhuǎn)載,但未經(jīng)作者同意必須保留此段聲明,且在文章頁面明顯位置給出 原文鏈接
浙公網(wǎng)安備 33010602011771號