路由器網路診斷步驟與故障排除
路由器網路診斷步驟與故障排除
1.1 路由器常見故障分類
在路由器出現的故障中, 大體可以分為兩類: 一類是硬故障, 一類是軟故障。這裡的分類方法並沒有嚴格的標準,只是為了方便而已,在實踐中應該具體問題具體分析。
1、硬故障
我們把路由器本身部件存在問題的情況歸在這一類里。常見的硬故障通常表現在硬體上。通常有這麼幾種:
1)系統不能正常加電
表現為當打開路由器的電源開關時,路由器前面板的電源燈不亮,風扇不轉。這時要重點檢查電源系統。看供電插座是否有電,電壓是否在規定的範圍內。如果供電正常,應該檢查電源線是否完好, 接觸是否牢靠,必要時可以換一根,如果還不行,可以判定問題應該出在路由器的電源上。 可以看看路由器電源保險是否完好, 如果燒了應該更換。 如果還不行只好送修。
2) 部件損壞
這類情況在硬體故障中是比較常見的一類。這裡的部件往往是介面卡。表現為當把有問題部件插到路由器中時,系統其他部分都工作正常,但無法正確識別有問題的部件,這時往往是因為部件本身有問題。還有一種情況,就是部件可以被正確識別,但做完配置後(保證配置正確),介面就是不能正常工作,這時往往是因為存在物理故障。要確認以上這兩種情況,最好用相同型號的好的部件替換懷疑有問題的部件,就可以確認問題是否存在。
3) 系統軟體損壞
這種故障似乎應該歸入軟體故障, 但由於這種情況往往是路由器本身存在的問題, 且與硬體緊密相關,我們不妨把它歸類於此。以 cisco 的路由器為例,如果路由器開機後總是進入 rmon 狀態,這時往往說明系統軟體 IOS 存在問題。
4) 其它
這裡所要提到的是這樣一些情況, 有時我們在對系統軟體進行升級時, 發現系統無論怎樣也不能完成升級,這時不妨檢查一下你要升級的軟體的大小是否超過了你的路由器的NVRAM 的容量。如果超過了,你是無論如何也升不了級的,這時應該先擴充 NVRAM 的容量然後再升級系統軟體。這個問題容易被忽略。
2、軟故障
1)功能無法實現
在有些時候,你要作某些特定的配置(如 NAT ),你反覆檢查,確認配置正確,可相應的功能就是實現不了,這時先不要急著懷疑設備有問題,最好先找一找系統軟體的版本號,並查找相關的說明, 看一看你所使用的版本的軟體是否支持這個功能。 因為路由器的系統軟體往往有許多版本, 每個版本支持不同的功能。 如果你當前的軟體版本不支持這個功能, 那就應該找到相應的軟體,先進行升級。
2) 網路規劃存在問題
有些時候, 你的配置似乎沒有問題, 可路由器就是不能正常工作, 或者工作不穩定,總出現一些莫名其妙的問題。 這時不妨先不要急著反覆調試, 不如回過頭來看看你的網路規劃,看看這上面是不是有問題。比如是不是有重複使用的網段,網路掩碼的計算是否正確等等,往往問題就迎刃而解了。
3) 配置問題
這種問題是最常見的, 就是你的配置的確存在問題。 比如線路兩端路由器的參數不匹配或參數錯誤等等,這種情況只要認真細緻地查找,總可以解決。
1.2 網路故障診斷概述
網路故障診斷, 從故障現象出發, 以網路診斷工具為手段獲取診斷信息, 確定網路故障點,查找問題的根源,排除故障,恢復網路正常運行。網路故障通常有以下幾種可能:物理層中物理設備相互連接失敗或者硬體及線路本身的問題; 數據鏈路層的網路設備的介面配置問題; 網路層網路協議配置或操作錯誤; 傳輸層的設備性能或通信擁塞問題; 上三層或網路應用程序錯誤。診斷網路故障的過程應該沿著 OSI 七層模型從物理層開始向上進行。首先檢查物理層,然後檢查數據鏈路層,以此類推,設法確定通信失敗的故障點,直到系統通信正常為止。
網路診斷可以使用多種工具: 路由器診斷命令, 網路管理工具和包括區域網或廣域網分析儀在內的其它故障診斷工具。 查看路由表, 是開始查找網路故障的好辦法。 ICMP 的 ping、trace 命令和 Cisco 的 show 命令、 debug 命令是獲取故障診斷有 用信息的網路工具。如何監視網路在正常條件下的運行細節和出現故障的情況 ,監視哪些內容呢?利用 show interface 命令可以非常容易地獲得待檢查的每個介面的信息。 show buffer 命令提供定期顯示緩衝區大小、用途及使用狀況。 show proc 命令和 show proc mem 命令可用於跟蹤處理器和內存的使用情況。可以定期收集這些數據,在故障出現時用於診斷參考。
故障診斷步驟:
第一步,首先確定故障的具體現象, 分析造成這種故障現象的原因的類型。 例如, 主機不響應客戶請求服務。 可能的故障原因是主機配置問題、 介面卡故障或路由器配置命令丟失等。
第二步, 收集需要的用於幫助隔離可能故障原因的信息。 從網路管理系統、 協議分析跟蹤、路由器診斷命令的輸出報告或軟體說明書中收集有用的信息。
第三步,根據收集到的情況考慮可能的故障原因, 排除某些故障原因。 例如,根據某些資料可以排除硬體故障,把注意力放在軟體原因上。
第四步, 根據最後的可能故障原因, 建立一個診斷計劃。 開始僅用一個最可能的故障原因進行診斷活動,這樣可以容易恢復到故障的原始狀態。如果一次同時考慮多個故障原因,試圖返回故障原始狀態就困難多了。
第五步, 執行診斷計劃, 認真做好每一步測試和觀察, 每改變一個參數都要確認其結果。分析結果確定問題是否解決,如果沒有解決,繼續下去,直到故障現象消失。
網路分層診斷技術
物理層的故障主要表現在設備的物理連接方式是否恰當;連接電纜是否正確; Modem、CSU/DSU 等設備的配置及操作是否正確。確定路由器埠物理連接是否完好的最佳方法是使用 show interface 命令,檢查每個埠的狀態,解釋屏幕輸出信息,查看埠狀態、協議建立狀態和 EIA 狀態。
查找和排除數據鏈路層的故障, 需要查看路由器的配置, 檢查連接埠的共享同一數據鏈路層的封裝情況。 每對介面要和與其通信的其它設備有相同的封裝。 通過查看路由器的配置檢查其封裝,或者使用 show 命令查看相應介面的封裝情況。
排除網路層故障的基本方法是: 沿著從源到目標的路徑, 查看路由器路由表, 同時檢查路由器介面的 IP 地址。如果路由沒有在路由表中出現,應該通過檢查來確定是否已經輸入適當的靜態路由、 默認路由或者動態路由。 然後手工配置一些丟失的路由, 或者排除一些動態路由選擇過程的故障, 包括 RIP 或者 IGRP 路由協議出現的故障。 例如, 對於 IGRP 路由,選擇信息只在同一自治系統號( AS)的系統之間交換數據,查看路由器配置的自治系統號的匹配情況。
1.3 路由器介面故障排除
串口故障排除
串口出現連通性問題時,為了排除串口故障,一般是從 show interface serial 命令開始,分析它的屏幕輸出報告內容,找出問題之所在。串口報告的開始提供了該介面狀態和線路協議狀態。介面和線路協議的可能組合有以下幾種:
1、串口運行、線路協議運行,這是完全的工作條件。該串口和線路協議已經初始化,並正在交換協議的存活信息。
2、串口運行、線路協議關閉,這個顯示說明路由器與提供載波檢測信號的設備連接,表明載波信號出現在本地和遠程的數據機之間, 但沒有正確交換連接兩端的協議存活信息。可能的故障發生在路由器配置問題、 數據機操作問題、 租用線路干擾或遠程路由器故障, 數字式數據機的時鐘問題, 通過鏈路連接的兩個串口不在同一子網上, 都會出現這個報告。
3、串口和線路協議都關閉,可能是電信部門的線路故障、電纜故障或者是數據機故障。
4.串口管理性關閉和線路協議關閉,這種情況是在介面配置中輸入了 shutdown 命令。通過輸入 no shutdown 命令,打開管理性關閉。
介面和線路協議都運行的狀況下, 雖然串口鏈路的基本通信建立起來了, 但仍然可能由於信息包丟失和信息包錯誤時會出現許多潛在的故障問題。 正常通信時介面輸入或輸出信息包不應該丟失, 或者丟失的量非常小,而且不會增加。如果信息包丟失有規律性增加, 表明通過該介面傳輸的通信量超過介面所能處理的通信量。 解決的辦法是增加線路容量。 查找其它原因發生的信息包丟失, 查看 show interface serial 命令的輸出報告中的輸入輸出保持隊列的狀態。 當發現保持隊列中信息包數量達到了信息的最大允許值, 可以增加保持隊列設置的大小。
以太介面故障排除
以太介面的典型故障問題是: 帶寬的過分利用; 碰撞衝突次數頻繁; 使用不兼容的幀類型。使用 show interface ethernet 命令可以查看該介面的吞吐量、碰撞衝突、信息包丟失、和幀類型的有關內容等。
1、通過查看介面的吞吐量可以檢測網路的帶寬利用狀況。如果網路廣播信息包的百分比很高, 網路性能開始下降。 光纖網轉換到乙太網段的信息包可能會淹沒以太口。 互聯網發生這種情況可以採用優化介面的措施,即在以太介面使用 no ip route-cache 命令,禁用快速轉換,並且調整緩衝區和保持隊列的設置。
2、兩個介面試圖同時傳輸信息包到以太電纜上時,將發生碰撞。乙太網要求衝突次數很少,不同的網路要求是不同的, 一般情況下發現衝突每秒有三五次就應該查找衝突的原因了。碰撞衝突產生擁塞, 碰撞衝突的原因通常是由於敷設的電纜過長、 過分利用、 或者 「聾 」節點。乙太網絡在物理設計和敷設電纜系統管理方面應有所考慮, 超規範敷設電纜可能引起更多的衝突發生。
3、如果介面和線路協議報告運行狀態,並且節點的物理連接都完好,可是不能通信。引起問題的原因也可能是兩個節點使用了不兼容的幀類型。 解決問題的辦法是重新配置使用相同。
幀類型。 如果要求使用不同幀類型的同一網路的兩個設備互相通信, 可以在路由器介面使用子介面,並為每個子介面指定不同的封裝類型。
1.4 非同步通信口故障排除
互連網路的運行中,非同步通信口的任務是為用戶提供可靠服務,但又是故障多發部位。
非同步通信口故障一般的外部因素是: 撥號鏈路性能低劣; 電話網交換機的連接質量問題; 數據機的設置。檢查鏈路兩端使用的數據機:連接到遠程 PC 機埠數據機的問題不太多, 因為每次生成新的撥號時通常都初始化數據機, 利用大多數通信程序都能在發出撥號命令之前發送適當的設置字元串; 連接路由器埠的問題較多, 這個數據機通常等待來自遠程數據機的連接, 連接之前, 並不接收設置字元串。 如果數據機丟失了它的設置, 應採用一種方法來初始化遠程數據機。 簡單的辦法是使用可通過前面板配置的數據機;另一種方法是將數據機接到路由器的非同步介面,建立反向 telnet,發送設置命令配置數據機。
show interface async 命令、show line 命令是診斷非同步通信口故障使用最多的工具。 showinterface async 命令輸出報告中,介面狀態報告關閉的唯一的情況是,介面沒有設置封裝類型。線路協議狀態顯示與串口線路協議顯示相同。 show line 命令顯示介面接收和傳輸速度設置以及 EIA 狀態顯示。 show line 命令可以認為是介面命令 ( show interface async)的擴展。
查看 show line 命令輸出的 EIA 信號可以判斷網路狀態。
確定非同步通信口故障一般可用下列步驟: 檢查電纜線路質量; 檢查數據機的參數設置;檢查數據機的連接速度;檢查 rxspeed 和 txspeed 是否與數據機的配置匹配;
通過 show interface async 命令和 show line 命令查看埠的通信狀況;從 show line 命令的報告檢查 EIA 狀態顯示;檢查介面封裝;檢查信息包丟失及緩衝區丟失情況。
CISCO路由之排除路由故障
2.1 靜態路由故障
1、靜態路由和有類別查找
當路由選擇表進程檢查一條使用中間地址(路由選擇表中作為下一跳引用的 IP 地址)的可解析的靜態路由時,這個檢查總是在有類別方式下完成的,無論是否使用 ip classless命令如果在路由選擇表中有類別方式下的中間地址不能解析,則刪除該靜態路由。
使用 show ip route 查看路由選擇表。
使用 debug 可以顯示某個網路宕掉了。
如果使用無類別方式並有一條默認路由存在, 那麼具有高管理距離的備份表態路由將永遠不會在主靜態路由失效時裝入到路由選擇表中。 這是因為任何靜態路由, 即便是指向不存在的中間地址的靜態路由,都會使用默認路由進行解析。
CISCO 路由選擇表進程每 60S 調用一個檢查路由選擇表的靜態路由功能來根據動態變化的路由選擇表安裝或刪除靜態路由。
2.靜態路由和中間地址
靜態路由可以使用中間網路地址或出介面來創建。 大多數情況下, 使用出介面在路由選擇表進程中解析靜態路由更加有效。
只要中間 IP 地址可以在路由選擇表中解析,它不必是真實的下一跳路由器的介面。靜態網路路由(如中間地址)必須最終被解析為路由選擇表中一條具有出介面的路由。
每當路由選擇表進程需要為 x.x.x.0/24 網路使用靜態路由表項時,它還需要解析中間地址 y.y.y.y,稱為遞歸查找。一次額外的路由查找或許對路由選擇進程的性能沒有多少影響。但是,採取多次遞歸查找來獲得解析的靜態路由可能會影響性能。
3、靜態路由優化
為避免遞歸查找: 串列網路:使用出介面
乙太網絡:同時使用中間地址和出介面
4、反覆的靜態路由安裝和刪除
儘可能地使用出介面而不是中間地址來配置靜態路由。
5、使用丟棄路由
有時網路中有環路的產生。 通過周期性的查看路由器介面上的計數器可以看到路由選擇環路的結果。
clear counters serial0/0
show interface serial0/0
路由環路的問題在網路中產生了一個黑洞。一旦 IP 頭中的生存期( TTL )減到 0 就丟棄分組。
解決 1:有類別模式的路由選擇( no ip classless) —— 在用戶網路路由器上使用 no ipclassless.路由器在至少一個已知子網存在時不會使用任何超網或默認路由。但不是首選。因為它改變了所有分組的路由選擇表查找行為。
解決 2:使用一條丟棄路由 —— 當路由選擇表中沒有特定的匹配,而且使用一條超網或默認路由來轉發那些分組並不合適時,一條丟棄路由把分組送給了 null0 ,即比特桶。
ip route x.x.0.0 255.255.0.0 null0
ip route x.x.0.0 255.255.0.0 null0 200
後一個命令行配置僅在主路由失效時使用的另一條丟棄路由。 通過將靜態路由的默認管理距離改為比所使用的動態路由選擇協議的管理距離更高的一個值來實現。
2.2 排除 RIP 故障
1、不兼容的版本類型
debug ip rip
show ip protocols 對檢查介面上發送和接收的 RIP 分組版本十分有用。
如果 R1 不支持 V2 的版本,只能接收 RIPv1 分組,那麼 R2 配置成 RIPv1 和 RIPv2.
可在介面級指定發送和接收 RIP 分組的特定版本
interface e0
ip rip send version 1 2
ip rip receive version 1 2
2、不匹配的認證密鑰
RIPv2 的一個選項是可以認證的 RIPv2 更新,為了增強安全性,當使用認證時,必須在雙方配置口令。 這個口令被稱為認證密鑰。 如果這一密鑰與另一方的密鑰不匹配, 雙方都將忽略 RIPv2 更新。
在介面上配置 ip rip authentication key-chain cisco用 debug ip rip 調試。
3、達到 RIP 的路數限制
RIP 度量標準的最大值是 15 跳。
無法克服這個問題。可以使用非 15 跳限制的路由選擇協議。 IGRP 最大跳數是 255,EIGRP 最大跳數是 224,二者默認都是 100.
4、不連續網路
當主網路被另一個主網路分隔開時,被稱為不連續網路。
解決 1:使用靜態路由
解決 2:在路由器之間的鏈路地址改為左右不連續網路中的一部分。
解決 3:在兩台路由器上用 no auto-summary 配置啟用 RIPv2 的無類別路由選擇版本。
router rip
version 2
network x.x.x.0
no auto-summary
解決 4:使用無類別路由選擇協議。 如 OSPF,EIGRP ,IS-IS 替代 RIPv1 路由選擇協議。
5、不合法的源地址
當 RIP 告訴路由選擇表安裝路由時,它執行源合法性檢查。如果源所在子網與本地介面不同, RIP 則忽略更新並且不在路由選擇表中安裝從這個源來的路由。當一方是有編號而另一方是無編號時,必須關閉這個檢查。
router rip
no validate-update-source
6、翻動( flapping)路由
路由翻動是指路由選擇表中一條路由的不斷刪除和再插入。為了檢查路由是否真的翻動,檢查路由選擇表並查看路由的壽命( age)。如果壽命被不斷的重置為 00: 00: 00,這就意味這路由正在翻動。
RIP 有 180S 沒有收到一條路由,那麼該路由將保持 240S,然後被清除。
使用 show interface 來檢查介面統計值。
最常見幀中繼環境分組丟失。
使用 show ip route rip 可以檢查 RIP 多久沒有更新。
使用 show interface serial 0 可查看到介面上有大量的廣播分組是否被丟棄。幀中繼情況下,可能需要調整幀中繼廣播隊列。 在非幀中繼的環境中, 可能需要增加輸入或輸出保留隊列。
7、大型路由選擇表
介面上使用 ip summary-address 匯總路由。
2.3 排除 EIGRP 故障
1、不匹配的 K 值
EIGRP 為了建立它的鄰居關係,計算 EIGRP 度量標準的 K 常數值必須相同。
K1-帶寬 K2- 負載 K3- 延遲 K4, K5- 可靠性
router eigrp 1
network x.x.x.x
metric weights 0 1 1 1 1 0
2、不匹配的 AS 編號
EIGRP 不會與具有不同自治系統編號的路由器形成任何鄰居關係。
3、活動粘滯
(1)確定問題
可能的原因有:
。 壞的或擁塞的鏈路;
。 低的路由器資源,如路由器上的低內存和高 CPU 處理。
。 長的查詢範圍
。 過多的冗餘
默認活動粘滯定時器只有 180S.
使用 show ip eigrp topology active 命令幫助故障排除 EIGRP 活動粘滯錯誤, 僅在問題發生時有用, 用戶一次只有 180S 的時間來確定。 鄰居有一個r跟在後面表示它沒有應答查詢。
(2)故障排除方法
追蹤查詢,一跳接一跳,在每一跳找出活動路由的狀態。
(3)最終解決方案
儘可能手工匯總路由並有一個分層次的網路設計。EIGRP匯總的網路越多,主收斂發生時需要做的事情越少。
4、重複的路由 ID
EIGRP 只是為了外部路由而使用路由器 ID 的概念來防止環路。 EIGRP 基於路由器上迴環介面的最大 IP 地址來選擇路由器 ID. 如果路由器沒有迴環介面, 則選擇所有介面中最大的激活 IP 地址作為 EIGRP 的路由器 ID.
debug ip eigrp 可以看到介面上通告某個網路。
經驗法則:永遠不要在網路的兩個地方配置相同的 IP 地址。
2.4 排除OSPF故障
1、不匹配的參數
使用 debug ip ospf adj 命令能夠看到大多數的不匹配問題。
(1) hello/dead 間隔不匹配 —— 匹配才可以形成鄰居。
(2)不匹配的認證類型 —— OSPF 下有 MD5 和純文本認證。
router ospf 1
area 0 authentication message-digest
network x.x.0.0 0.0.255.255 area 0
(3)不匹配的區域 ID —— 區域信息在 OSPF 的 HELLO 分組中發送。不同,不會形成鄰接。
(4)不匹配的短截 /傳輸 /NSSA 區域選項 —— 當OSPF與一個鄰居交換 HELLO 分組時,它所交換的一項內容是由8比特表示的可選能力。選項欄位之一是E比特, 即OSPF短截標誌。當 E 比特置0時,該路由關聯的區域是一個短截區域, 外部 LSA 不允許進入這個區域。
2.OSPF 狀態問題
成為鄰居的路由器不保證交換鏈路狀態更新。 一旦路由器決定與一個鄰居形成鄰接, 它就開始交換其鏈路狀態資料庫的一份完整拷貝。
(1)OSPF 陷入 ATTEMPT —— 僅對 neighbor 語句的 NBMA 網路有效。 陷入 ATTEMPT是指一台路由器試圖通過發送它的 HELLO 來聯繫鄰居但是它沒有收到響應。
show ip ospf neighbor 查看。
原因:錯誤配置 neighbor;NBMA 上的單播連通性斷了,這可能是由錯誤的 DLCI ,訪問列表或轉換單播的 NAT 引起的。
(2)OSPF 陷入 INIT —— INIT 狀態表示路由器收到來自鄰居的 HELLO 分組,但是雙向通信並沒有建立 .
原因:
一方訪問列表阻止了 HELLO ;
一方的多播能力失效(一個交換機故障) ;
僅在一方啟用了認證;
一方的 frame-relay map/dialer map 語句缺少了 broadcast 關鍵字。
一方的 HELLO 在第 2 層丟失了。
(3)OSPF 陷入 2-WAY —— 雙向狀態是指路由器在 HELLO 分組的鄰居欄位中見到了自己的路由器 ID.類似於所有路由器的優先順序都為 0,則不會發生選舉,所有路由器停留在雙向狀態中。
解決:確保至少一台路由器具有一個至少為 1 的 IP OSPF 優先順序。
(4)OSPF 陷入 EXSTART/EXCHANGE —— 在 EXSTART 或 EXCHANGE 狀態的 OSPF鄰居正處於嘗試交換 DBD (資料庫描述)分組的過程中。
原因:
不匹配的介面 MTU
鄰居上重複的路由器 ID
無法用超過特定 MTU 長度進行 PING
斷掉的單播連通性,它可能是因為錯誤的 DLCI ,訪問列表或轉單播的 NAT
( 5)OSPF 陷入 LOADING —— 鄰居沒有應答或鄰居的應答從未到達本地路由器, 路由器也會陷入 LOADING 狀態。常有 "%OSPF-4-BADLSA" 控制台信息。
原因:
不匹配的 MTU
錯誤的鏈路狀態請求分組
3、點到點鏈路的一方是無編號的
interface s0
ip unnumbered loopback0
解決:雙方都需要成為一個有編號點到點鏈路或一個無編號點到點鏈路。
4、ABR 沒有產生一個類型 4 的匯總 LSA
類型4 的匯總 LSA 的一個功能是宣告到其他區域的 ASBR 的可達性。如果同一個區域中存在 ASBR 則不需要類型 4 的 LSA.
show ip ospf database external 命令的輸出顯示在路由器的外部 OSPF 資料庫中是否存在路由。
show ip ospf database asbr-summary 命令的輸出顯示路由是否有類型4的 LSA.
檢查 R 是否真是 ABR. 如果是,則產生類型 3 或類型 4 的匯總 LSA.show ip ospf
5、轉發地址不能通過區域內或區域間路由獲知
當 OSPF 獲得一條外部 LSA 時,它在將該路由裝入路由選擇表之前要確定轉發地址可通過一條 OSPF 區域內或區域間路由獲知。如果轉發地址不能通過區域內或區域間路由獲知,OSPF不會將路由裝入路由選擇表中。
有可能的解決:
不在 ABR 上進行匯總
在 ASBR 上過濾再分布入 OSPF 中的直接子網
router ospf 1
redistribute rip subnets
6、路由匯總問題
兩種類型匯總:
可執行在 ABR 上的區域間路由匯總
可執行在 ASBR 上的外部路由匯總
(1)區域間匯總
router ospf 1
area 3 range x.x.x.0 255.255.255.0
通過 show ip ospf 可以查看
(2)外部匯總
router ospf 1
summary-address x.0.0.0 255.0.0.0
7、CPUHOG 問題
產生在:鄰居形成過程
LSA 刷新過程
8、SPF 計算和路由翻動
只要拓撲有變化, OSPF 就運行 SPF 演算法再次計算最短路徑優先樹。可能引起鏈路的不穩定。
原因:
區域內的介面翻動
區域內的鄰居介面翻動
重複的路由器 ID
使用 show ip ospf 命令可查看在一個給定區域中 SPF 演算法運行的次數;
使用 debug ip ospf monitor 來隔離一個翻動的 LSA ;
使用 show log 命令顯示由介面引起的翻動。
解決:
修復正在翻動的鏈路
重新定義區域邊界
2.5 排除 IS-IS 故障
1、IS-IS 鄰接問題
通常由鏈路故障和配置錯誤引起。
show clns neighbors 顯示所有希望與被調查的路由器成為鄰接的鄰居
debug isis adj-packets 命令來調試
2、部分或所有鄰接沒有形成
步驟 1—— 檢查鏈路故障。 show ip interface brief
步驟 2—— 檢查配置錯誤。 show run
步驟 3—— 檢查不匹配的 1 級和 2 級介面。
步驟 4—— 檢查區域的錯誤配置。
步驟 5—— 檢查錯誤配置的子網
步驟 6—— 檢查重複的系統 ID
3、鄰接陷入 INIT 狀態
常見原因:不匹配的介面 MTU 和認證參數。 show clns neighbors 可看到
步驟 1—— 檢查認證 debug isis adj-packets
步驟 2—— 檢查不匹配的 MTU debug isis adj-packets
步驟 3—— 檢查 IS-IS 的 HELLO 填充禁止 (命令同上)
使用 show clns interface 查看介面上的 HELLO 填充狀態
4、ES-IS 鄰接形成代替了 IS-IS 鄰接形成
在 IP 環境中運行 IS-IS 的 CISCO 路由器仍然監聽 ES-IS 協議所產生的 ISH.當物理層和
數據鏈路層工作時,即使沒有建立IS-IS鄰接的適當條件,仍能形成ES-IS鄰接。
show clns neighbors
5、路由通告問題
大多數路由通告問題都可被限制為源端的配置問題或鏈路狀態分組 (LSP)的傳播問題。
Dijkstra 演算法運行在 LS 資料庫上來獲得每個被通告路由的最佳路徑。
debug isis update-packets
debug isis snp-packets
以上兩個調試幫助故障排除 LSP 洪泛問題和鏈路狀態資料庫同步。
路由沒有到達網路遠端的問題可能有許多潛在原因,包括鄰接問題,第 1/2 層問題,IS-IS錯誤配置以及其他問題。
6、路由翻動問題
網路中 SPF 進程的高 CPU 利用率( SHOW PROCESS CPU 命令)也應標記為不穩定。
不穩定鏈路。
翻動還有可能是由 LSP 的錯誤風暴或一個路由選擇環路引起。
show isis spf-log 命令顯示哪個 LSP 變化最頻繁以及哪個 LSP 角發了 SPF 計算。
show isis update-packets
2.6、排除 BGP 故障
1、故障排除 BGP 鄰居關係問題
遵循:首先,應檢查第 1/2 層,然後是 IP 連通性(第 3 層),TCP 連接(第4層),最後是 BGP 配置。
(1)直接的外部 BGP 鄰居沒有初始化
自治系統( AS)不會向 AS 發送或從 AS 接收任何 IP 前綴更新,除非鄰居關係達到established 狀態,該狀態是 BGP 鄰居建立的最後階段。當 AS 有一條單一的 EBGP 連接時,直到 BGP 完成了它的收發 IP 前綴操作後 IP 連通性才能發生。
原因:
第 2 層宕掉了,阻止了與直接的 EBGP 鄰居通信
在 BGP 配置中有錯誤的鄰居 IP 地址
命令: show ip bgp summary 和 show ip bgp neighbors 檢查 BGP 鄰居關係
active 狀態表示鄰居間沒有發生成功的通信, 並且鄰居未形成。 用 PING 測試其連通性,失敗則表示要修復第 1/2 層問題。
debug ip bgp 能夠幫助診斷問題
(2)非直接的外部 BGP 鄰居沒有初始化
有些情況下, EBGP 鄰居不是直連的。 BGP 鄰居關係能夠建立在試圖形成由一台或多台路由器分隔開的 EBGP 鄰居關係的路由器之間。這種鄰居在 IOS 中被稱為 EBGP 多跳。
當路由器之間存在多個介面並且需要在那些介面之間 IP 流量負載均衡時,通常在迴環介面之間建立 EBGP 對等實體。
可能的原因:
到非直連對等實體地址的路由從路由選擇表中丟失了
BGP 配置中缺少 ebgp-multihop 命令
缺少 update-source interface 命令
命令: show ip bgp summary 和 show bgp neighbors
router bgp 109
neighbor x.x.x.x remote-as 110
neighbor x.x.x.x ebgp-multihop 2
neighbor x.x.x.x update-source loopback0
(3)內部 BGP 鄰居沒有初始化
原因:
到非直接 IBGP 鄰居的路由丟失了
BGP 配置中缺少 update-source interface 命令
(4)BGP 鄰居(外部和內部)沒有初始化
介面訪問列表 /過濾是 BGP 鄰居活動問題的一個常見原因。
2、故障排除 BGP 路由通告
發生在 BGP 路由通告的產生和接收中。
(1)沒有產生 BGP 路由
原因:
IP 路由選擇表中沒有匹配的路由
發生了配置錯誤
BGP 自動匯總到有類別 /網路邊界
(2)向 IBGP/EBGP 鄰居傳播 /產生一條 BGP 路由的問題配置的分布列表過濾可能是該問題的起因,或者是策略路由選擇有問題。
(3)向 EBGP 鄰居但沒有向 IBGP 鄰居傳播一條 BGP 路由的問題
show run
show ip bgp
show ip bgp summary
解決:
使用 IBGP 全互聯
設計一個路由反射器模型。
router bgp 109
neighbor x.x.x.x route-reflector-client
設計一個聰明模型
(4)向 IBGP/EBGP 鄰接傳播一條 IBGP 路由的問題
一條 BGP 路由只有首先通過 IGP 或靜態路由獲得後才是同步的。
show ip bgp 命令的輸出顯示了 BGP 表中的不同步路由。
3、排除路由沒有裝入 IP 路由選擇表中的故障
原因:
( 1) IBGP 原因
IBGP 路由不同步
BGP 下一跳不可達
( 2)EBGP 原因
在多跳 EBGP 情況下 BGP 下一跳不可達
BGP 路由被抑制
多出口鑒別器( MED )值為無窮
4、BGP 下一跳不可達
解決:
使用靜態路由或再分布經由 IGP 宣告 EBGP 下一跳
router ospf 1
network x.x.x.0 0.0.0.255 area 0
使用 next-hop-self 命令將下一跳改變為一個內部對等實體地址
router bgp 109
router ospf x.x.x.x next-hop-self
4、BGP 路由被抑制
抑制( dampening)是減小本地 BGP 網路中來自 EBGP 鄰居的不穩定 BGP 路由所引起的不穩定性的方法。
抑制是一種為一條翻動的 BGP 路由指派一個罰點的方法。
router bgp 109
bgp dampening


TAG:SPOTO思博網路 |