當前位置:
首頁 > 科技 > 畸形數據包導致美國遭遇 37 小時的全國性故障

畸形數據包導致美國遭遇 37 小時的全國性故障

美國聯邦通信委員會(FCC)就2018年12月的故障批評了CenturyLink,但未給予懲罰。

FCC的一份新報告稱,CenturyLink在2018年12月那次長達37小時的全國性故障干擾了數百萬美國人的911服務,阻礙了至少886人次的911電話。

早在去年12月,FCC主席Ajit Pai稱CenturyLink光纖網路的故障「完全不可接受」,誓言會徹查。FCC今天公布了調查結果,描述了CenturyLink如何未遵守本可以阻止故障的最佳實踐。但Pai仍未宣布對CenturyLink給予任何懲罰。

該報告稱,那次故障的波及面很廣,影響了與CenturyLink連接的其他眾多網路運營商,包括康卡斯特和Verizon。報告摘要稱:

故障影響了依賴CenturyLink傳輸服務的通信服務提供商、企業客戶和消費者,該傳輸服務將來自不同提供商的流量路由傳輸到全國各地。故障導致電話和寬頻服務(包括911電話呼叫)大範圍中斷。39個州多達2200萬客戶受影響,其中包括29個州的約1700萬客戶,他們無法可靠地訪問911。至少886人次的911電話未接通。

FCC稱,長達37小時的故障始於12月27日,「起因是設備故障,網路配置錯誤加劇了該故障。」FCC稱,CenturyLink估計其網路上超過1210萬個電話呼叫「因此被阻或降級」。

此外,CenturyLink約110萬的DSL客戶在這37小時內無法使用服務。FCC稱,另外260萬DSL客戶「可能遭遇服務降級」。

Pai今天又稱故障「完全不可接受」,「通信提供商記取從這次事件中獲得的教訓很重要。」

但FCC沒有宣布懲罰,甚至沒有下令要求CenturyLink採取具體措施以升級網路。相反,FCC稱它「將與利益有關方進行外聯以宣傳最佳實踐,並與其他主要傳輸提供商聯絡,討論網路實踐」,並「向小型提供商提供援助,幫助確保我們國家的通信網路保持穩健、可靠、有彈性。」FCC稱會發布一份公告,「提醒公司採取行業認可的最佳實踐」。

雖然FCC在廢除網路中立規則時解除了寬頻管制,不過仍監管CenturyLink等運營商的固話網路,對普通運營商擁有Title II監管權。

FCC專員Jessica Rosenworcel稱,報告應早點完成;報告應附有「避免重蹈覆轍的行動計劃。這個大問題沒有這樣的行動計劃。」

根本原因

FCC的報告稱,問題始於12月27日上午,當時「科羅拉多州丹佛市節點的一個交換模塊自發地生成了四個畸形管理數據包」。

CenturyLink和提供該節點的供應商Infinera告訴FCC,「他們不知道怎麼或為何生成了畸形數據包。」

FCC報告解釋,畸形資料庫「通常因表明數據包無效的特點而立即被丟棄」,但此事件中沒有被立即丟棄:

在此事件中,畸形數據包包括通常生成的有效網路管理數據包的片段。每個畸形數據包都有導致故障的四個屬性:

廣播目標地址,這意味著數據包被指令發往所有聯網的設備;

有效的頭部和有效的校驗和;

沒有到期失效時間,這意味著數據包不會因很早前創建而被丟棄;

大於64位元組的大小。

FCC稱,交換模塊將這些畸形數據包「作為網路管理指令發送到線路模塊」,這些數據包「傳送到所有聯網的節點」。接收到數據包的每個節點隨後「將數據包轉播到所有的聯網節點」。

報告繼續稱:

每個聯網的節點繼續通過專有管理信道將畸形數據包轉播到與之連接的每個節點,因為數據包看起來有效,又沒有到期失效時間。這個過程無限重複。

畸形數據包的不斷傳輸導致沒完沒了的反饋循環,因而消耗了受影響節點的處理能力,這進而破壞了節點保持內部同步的能力。具體來說,如果指令發送到一對線路模塊,但只有一個線路模塊實際接收到信息,那麼發送到輸出線路模塊的指令就失去同步。沒有這種內部同步,節點就會喪失路由傳輸數據的能力。由於這些節點失效,結果CenturyLink網路出現多次故障。

恢復和未來改變

CenturyLink在凌晨3點56分意識到故障,到上午10點左右,「派網路工程師前往內布拉斯加州奧馬哈和密蘇里州堪薩斯城,直接登錄到受影響的節點。」他們後查明問題出在丹佛節點上。晚上9點02分,公司「找出並撤下了生成畸形數據包的那個模塊」。

但故障仍未排除,因為「畸形數據包繼續複製並在網路上傳輸,從一節點傳輸到另一節點的過程中生成更多數據包,」FCC寫道。午夜剛過,CenturyLink工程師「開始指令節點不再應答畸形數據包。」他們還「禁用了專有管理信道,防止進一步傳輸畸形數據包。」

到12月28日上午5點07分,「網路大部分」正常運行,但所有節點直到當晚11點36分才恢復正常。

即使所有節點恢復正常後,「一些客戶仍遇到故障的餘波,因為CenturyLink繼續重置受影響的線路模塊,並更換未能成功重置的線路模塊」,FCC稱。CenturyLink確認,到12月29日凌晨12點01分網路才「穩定下來」。

未遵循最佳實踐

報告稱,幾個最佳實踐本可以防止故障或減小負面影響。比如說,FCC稱CenturyLink及其他網路運營商應禁用未使用的系統功能。

FCC寫道:「在這個情況下,專有管理信道默認啟用,以便需要時可以使用。雖然CenturyLink不打算使用該功能,但任由該功能未配置、啟用。但任由管理信道啟用給網路帶來了漏洞,由於允許畸形數據包在網路上不斷轉播,因此導致了這起故障。」

報告還稱,CenturyLink本可以採用更強大的過濾機制來防止畸形數據包傳播。CenturyLink使用了「旨在僅僅應對特定風險的過濾器」。相反,CenturyLink本可以採用只允許預期流量進入的「catch-all過濾器」。

FCC稱,CenturyLink還本應在其網路監控中設置「內存和處理器利用率警報」。儘管畸形數據包「迅速讓節點的處理能力不堪重負」,這「沒有觸發」CenturyLink系統中的任何警報。

事件發生後,CenturyLink「換掉了有故障的交換模塊,將其發給Infinera進行取證分析,」FCC寫道。FCC稱,Infinera的工程師仍無法再現問題,但涉事公司「已採取了額外措施以防止這個故障重演」。

那些額外措施包括CenturyLink禁用專有管理信道。「Infinera已禁用了CenturyLink網路上新節點的信道,並更新了節點的產品手冊,建議在未使用的情況下禁用該信道,」FCC稱。

報告繼續稱:

該服務提供商和供應商還為網路管理事件制定了網路監控計劃,以更快地檢測類似事件。目前,CenturyLink正在更新其節點的乙太網管制器(policer),以減小將來傳輸畸形數據包的機會。改進的乙太網管制器可迅速識別並終止無效數據包,防止傳播到網路中。預計這項工作預將於2019年秋季完成。

今天CenturyLink表示「故障是生成畸形數據包的網路管理卡引起的;遺憾的是,畸形數據包在CenturyLink的傳輸網路上一路轉播。」

CenturyLink進一步表示,它「已採取諸多措施幫助防止問題再次發生,包括禁用這些畸形資料庫在事件期間通過的通信信道,並加強網路監控。我們重視客戶,對此事件可能造成的任何不便深表遺憾。」

對康卡斯特和Verizon等運營商的影響

FCC稱,故障對依賴CenturyLink長途運輸網路的其他供應商產生了「連鎖效應」。

FCC稱,「故障可能影響康卡斯特的3552495個VoIP用戶長達49小時32分鐘」,康卡斯特的電話客戶可能遇到「快速忙碌信號或呼叫質量下降,如果呼叫在受影響的傳輸網路上傳輸。」

故障還擾亂了康卡斯特在愛達荷州轉接911電話的能力。

Verizon使用CenturyLink的網路來傳輸其部分無線網路流量,「故障影響了Verizon Wireless在西部幾個州的網路,包括多個地方出現間歇性服務問題,」FCC稱。

FCC稱,使用Verizon CDMA網路的上成千上萬Verizon客戶在故障期間無法撥打911。Verizon LTE上的911服務未受影響,「因為LTE網路不使用受影響的CenturyLink網路進行傳輸。」

FCC稱,「CenturyLink故障還對其他服務提供商造成了較小的影響。」不過,這些較小的影響波及數百萬人。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲頭條 的精彩文章:

混合雲不是過去的混合雲!
國家稅務總局2019年廠商 37 家協議入圍

TAG:雲頭條 |