當前位置:
首頁 > 科技 > 智能運維實踐:硬碟失效預測技術

智能運維實踐:硬碟失效預測技術

智能運維實踐:硬碟失效預測技術

背景

硬碟是存儲系統的最重要組件,其可靠性狀況在很大程度上影響了存儲系統的整體可靠性表現。雖然存儲系統使用了多種技術來處理硬碟失效,確保一定程度的硬碟失效不影響數據可靠性。但在實際生產環境中,多種因素(如腐蝕、震動或硬碟批次缺陷等)仍可能導致雙盤甚至多盤同時或在短時間內相繼失效,影響用戶數據安全。顯而易見,如果能預測硬碟失效的概率,並做提前預防,可大大提升用戶數據的可靠性。

同時,當硬碟失效後,運維人員需要儘快執行數據備份和換盤等操作。通常而言,這些操作屬於非計劃性工作,會顯著增加數據中心運維人員的工作負擔。而硬碟失效預測技術,很大程度上可把這種非計劃性工作變為計劃性工作,從而降低客戶的運維成本。

硬碟分為SSD和HDD兩大類,其失效預測技術也不同。SSD可通過擦寫次數進行壽命預估,實現難度相對不高。而HDD的機械器件眾多,系統精密度高,其失效模型非常複雜,我們很難用簡單的演算法預測其失效概率。隨著人工智慧技術的成熟,如何利用機器學習等技術對HDD進行失效預測,是存儲陣列可靠性領域的一個重要創新方向。

預測演算法的衡量指標

在進入演算法設計前,我們需要首先定義一個演算法的衡量指標。在硬碟失效預測領域,我們用召回率(Recall)虛警率(FAR:False Alarm Rate)來衡量預測演算法的結果。其中,召回率是指演算法識別出的失效硬碟占所有失效硬碟的百分比;而虛警率指失效預測演算法識別出錯的百分比。顯而易見,過低的虛警率(當我們把判定失效硬碟的條件設置得很嚴格時)將導致召回率降低(從而影響預測演算法的有效性);而高的虛警率,將導致召回率的錯誤增高(從另一方面也影響演算法的有效性)。

一個好的演算法,需要在召回率和虛警率之間做取捨。當不同的廠商或者用戶有不同的傾向時,預測模型的選擇也會有較大的差別。基於多年的存儲行業經驗,我們定義了如下標準:就多數用戶的使用場景而言,我們需要使得預測模型在虛警率盡量低(小於0.5%)的情況下召回率大於等於70%。


SATAHDD失效預測的實現原理

定義了硬碟失效預測的衡量指標後,可以真正討論一下如何找到滿足指標的預測模型。以SATA盤為例,其生產廠商會提供SMART (Self-Monitoring Analysisand Reporting Technology)信息,這些信息可以表徵硬碟的運行狀態:如SMART 187反映了不能用ECC(Error-correcting code)糾正的讀請求計數,當這個值大於0時,硬碟則有可能出現了問題,需要更換。其它的SMART特徵,如SMART 5(重分配扇區計數)、SMART 188(命令超時)等也都是表徵硬碟可能失效的重要指標[1]。在[2]中展示了SMART 187與硬碟失效率的一張關係圖(該圖源自於Backblaze),如下所示。

SMART 187

指標與硬碟年失效率(AFR)的關係

可以看出,SMART 187確實在很大程度上與硬碟失效成相關性,當SMART 187高於35時,硬碟失效率上漲很多。所以,有理由相信,通過分析和利用硬碟的SMART數據,我們有可能訓練出滿足評價指標的SATA HDD失效預測模型。


如何訓練模型?

雖然SMART 5 和 SMART 187等指標對於SATA HDD的失效預測非常重要,但是基於HDD失效模式的複雜度,僅僅用這幾個指標(機器學習中稱為特徵-Feature)訓練的模型是不能夠滿足要求的,所以我們需要選取儘可能多的特徵來訓練模型。但由於維度詛咒(Curse of Dimensionality,指選擇的特徵過多反而會導致模型失效),我們不可能將所有的SMART特徵值都作為模型輸入來訓練模型,特別是SMART特徵值中包括原始值和歸一化值等不同緯度的特徵時。

另外,SMART屬性中並不是所有值都與硬碟失效有關,甚至有些值與硬碟失效的關係跟人們的預計並不相符,例如下圖:

SMART 12

與硬碟年失效率的關係

該圖仍來自[2],其中SMART 12代表硬碟上電次數,與直覺相反的是,它的值與硬碟失效率並沒有正相關性。因為SMART 12非常大的時候,硬碟失效率反而下降了。

所以,如何合理選擇合理的特徵,並且有可能對這些特徵進行組合、轉換等操作生成新的特徵以滿足模型訓練的要求,這是硬碟失效預測模型訓練的關鍵。下圖展示了當特徵選擇不恰當時模型的輸出結果。可以看出在FAR為0.5%時,Recall只有不到0.5,效果不甚理想:

一個特徵選擇不恰當的模型訓練結果

在華為存儲實驗室中,我們通過收集華為數據中心的大量硬碟信息,合理選擇了特徵和演算法,得到了如下模型的訓練結果,可以看到,其效果已滿足我們對預測演算法的目標要求:

存儲實驗室開發的硬碟失效預測模型效果


SAS HDD的失效預測

上文解釋了SATA HDD失效預測的原理,更進一步的,我們還需要考慮如何預測SAS HDD的失效。SAS HDD的失效預測不能採用與SATA HDD相同的模型,除了在生產製造工藝等方面的不同外,一個主要原因是SAS介面並不能提供像SMART一樣的硬碟狀態特徵。SAS HDD提供了所謂的SCSI Log Page,提供了諸如grown defect list、non-medium error、unrecovered read error、unrecovered write error和unrecovered verified error等信息,而這些信息很多是硬碟廠商檢查硬碟狀態後自己定義的結果。在模型訓練過程中,我們發現這些值並不足以支撐足夠好的預測模型。因此,在SAS HDD的失效預測中,需要加入更詳細的診斷信息(如希捷的FARM:Field-Accessible Reliability Metrics Specification),以提供在SAS Log Page里缺失卻比較重要的硬碟特徵,如SMART 7、SMART 188等等。因此在SAS HDD的失效預測中需要同時使用Log Page與FARM信息作為輸入數據特徵。


華為eService系統的雲端硬碟失效預測能力

可以看出,正確的選擇數據特徵,使用合適的分類演算法,合理的調節模型參數是一個成功的失效預測模型的關鍵。事實上,基於華為數據中心的海量機械盤數據,華為存儲的雲端智能運維繫統- eService已經訓練出HDD失效預測模型,並可以在近期提供雲端的HDD失效預測能力。當客戶數據中心硬碟狀態數據接入eService系統,該系統會根據已有模型實時預測硬碟失效狀態並及時提醒客戶更換即將失效的硬碟,從而大幅提升客戶數據可靠性,降低運維成本。


未來展望

雖然eService系統已經提供HDD的失效預測的能力,但是這僅僅是開始。隨著接入eService的設備數量的上升,通過不斷優化的訓練過程,我們可以預期這個能力的精確度會不斷提升,給用戶帶來更大的價值。


參考資料

[1]https://www.pcworld.com/article/3129275/hardware/these-5-smart-errors-help-you-predict-your-hard-drives-death.html

[2]https://www.computerworld.com/article/2846009/the-5-smart-stats-that-actually-predict-hard-drive-failure.html


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 高端存儲知識 的精彩文章:

Gartner 2018對象存儲關鍵能力評估

TAG:高端存儲知識 |