谷歌、Facebook 均因「更改配置」導致連鎖故障

科技 03-16

我們之前有報道《谷歌全球性癱瘓：「底層存儲基礎設施」出現一個錯誤》，今天發布的內容為谷歌雲出具的詳細故障公告。

2019年3月12日星期二，谷歌的內部blob存儲服務遭遇服務中斷，持續時間為4小時10分鐘。

具體的影響描述

2019年3月12日星期二太平洋夏令時（PDT）18點40分到22點50分，谷歌內部blob（大型數據對象）存儲服務出現錯誤率提高的情況，故障期間平均錯誤率20%，短期峰值錯誤率更是達到了31%。出現故障的谷歌服務包括Gmail、Photos和Google Drive，不過與谷歌雲存儲（GCS）的情況一樣，內置於那些服務的緩存和冗餘機制大大減小了對用戶帶來的影響。受此事件影響的非谷歌雲平台（GCP）服務會另外出具一份事件報告。

給客戶帶來最大影響的谷歌雲平台服務包括如下：

谷歌雲存儲出現了長尾延遲增加，平均錯誤率為4.8%。所有存儲桶位置和存儲類別都受到影響。依賴谷歌雲存儲的GCP服務也受到影響。

Stackdriver Monitoring檢索歷史時間序列數據時的錯誤率高達5%。最近的時間序列數據可用。警報功能沒有受到影響。

App Engine的Blobstore API出現了延遲增加，獲取blob數據時峰值錯誤率達到了21%。 App Engine部署環境出現了錯誤增加的情況，峰值錯誤率高達90%。從App Engine獲取靜態文件也出現了錯誤增加的情況。

根本原因

2019年3月11日星期一，谷歌的網站可靠性工程師（SRE）接到警報，顯示內部blob服務使用的元數據的存儲資源顯著增加。3月12日星期二，為了減少資源使用，SRE更改了配置，這番操作的副作用是，導致該系統中查找blob數據位置的一個關鍵部分過載。增加的負載最終導致了級聯故障。

補救和預防

PDT 18點56分，SRE接到服務中斷的警報，立即停止了更改配置的作業。為了從級聯故障中恢復過來，SRE手動減少通向blob服務的流量，以便任務啟動而不因高負載而崩潰。

為了防止此類服務中斷，我們將改進存儲服務區域之間的隔離，以便故障不太可能帶來全局影響。我們將加強更迅速地提供和配置資源的能力，以便從高負載觸發的級聯故障中恢復過來。我們將採取軟體措施，防止導致系統關鍵部分過載的任何配置更改。我們將改進元數據存儲系統的減載（load shedding）行為，以便過載時輕鬆自如地降級。

昨天《Facebook 全面癱瘓、包括 Instagram 和 WhatsApp》故障8個小時的原因同樣是伺服器配置變更引發了一系列問題。Facebook未公布具體故障細節。

昨天蘋果的iCloud也故障了四個小時：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雲頭條 的精彩文章:

※黑客可將後門植入到裸機雲伺服器上
※經濟下行是雲計算快速發展的良機

TAG:雲頭條 |