當前位置:
首頁 > 科技 > 谷歌、Facebook 均因「更改配置」導致連鎖故障

谷歌、Facebook 均因「更改配置」導致連鎖故障

我們之前有報道《谷歌全球性癱瘓:「底層存儲基礎設施」出現一個錯誤》,今天發布的內容為谷歌雲出具的詳細故障公告。

2019年3月12日星期二,谷歌的內部blob存儲服務遭遇服務中斷,持續時間為4小時10分鐘。

具體的影響描述

2019年3月12日星期二太平洋夏令時(PDT)18點40分到22點50分,谷歌內部blob(大型數據對象)存儲服務出現錯誤率提高的情況,故障期間平均錯誤率20%,短期峰值錯誤率更是達到了31%。出現故障的谷歌服務包括Gmail、Photos和Google Drive,不過與谷歌雲存儲(GCS)的情況一樣,內置於那些服務的緩存和冗餘機制大大減小了對用戶帶來的影響。受此事件影響的非谷歌雲平台(GCP)服務會另外出具一份事件報告。

給客戶帶來最大影響的谷歌雲平台服務包括如下:

谷歌雲存儲出現了長尾延遲增加,平均錯誤率為4.8%。所有存儲桶位置和存儲類別都受到影響。依賴谷歌雲存儲的GCP服務也受到影響。

Stackdriver Monitoring檢索歷史時間序列數據時的錯誤率高達5%。最近的時間序列數據可用。警報功能沒有受到影響。

App Engine的Blobstore API出現了延遲增加,獲取blob數據時峰值錯誤率達到了21%。 App Engine部署環境出現了錯誤增加的情況,峰值錯誤率高達90%。從App Engine獲取靜態文件也出現了錯誤增加的情況。

根本原因

2019年3月11日星期一,谷歌的網站可靠性工程師(SRE)接到警報,顯示內部blob服務使用的元數據的存儲資源顯著增加。3月12日星期二,為了減少資源使用,SRE更改了配置,這番操作的副作用是,導致該系統中查找blob數據位置的一個關鍵部分過載。增加的負載最終導致了級聯故障。

補救和預防

PDT 18點56分,SRE接到服務中斷的警報,立即停止了更改配置的作業。為了從級聯故障中恢復過來,SRE手動減少通向blob服務的流量,以便任務啟動而不因高負載而崩潰。

為了防止此類服務中斷,我們將改進存儲服務區域之間的隔離,以便故障不太可能帶來全局影響。我們將加強更迅速地提供和配置資源的能力,以便從高負載觸發的級聯故障中恢復過來。我們將採取軟體措施,防止導致系統關鍵部分過載的任何配置更改。我們將改進元數據存儲系統的減載(load shedding)行為,以便過載時輕鬆自如地降級。

昨天《Facebook 全面癱瘓、包括 Instagram 和 WhatsApp》故障8個小時的原因同樣是伺服器配置變更引發了一系列問題。Facebook未公布具體故障細節。

昨天蘋果的iCloud也故障了四個小時:


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲頭條 的精彩文章:

黑客可將後門植入到裸機雲伺服器上
經濟下行是雲計算快速發展的良機

TAG:雲頭條 |