當前位置:
首頁 > 科技 > 2018年終盤點之雲宕機事故 主流雲廠商紛紛「中彈」

2018年終盤點之雲宕機事故 主流雲廠商紛紛「中彈」

當無數人同時登錄一家購物網站,引發的後果可能是「宕機」,啥東西也買不了。如果大的「宕機」事件發生,那影響的就不僅僅是一家購物網站,或許是很多網站或應用,受影響的人高達幾百萬甚至上千萬人。

2018年,雲計算市場的幾大主流雲服務提供商均發生過「宕機事件」,包括谷歌雲、AWS、微軟Azure、阿里雲、騰訊雲等。

2018年終盤點之雲宕機事故 主流雲廠商紛紛「中彈」

打開今日頭條,查看更多圖片

1. 谷歌雲自動化失效致宕機

時間:1月18日

宕機時間:93分鐘

事故詳情:1月18日,谷歌雲自動化機制失效,導致其us-central1 和 europe-west3 兩大可用區中的計算引擎停運 93 分鐘。谷歌稱,「網路編程失效」導致Autoscaler(自動擴展器)服務無法正常運行。

補救措施:工程團隊手動切換到替換任務,以恢複數據持久層正常運行。

2. 谷歌雲一資料庫故障

時間:2月15日

宕機時間:1個小時

事故詳情:2月15日,谷歌應用開發平台出現資料庫故障,給不少平台客戶帶來麻煩。在中午12時左右,谷歌雲的一款非關係型資料庫出現問題,導致谷歌PaaS服務Google App Engine用戶經歷長達一小時的錯誤與延遲情況。很多遊戲玩家在此次事故中遭受嚴重波及,因為不少熱門在線遊戲使用了谷歌服務,比如Pokemon Go。

3. AWS 宕機致部分 Alexa 失聲

時間:3月2日

宕機時間:數小時

事故詳情:3 月 2 日凌晨,依賴 AWS 服務的部分 Alexa 開始出現失聲問題,該智能音箱的紅色指示燈不停閃爍表明服務出現中斷,Alexa 也一直發出系統內置道歉聲。隨後幾小時內,Alexa 又接到了成千上萬封投訴。據了解,Alexa 這一故障源於亞馬遜 AWS 的網路服務出現問題,其他依賴 AWS 作為骨幹網的應用在當天也受到了影響,包括軟體開發公司 Atlassian,雲通訊公司 Twilio 等。

補救措施:亞馬遜 AWS 的在線支持團隊對此進行了修復

4. 微軟Office 365宕機致郵件出現問題

時間:4月6日

宕機時間:不清

事故詳情:4月6日,大量歐洲、亞洲和美國的微軟客戶,其電子郵件賬戶出現問題。其中,英國受影響最大,因Office 365的宕機,許多企業無法發送郵件與登錄Skype。有些用戶報告稱,它們只能使用單點登錄來使用那些辦公生產力套件。

2018年終盤點之雲宕機事故 主流雲廠商紛紛「中彈」

5. AWS 北弗吉尼亞地區數據中心出現硬體問題

時間:5 月 31 日

宕機時間:30分鐘左右

事故詳情:5 月 31 日,因北弗吉尼亞地區的數據中心出現硬體故障,AWS 再次出現連接問題。在此事故中,AWS 的核心 EC2 服務,Workspaces 虛擬桌面服務以及 Redshift 數據倉庫服務均受到影響。

補救措施:人為修復

6. 微軟 Azure 愛爾蘭數據中心宕機

時間:6月17日

宕機時間:5小時以上

事故詳情:6 月 17 日至 18 日,因愛爾蘭數據中心的恆溫系統出現問題,微軟 Azure 被高溫影響導致存儲和網路中斷。

7. 阿里雲故障

時間:6月27日

宕機時間:30分鐘,恢復時間花費1小時左右

事故詳情:6 月 27 日 16:21 左右,阿里雲出現重大技術故障,16:50 分開始陸續恢復,官方給出的故障時間為 30 分鐘左右,恢復時間大概花費一小時。經過技術復盤,阿里給出的故障原因為工程師團隊上線自動化運維新功能時,執行了一項變更驗證操作,該操作在測試環境中未發生問題,上線後觸發未知 bug。

補救措施:人工介入,定位並解決問題

2018年終盤點之雲宕機事故 主流雲廠商紛紛「中彈」

8. AWS宕機致使亞馬遜網站癱瘓

時間:7月16日

宕機時間:持續近6小時

事故詳情:7月16日是亞馬遜會員日,即Amazon Prime Day。但是,在第四屆亞馬遜會員日開幕的幾分鐘後,亞馬遜網站及 App 就同時發生嚴重宕機,不光電子商務業務受損,亞馬遜的其他產品和服務都受到了不同程度的影響。亞馬遜對此給出的解釋是 AWS 管理控制台出現全球性問題。

9. 谷歌雲宕機

時間:7月17日

宕機時間:不清

事故詳情:7月17日下午,谷歌雲宕機致使Spotify和Snapchat等熱門應用服務中斷。谷歌稱,宕機影響谷歌應用開發平台Google App Engine、Cloud Networking和Stackdriver,後者旨在為公有雲用戶提供績效與數據診斷服務。之後,谷歌發布一項更新,稱該事件導致的502問題在下午1:05得到解決。

2018年終盤點之雲宕機事故 主流雲廠商紛紛「中彈」

10. 騰訊云云硬碟故障

時間:7月20日

事故詳情:8月5日,北京清博數控科技有限公司(以下簡稱「前沿數控」)在官方微博發布了一篇題為《騰訊雲給一家創業公司帶來的災難》的博文,文中表明,2018 年 7 月 20 日,騰訊云云硬碟發生故障(騰訊雲後期給出的事故原因說明),導致該公司存放的數據全部丟失,並且不能恢復,這是該創業公司近千萬元級的平台數據,包括經過長期推廣導流積累起來的精準註冊用戶以及內容數據。

補救措施:騰訊雲表示,監控到異常後第一時間向用戶告知了故障狀態,並立即組織文件系統專家並聯合廠商技術專家嘗試修複數據。但經過多方努力,最終仍有部分數據完整性校驗失敗。

11. 騰訊雲宕機

時間:7月24日

宕機時間:不清,恢復時間30-40分鐘

事故詳情:7 月 24 日,用戶登錄騰訊雲時反覆出現超時、退出等情況,即便更換運營商,結果也一樣。隨後,騰訊雲發布通知稱初步確定是運營商光纜中斷,運營商已經找到斷點,正在連線中,主要受影響的為廣州區域部分用戶。

12. 微軟雲 Azure 數據中心遭雷劈宕機

時間:9月4日

宕機時間:超過24小時

事故詳情:9月4日,美國中南部地區發生雷雨天氣,而位於附近的微軟中南區數據中心被雷擊中,導致數據中心的電源電壓增加,影響了冷卻系統,進而致使多個Azure 服務出現連接問題,客戶難以訪問儲存在中南區數據中心的數據。

據悉,此次受影響範圍較廣,包括了Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等,這些服務已下線了數個小時之久。

補救措施:9 月 5 日上午,微軟工程師已恢複數據中心的電力和大多數網路設備,其他服務也在陸續恢復中。

2018年終盤點之雲宕機事故 主流雲廠商紛紛「中彈」

13. 谷歌公有雲中的Kubernetes容器服務宕機

時間:11月9日

宕機時間:近19小時

事故詳情:11 月 9 日,谷歌公有雲上提供的 Kubernetes 服務(GKE)節點池建置功能出現異常,維運人員無法透過 Cloud Console UI 建立新節點。

補救措施:谷歌派工程團隊調查故障原因,並開始著手維修。谷歌表示,受影響的企業用戶可以先改為使用 GCP 內建的 gcloud command,建置新 Kubernetes 節點。

14. Facebook出現宕機

時間:11月12日和20日

宕機時間:數小時

事故詳情:11月12日和20日,Facebook發生兩次宕機事件,影響大量企業協同產品用戶。據悉,11月12日,包括Worksplace協同工具在內的Facebook服務出現宕機,Facebook收到數千起投訴。

11月20日,Facebook又出現宕機事件,有3/4的用戶報告從上午8點到下午早些時候,它們遇到全面宕機或登錄困難問題。

15. 微軟Azure和Office 365出現宕機無法登錄

時間:11月18日

宕機時間:不清

事故詳情:據微軟披露,11月18日,一些用戶無法登錄Azure和Office 365服務。這次宕機影響了許多需要身份驗證而登錄雲服務的用戶,波及範圍很廣,包括整個歐洲、亞太和美洲地區。

從上面發生的15起宕機事故,我們看到雲廠商的可靠性極其關鍵。無論宕機事故大小,主流雲服務提供商一旦出現宕機,將產生很大影響,波及許多雲上企業,也會讓雲服務提供商遭遇信任危機。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 天極網 的精彩文章:

用VR培訓員工 沃爾瑪購買上萬台Oculus GO
邁凱倫定製版一加6T發布:升級6A閃充 定價4599元

TAG:天極網 |