2018年終盤點之雲宕機事故主流雲廠商紛紛「中彈」

科技 01-04

當無數人同時登錄一家購物網站，引發的後果可能是「宕機」，啥東西也買不了。如果大的「宕機」事件發生，那影響的就不僅僅是一家購物網站，或許是很多網站或應用，受影響的人高達幾百萬甚至上千萬人。

2018年，雲計算市場的幾大主流雲服務提供商均發生過「宕機事件」，包括谷歌雲、AWS、微軟Azure、阿里雲、騰訊雲等。

打開今日頭條，查看更多圖片

1. 谷歌雲自動化失效致宕機

時間：1月18日

宕機時間：93分鐘

事故詳情：1月18日，谷歌雲自動化機制失效，導致其us-central1 和 europe-west3 兩大可用區中的計算引擎停運 93 分鐘。谷歌稱，「網路編程失效」導致Autoscaler(自動擴展器)服務無法正常運行。

補救措施：工程團隊手動切換到替換任務，以恢複數據持久層正常運行。

2. 谷歌雲一資料庫故障

時間：2月15日

宕機時間：1個小時

事故詳情：2月15日，谷歌應用開發平台出現資料庫故障，給不少平台客戶帶來麻煩。在中午12時左右，谷歌雲的一款非關係型資料庫出現問題，導致谷歌PaaS服務Google App Engine用戶經歷長達一小時的錯誤與延遲情況。很多遊戲玩家在此次事故中遭受嚴重波及，因為不少熱門在線遊戲使用了谷歌服務，比如Pokemon Go。

3. AWS 宕機致部分 Alexa 失聲

時間：3月2日

宕機時間：數小時

事故詳情：3 月 2 日凌晨，依賴 AWS 服務的部分 Alexa 開始出現失聲問題，該智能音箱的紅色指示燈不停閃爍表明服務出現中斷，Alexa 也一直發出系統內置道歉聲。隨後幾小時內，Alexa 又接到了成千上萬封投訴。據了解，Alexa 這一故障源於亞馬遜 AWS 的網路服務出現問題，其他依賴 AWS 作為骨幹網的應用在當天也受到了影響，包括軟體開發公司 Atlassian，雲通訊公司 Twilio 等。

補救措施：亞馬遜 AWS 的在線支持團隊對此進行了修復

4. 微軟Office 365宕機致郵件出現問題

時間：4月6日

宕機時間：不清

事故詳情：4月6日，大量歐洲、亞洲和美國的微軟客戶，其電子郵件賬戶出現問題。其中，英國受影響最大，因Office 365的宕機，許多企業無法發送郵件與登錄Skype。有些用戶報告稱，它們只能使用單點登錄來使用那些辦公生產力套件。

2018年終盤點之雲宕機事故主流雲廠商紛紛「中彈」

5. AWS 北弗吉尼亞地區數據中心出現硬體問題

時間：5 月 31 日

宕機時間：30分鐘左右

事故詳情：5 月 31 日，因北弗吉尼亞地區的數據中心出現硬體故障，AWS 再次出現連接問題。在此事故中，AWS 的核心 EC2 服務，Workspaces 虛擬桌面服務以及 Redshift 數據倉庫服務均受到影響。

補救措施：人為修復

6. 微軟 Azure 愛爾蘭數據中心宕機

時間：6月17日

宕機時間：5小時以上

事故詳情：6 月 17 日至 18 日，因愛爾蘭數據中心的恆溫系統出現問題，微軟 Azure 被高溫影響導致存儲和網路中斷。

7. 阿里雲故障

時間：6月27日

宕機時間：30分鐘，恢復時間花費1小時左右

事故詳情：6 月 27 日 16:21 左右，阿里雲出現重大技術故障，16:50 分開始陸續恢復，官方給出的故障時間為 30 分鐘左右，恢復時間大概花費一小時。經過技術復盤，阿里給出的故障原因為工程師團隊上線自動化運維新功能時，執行了一項變更驗證操作，該操作在測試環境中未發生問題，上線後觸發未知 bug。

補救措施：人工介入，定位並解決問題

2018年終盤點之雲宕機事故主流雲廠商紛紛「中彈」

8. AWS宕機致使亞馬遜網站癱瘓

時間：7月16日

宕機時間：持續近6小時

事故詳情：7月16日是亞馬遜會員日，即Amazon Prime Day。但是，在第四屆亞馬遜會員日開幕的幾分鐘後，亞馬遜網站及 App 就同時發生嚴重宕機，不光電子商務業務受損，亞馬遜的其他產品和服務都受到了不同程度的影響。亞馬遜對此給出的解釋是 AWS 管理控制台出現全球性問題。

9. 谷歌雲宕機

時間：7月17日

宕機時間：不清

事故詳情：7月17日下午，谷歌雲宕機致使Spotify和Snapchat等熱門應用服務中斷。谷歌稱，宕機影響谷歌應用開發平台Google App Engine、Cloud Networking和Stackdriver，後者旨在為公有雲用戶提供績效與數據診斷服務。之後，谷歌發布一項更新，稱該事件導致的502問題在下午1:05得到解決。

2018年終盤點之雲宕機事故主流雲廠商紛紛「中彈」

10. 騰訊云云硬碟故障

時間：7月20日

事故詳情：8月5日，北京清博數控科技有限公司(以下簡稱「前沿數控」)在官方微博發布了一篇題為《騰訊雲給一家創業公司帶來的災難》的博文，文中表明，2018 年 7 月 20 日，騰訊云云硬碟發生故障(騰訊雲後期給出的事故原因說明)，導致該公司存放的數據全部丟失，並且不能恢復，這是該創業公司近千萬元級的平台數據，包括經過長期推廣導流積累起來的精準註冊用戶以及內容數據。

補救措施：騰訊雲表示，監控到異常後第一時間向用戶告知了故障狀態，並立即組織文件系統專家並聯合廠商技術專家嘗試修複數據。但經過多方努力，最終仍有部分數據完整性校驗失敗。

11. 騰訊雲宕機

時間：7月24日

宕機時間：不清，恢復時間30-40分鐘

事故詳情：7 月 24 日，用戶登錄騰訊雲時反覆出現超時、退出等情況，即便更換運營商，結果也一樣。隨後，騰訊雲發布通知稱初步確定是運營商光纜中斷，運營商已經找到斷點，正在連線中，主要受影響的為廣州區域部分用戶。

12. 微軟雲 Azure 數據中心遭雷劈宕機

時間：9月4日

宕機時間：超過24小時

事故詳情：9月4日，美國中南部地區發生雷雨天氣，而位於附近的微軟中南區數據中心被雷擊中，導致數據中心的電源電壓增加，影響了冷卻系統，進而致使多個Azure 服務出現連接問題，客戶難以訪問儲存在中南區數據中心的數據。

據悉，此次受影響範圍較廣，包括了Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等，這些服務已下線了數個小時之久。

補救措施：9 月 5 日上午，微軟工程師已恢複數據中心的電力和大多數網路設備，其他服務也在陸續恢復中。

2018年終盤點之雲宕機事故主流雲廠商紛紛「中彈」

13. 谷歌公有雲中的Kubernetes容器服務宕機

時間：11月9日

宕機時間：近19小時

事故詳情：11 月 9 日，谷歌公有雲上提供的 Kubernetes 服務(GKE)節點池建置功能出現異常，維運人員無法透過 Cloud Console UI 建立新節點。

補救措施：谷歌派工程團隊調查故障原因，並開始著手維修。谷歌表示，受影響的企業用戶可以先改為使用 GCP 內建的 gcloud command，建置新 Kubernetes 節點。

14. Facebook出現宕機

時間：11月12日和20日

宕機時間：數小時

事故詳情：11月12日和20日，Facebook發生兩次宕機事件，影響大量企業協同產品用戶。據悉，11月12日，包括Worksplace協同工具在內的Facebook服務出現宕機，Facebook收到數千起投訴。

11月20日，Facebook又出現宕機事件，有3/4的用戶報告從上午8點到下午早些時候，它們遇到全面宕機或登錄困難問題。

15. 微軟Azure和Office 365出現宕機無法登錄

時間：11月18日

宕機時間：不清

事故詳情：據微軟披露，11月18日，一些用戶無法登錄Azure和Office 365服務。這次宕機影響了許多需要身份驗證而登錄雲服務的用戶，波及範圍很廣，包括整個歐洲、亞太和美洲地區。

從上面發生的15起宕機事故，我們看到雲廠商的可靠性極其關鍵。無論宕機事故大小，主流雲服務提供商一旦出現宕機，將產生很大影響，波及許多雲上企業，也會讓雲服務提供商遭遇信任危機。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 天極網 的精彩文章:

※用VR培訓員工沃爾瑪購買上萬台Oculus GO
※邁凱倫定製版一加6T發布：升級6A閃充定價4599元

TAG:天極網 |

2018年終盤點之雲宕機事故 主流雲廠商紛紛「中彈」

2018年終盤點之雲宕機事故主流雲廠商紛紛「中彈」