阿里雲因 bug 禁用內部 IP 導致鏈路不通,造成大規模故障
科技
06-28
阿里雲午夜在官網、微博發布了故障公告:
6月27日下午,我們在運維上的一個操作失誤,導致一些客戶訪問阿里雲官網控制台和使用部分產品功能出現問題,引發了大量吐槽。故障於北京時間2018年6月27日16:21左右開始,16:50分開始陸續恢復。
經過緊急技術復盤,故障原因如下:
當天下午,工程師團隊在上線一個自動化運維新功能中,執行了一項變更驗證操作。這一功能在測試環境驗證中並未發生問題,上線到自動化運維繫統後,觸發了一個未知代碼bug。錯誤代碼禁用了部分內部IP,導致部分產品訪問鏈路不通。 後續人工介入後,工程師團隊快速定位問題進行了恢復。
受影響範圍包括阿里雲官網控制台,以及MQ、NAS、OSS等產品功能。
對於這次故障,沒有借口,我們不能也不該出現這樣的失誤!我們將認真復盤改進自動化運維技術和發布驗證流程,敬畏每一行代碼,敬畏每一份託付。
下午 16:30 左右,微信朋友圈、微信群、微博出現阿里雲故障消息,故障原因主要體現在阿里雲官網、控制台無法訪問,嘗試登陸阿里雲官網,顯示如下:
官網有時候可以訪問,有時候顯示502錯誤的網關,即使官網可以訪時,點擊登陸,頁面只會刷新,登陸不了。
官網公告稱16:21左右開始,阿里雲官網的部分管控功能,及MQ、NAS、OSS等產品的部分功能出現故障,以下為全文:
阿里雲官網通告:6月27日阿里雲部分產品及賬號登錄訪問異常通告
【阿里雲】【網路】【異常通告】
異常時間:北京時間2018年6月27日16:21左右。
異常概述:於北京時間2018年6月27日16:21左右開始,阿里雲官網的部分管控功能,及MQ、NAS、OSS等產品的部分功能出現訪問異常,阿里雲工程師正在緊急處理中,請您稍後重試。
【異常更新】
北京時間2018年6月27日 16:50
目前受影響的業務正在逐步恢復中,若遇到異常,請您稍等後重試。
【異常更新】
北京時間2018年6月27日 17:30
目前受影響的業務大部分已經恢復正常,請您確認。若還有異常,請您跟我們反饋,謝謝。
故障時間 50 分鐘左右,故障原因,阿里雲尚未披露。
以下為用戶吐糟:
網友吐糟:畢竟是自主研發的雲,當然有點小脾氣
※靈雀雲 vs 時速雲 vs 才云:中石油 990 萬元 IT 項目,靈雀雲 880 萬拿下
※博通與博科合併後裁員 1100 人
TAG:雲頭條 |