當前位置:
首頁 > 科技 > 阿里巴巴國際環境下的SRE體系實踐

阿里巴巴國際環境下的SRE體系實踐

AliExpress 是阿里巴巴國際電商平台,海外買家覆蓋 200+ 國家,分布廣且離散,國際架構、網路體系複雜,為了提升全球用戶體驗面臨諸多技術挑戰。從 2016 年開始,AliExpress 就開始落地 SRE 相關的實踐,並且收效頗豐。為了了解 AliExpress 全球架構體系下的可用性解決方案及具體實踐,InfoQ 記者採訪了阿里巴巴高級技術專家周志偉。另外,周志偉也將會在 9 月 10 日舉行的 CNUTCon 全球運維技術大會上分享相關話題。

InfoQ:針對新時代的運維,目前有三個比較火的理解,分別是 DevOps、SRE、AIOps,你是如何理解這些理念的?

周志偉:DevOps,我認為是讓研發參與 Ops 的運維活動,為自己負責的應用生命周期負責。在 DevOps 理念中,開發不是說寫完代碼然後交付就完事了,同時,他也要對線上的運維負責。對於互聯網商業公司來說,我認為推行 DevOps 是對客戶的尊重,也是對穩定性負責。因為研發人員能更快的解決由於運維過程出現的問題並修復,更高效準確的參與和修複線上問題,從而提升用戶體驗。當然現在的應用過於龐大、依賴過於複雜,單純的讓 Ops 團隊運維很難做到萬無一失。

在 AliExpress,我認為 SRE 是一個組織,它為網站可用性買單。SRE 由多位領域專家組成,可以解決生產環境發生的各種問題。我們通過大數據分析發現網站問題或者可能存在的風險,當問題發生時能快速有效的止血,恢復問題,同時又有一套工具體系能定位問題的根因。當然這個組織會制定一套圍繞穩定性機制運作的規範,讓大家來遵守。

AIOps,我覺得 AliExpress 現在走的路應該是往這個方向靠的。現在 AliExpress 正在做的是通過大數據驅動 SRE,把 SRE 關心的系統信息、訪問信息等數據進行模型計算,通過機器學習進行問題識別和診斷,這個過程我認為就是 AI 的過程。問題識別和診斷之後會給出一些自動恢復問題指令,機器再通過實時數據檢測指令的有效性,符合預期,繼續執行更大範圍的恢復,直到全面恢復。如果不符合預期則會嘗試其他恢復手段。這套體系還在實驗和摸索,從方案和部分實驗上看是可行的,已經貼近人的判斷甚至有些方面更客觀。但也有很多不足之處,這取決於演算法模型的準確性。我想這是我們要走的路。

InfoQ:AliExpress 是什麼開始實踐 SRE 理念的?可否介紹下目前你們的一些基本情況?

周志偉:AliExpress 的 SRE 是 2016 年開始摸索的,核心思想是分層治理,在最重要的一層用紅線確保實施到位。

在紅線的基礎上建立一系列配套規範(包括監控規範、發布規範、線上運維規範等等),讓全員參與學習。

建設 SRE 運作體系(故障演練、作戰演習、快速響應),讓我們的 SRE 工具、團隊成員在平時都能得到基本的訓練,確保在問題發生時都能在最短的時間恢復(實時也證明通過日常的作戰訓練非常有效,響應速度以及對於工具的信心)。

這些基礎的保障之外我們會更多的參與基礎數據採集和分析,通過大數據的方式運作 SRE,通過大數據發現更多維度的問題,使用損失最小的方式恢復問題,或者說是通過更有效的手段恢復問題。特別是面對國際複雜互聯網時,尤其需要通過大數據來幫助定位是哪個國家哪個地區出現的網路癱瘓。

InfoQ:你認為 SRE 主要解決了 AliExpress 哪些問題?

周志偉:提高 AliExpress 的可用性,事實也說明了這一點,這個組織讓整個 AliExpress 多了一個橫切面去保障,大家相互了解互相學習,解決的不僅僅是線上問題,我認為是預防了很多線上問題發生的可能。同時 SRE 通過大數據的方式進行問題的發現,以及解決。特別是國際互聯網的問題上,我們有多種異地多活和優化機制,更大力度的解決早些年碰到國際網路問題無從下手的尷尬局面。

InfoQ:可否介紹下 AliExpress 的 SRE 方法?

周志偉:首先,我們有 KPI 核心紅線,從組織的角度去確保實施到位,解決了因為有工作量而不執行的難題。

然後,我們有穩定性規範,脫離規範很多事情無從下手,再多的防禦手段也無法防禦來自不遵守規則的破壞。

再者,我們在統一環境標準,應用標準,日誌標準上做了很多工作,這對 SRE 的標準化運作幫助很大。在標準化的前提下,很多自動化工具都可以順暢的開展。

隨後,對於 SRE 組織來說,我們會有常態化的訓練,SRE 成員的應急作戰訓練以及 SRE 恢復工具的訓練(通過故障模擬等手段確保工具的可用性)。

最後,大數據採集,利用大數據驅動 SRE,工具的完善配套,讓整個 SRE 體系智能化起來。(同樣用故障模擬的方式訓練大數據模型的準確性)

從兩個維度推進 SRE 的進步,一個是培養研發人員的「SRE 素質」,另一個就是訓練我們的工具,在需要時不掉鏈子。

InfoQ:可否介紹下你們的分層自動化實踐?

周志偉:我們的分層自動化有幾個切面,從研發過程來看:

研發階段:有持續集成的單元測試保障方法粒度的質量。

測試階段:有介面測試保障介面粒度的質量,然後集成測試確保一套邏輯的完整可靠,當然也會有用戶體驗式的進行交互類的 UI 自動化測試。

發布階段:有預發布自動化,針對 UI、介面層的自動化保護,對上線版本的質量保護。

生產階段:有線上監控、SRE 大數據分析進行問題的跟進保護,出現問題自動報警。

這一套自動化過程是針對整個研發生命周期和線上運維生命周期的,分層自動化越早介入,風險越低。

InfoQ:在 CNUTCon 全球運維技術大會上,你將會為大家重點分享哪些技術點?

周志偉:簡單來說,主要有以下幾點:

全球網路體系複雜,互聯互通問題諸多,如何應對由此帶來的網站可用性問題?

國際架構體系下,全球物理距離使得網路傳輸時間成為技術難點之一,如何解決可用性和提升全球用戶體驗?

如何實現全球多 IDC 下的異地多活?

全球多 IDC 下的數據一致性問題。

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 InfoQ 的精彩文章:

大浪淘沙下的金融企業練就的十八般武藝
股權、期權有哪些坑?從技術創業的角度說開去
一個程序員的審美情感
如何成為機器學習工程師?
我曾以為我的意中人不會是程序員,直到有一天他背上了它

TAG:InfoQ |

您可能感興趣

俄羅斯:正在擺脫美國控制的美元國際金融體系 許多國家在行動
海爾U+通過信息安全體系國際認證 安全體系接軌國際標準
博銳體育團隊研發的國內首款體育商業線上課程體系「SPORiT PLUS」 亮相
IMF總裁呼籲各國聯手完善國際貿易體系
美國AMP安普國際全球金融-簡析中、日、美、英的資本市場體系
美國電子病歷(EHR)中的術語編碼體系
比埃拉適合北京國安的戰術體系嗎?
義大利總統馬塔雷拉:意中兩國都支持國際多邊體系
中國的星官體系
BLG坦克聯盟VS EDG 3C體系,奇葩套路和硬實力的對決
每日動態:美國橡樹嶺與洛斯·阿拉莫斯國家實驗室驗證量子密鑰分發系統功能/美海軍尋求構建無人海上系統自主體系架構
美國英國日本金融監管體系鏡鑒
高德將與阿里巴巴 共同打造智慧交通體系
中國目前的攻防體系VS老美航母體系,在西太作戰會是什麼結果?
厄齊爾宣布退出德國國家隊!德國傳控體系徹底完蛋!
羅馬尼亞的國產「巨艦」,如今在北約海軍體系中淪為「雞肋」
弗里德里希·李斯特.政治經濟學的國民體系
當今國際體系其實就是戰國時代的翻版
TOP橫掃OMG全華班和韓援雙體系切換自如!
全球智投外傳銀行篇-美國金融體系與業務