當前位置:
首頁 > 最新 > 蘇寧雲首次全公開立體式AI監控架構的打造

蘇寧雲首次全公開立體式AI監控架構的打造

本文作者

分享內容

蘇寧系統的複雜性

我今天分享的內容是構建蘇寧立體式監控,首先了解一下蘇寧監控系統的複雜性,為什麼要去構建監控體系、開發這麼多產品,究竟是為了解決什麼問題?

下面兩張圖直觀地展示了蘇寧系統的錯綜複雜,它包含兩個方面:

1. 系統和服務的複雜性:

體系數量龐大:4000+系統,10w+服務。

系統間調用方式複雜:大部分使用RSF,也有其他的方式如HESSIAN,ESB等。

蘇寧業務的複雜:既有線上新業務又有線下老業務,這些業務系統之間會有大量的關聯。

2. 基礎環境的複雜性:

多數據中心,每個數據中心會劃分多個邏輯機房和部署環境。

一個系統伺服器規模往往會很大,例如,緩存伺服器就有可能有上千台伺服器。

既有線上新業務又有線下老業務,這些業務系統之間會有大量的關聯。

為了應對系統、服務、基礎環境的複雜性,能夠及時發現並解決問題,監控體系的建設成為必然也是必須。

監控體系化建設

蘇寧整體監控系統看起來非常龐雜,我主要分三個維度來進行介紹。

第一個維度,從左到右,是從監控的思路進行構建的。

左邊一塊為監測產品,主要用來發現問題。

問題發送給智能告警平台和決策分析平台,定位問題根源,反饋給研發團隊及時進行處理,以及服務治理系統進行治理。

右邊是自動化的干預處理,最後再回到最左的流程中進行監測。

這套流程的維度非常重要,尤其是面向大規模企業級的用戶。因為我們發現市場上大多數公司只有左邊兩個部分,最右邊的部分是缺失的——這部分與特定的企業結構以及場景密切相關,所以很難去做。而我們形成了一整套閉環的監控體系,這點很重要。

第二個維度,從上到下,從前端到後端。我們現在的監控主要面對的是蘇寧一些核心應用,比如蘇寧易購手機端、蘇寧金融易付寶等等。這些應用用戶數量多、範圍廣、使用頻次高,會不斷地反饋應用或服務的問題上來。

於是我們先從用戶角度,對用戶體驗進行監控,一旦發現問題,會立刻針對數據進行溯源,到客戶端通過SDK或JS抓取一些傳統標準做法採集數據,再通過多維度分析,將數據問題反饋給研發。

然後我們會對服務端進行性能監控,前面也說服務端的系統相對而言要複雜得多,因此我們往往會想辦法串起前後端,做到分鐘級甚至秒級調用,所以我們對調用鏈也進行了監控。而調用鏈監控依然是在中間件層面,也可能是基礎設置的波動導致了問題的產生,所以在底層對基礎設施構建了監控

● 第三個維度,是從數據層面。

首先是metric指標,這個指標可以是從基礎設施而來的,可以是業務層面定義的,可也以來自性能監控,這是評估性能的一個重要指標。

還有一個是event事件,日誌監控承載了非常重要的能力,事件幫助系統定位問題。

第三個指標trace,來源於調用鏈。三個指標會產生交集,輔助定位、排查問題。

監控產品及解決之道

用戶體驗監控

可以精準定位用戶問題,進行多維度用戶影響分析,並鑽取深層根因,從而推進問題治理,也填補國內監控產品空白。

系統鏈路大盤

監控業務服務的訪問量、響應時間、錯誤率等指標;支持業務鏈路的關聯監控分析;直觀的業務鏈路可視化監控大盤,可實時告警通知。系統鏈路大盤是日常和大促時段線上系統平穩運行的最佳利器,電商平台平穩運行的最佳保障。

海量實時日誌分析系統

基於ERK其中的部件進行二次開發,結合目前蘇寧應用場景以及數據中心CNDB的數據來改造,得以支撐近3500多個系統的應用日誌、每天10TB+/450億數據,提供24小時不間斷索引服務,具備峰值200W/s寫入能力、20億/s檢索能力。

一方面日誌系統可以進行檢索、分析、定位,另一方面可以構建儀錶盤,近1000+儀錶盤覆蓋完整的基於日誌監控能力,保障日常和大促時段線上系統的平穩運行,例如:

CDN全量和異常日誌的監控

核心鏈路(購物車、四級頁等)Web日誌監控

右邊是自動化的干預處理,最後再回到最左的流程中進行監測

核心數據鏈路日誌監控

……

異常監控與治理系統

異常處理延遲不超過20s,異常處理能力可達5萬/s,請求響應平均不超過3s,精確異常治理標準,極大推動了異常的治理。全IT的系統進行精確異常治理,制定異常治理規則,依託真實可靠的數據推動IT系統的穩定,與監控形成有效的閉環。

移動端性能監控

接入了蘇寧所有移動端App(蘇寧易購,蘇寧金融,易付寶等),實時監控App運行狀況,秒級告警通知研發進行性能優化。覆蓋目前國內領先監控產品所有功能,並結合蘇寧自定義的需求豐富產品功能。採用先進的OLAP引擎進行多維度聚合分析。

瀏覽器端性能監控

與移動端性能監控類似,只是數據採集方式與數據分析維度不同。目前已接入蘇寧所有瀏覽器端應用(蘇寧易購PC端,蘇寧金融PC端,門店系統等),實時監控PC端運行狀況,秒級告警通知研發進行性能優化。

覆蓋目前國內領先監控產品所有功能,並結合蘇寧自定義的需求豐富產品功能。採用先進的OLAP引擎(druid.io)進行多維度聚合分析,並結合海量實時日誌平台進行明細檢索和分析。專業的數據採集和數據分析團隊,實時性等SLA指標與同類市場競品持平。

服務端性能監控

後端系統主要是JAVA語言,因此對JVM性能監控開發了殺手級產品,接入蘇寧所有後端系統(中台核心系統,蘇寧金融核心系統,物流核心系統...),實時監控後端運行狀況,秒級告警通知研發進行性能優化。

覆蓋目前國內領先監控產品所有功能,並結合蘇寧自定義的需求豐富產品功能。專業的研發團隊,高難度的位元組碼研發能力,採用先進的OLAP引擎進行多維度聚合分析。實時性等SLA指標與同類市場競品持平。

調用鏈平台

實現端到端立體式監控的關鍵產品,覆蓋蘇寧所有核心鏈路。超越目前國內市場的同類產品,融合服務依賴分析,服務品質分析等相關的服務治理能力。專業的研發團隊,高難度的位元組碼研發能力,實時採集數據,使用流式計算處理和分析。

基礎設施監控

構建動態環境下基礎設施監控的基石,尤其是面向容器環境下構建實時動態的各個層面監控。全方位覆蓋操作系統到容器,到中間件(MySql, Redis, Elasticsearch,...)各個層面監控,包括實現數據中心動環監控。

專業的Go研發團隊,採用目前最主流的prometheus +Grafana,與數據中心CMDB等系統整合,實時採集數據進行監控,多維度進行時間序列分析。

智能告警平台

實現蘇寧智能監控系列的關鍵產品,提供完善的告警接入能力。專業的研發團隊,超越目前國內市場的同類產品,核心功能包括多維度告警聚合,避免告警風暴,自定義告警樣式,多輸出通道等。

決策分析平台

實現蘇寧智能監控系列的核心產品,利用AI能力和構建專家知識庫進行因果關聯和推斷。專業的研發團隊,目前在國內同類監控產品中處於領先地位,最大的優勢是有海量的數據進行訓練,優化模型等。徹底實現AIOps乃至極致目標(無人監控)的關鍵一環,以及為後續自動化干預等做堅實的保障。

蘇寧旗下子品牌蘇寧視頻雲已累計服務客戶超過2000個;蘇寧視頻雲憑藉PPTV 十年媒體技術和服務經驗,融合流媒體技術、P2P、CDN 分發、海量存儲、安全策略等構建的專註視頻領域的一站式SaaS 服務平台。PP雲集視頻雲直播、雲點播、雲上傳、雲轉碼、雲存儲、雲統計等功能於一體,多平台全方位支持客戶各種視頻場景的業務需求。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 PP視頻雲 的精彩文章:

世界盃直播卡頓、延遲,雲直播技術應如何應對?
5G推動AR/VR視頻產業井噴,蘇寧視頻雲強勢分羹!

TAG:PP視頻雲 |