當前位置:
首頁 > 科技 > AI加持,讓智能運維成為數字世界的必選項

AI加持,讓智能運維成為數字世界的必選項

AI正在深刻地改變我們的工作和生活方式,甚至包括我們的飯碗。2017年底,BBC和劍橋大學的學者一起分析了300多個職業在未來的被淘汰概率,IT工程師以58.3%的概率高居第15位。這裡的IT工程師就包括了在傳統運維部門中佔據大量崗位的系統管理員和網路工程師。

這並非是危言聳聽,我們可以看到的是,越來越多的系統管理工具和運維監控工具開始整合機器學習、深度學習等人工智慧技術。而AI在大幅度提升IT運維能力的同時,也讓IT部門逐步減少對基礎運維崗位的需求,完全依靠人力解決運維問題的時代已經漸行漸遠。

AI在IT運維領域的應用被諸多分析機構和新一代CIO當作企業數字化轉型的突破口。Gartner在2016年首次提出智能運維(AIOps)這一個概念之後,迅速得到業界的廣泛響應。無論是IBM、CA等傳統運維巨擘,還是Splunk、Dynatrace、雲智慧等新興運維企業,都把AIOps作為IT運維發展的未來。

智能運維,數字化轉型的必選項

物競天擇的自然法則同時主導著數字世界的發展。

任何一個技術的流行都不是憑空的,AIOps智能運維也不例外,最根本原因是市場需求在推動。

在信息化時代,IT部門扮演著業務跟隨者的角色,遵從業務需求支持ERP、財務、OA系統的運轉,運維主要承擔封閉IT環境中硬體設備和軟體系統的日常巡檢、維護、升級工作,由於業務對IT的依賴程度不高,企業對運維效率和問題解決能力的要求也不高。

AI加持,讓智能運維成為數字世界的必選項

打開今日頭條,查看更多圖片

雲智慧總裁劉洪濤

「隨著產業互聯網的發展和數字經濟的增長,業務運行越來越依賴IT的高效運轉,IT部門的角色發生了巨大的變化,由跟隨者變成了支撐者、甚至業務創新的引領者。數字世界裡,IT基礎設施陸續上雲,過去需要直面的各類硬體設備、軟體系統隱藏了起來,而展現在我們面前的虛擬機、容器、微服務讓IT架構變得更加龐大、複雜,移動化、IoT的大量應用則把IT邊界從內部擴展到邊緣。這是近兩三年中國傳統企業在數字化轉型過程中都會遇到的難題,當IT建設達到相當規模,傳統運維工具和運維方法無法解決企業遇到的種種問題,智能運維的需求自然就冒出來了。」雲智慧總裁劉洪濤感慨道。

劉洪濤所領導的雲智慧公司成立於2009年,是一家為企業提供全棧智能IT運維產品的解決方案服務商,旗下監控寶、透視寶和壓測寶等IT運維產品擁有良好的用戶口碑。10年來,雲智慧一直紮根在IT運維市場精耕細作,對於這個市場的每一次變化起伏,劉洪濤都有非常深刻的感受。

以「非常傳統」的房地產行業為例。一直以來,拿地蓋房售樓都是國內房企的最核心業務,而現在商管、文旅等新業務逐漸成為頭部房企的拳頭產業。2018年萬達商管集團收入376億元,文化集團收入692億元,二者累加已經達到萬達地產集團540億收入的一倍。而雲智慧服務的這家房地產巨頭,隨著業務轉型的加速,IT規模呈爆髮式增長,目前有超過兩百個系統支撐著新業務的運轉,每天的工單、告警數量堪稱海量。對於一家正在向技術密集型企業邁進的「傳統」企業來說,依靠人力去解決規模化、效率低等IT難題顯然與數字化轉型的初衷背道而馳。所以,必須充分利用大數據和人工智慧技術,建立全新的智能化運維管理體系和智能運維繫統。

「換成兩年前,這家房地產公司絕對不會採購智能運維這種新一代IT運維解決方案。然而,隨著數字化轉型的深入,房地產智能化成為潮流,一套套新的應用陸續上線,大量IoT終端被部署到全國各地,基於CMDB和ITIL體系建立的運維管理流程和相關工具暴露出嚴重不足。」劉洪濤說。

這家房企的遭遇並非孤例。劉洪濤能明顯感受到近兩年智能運維需求的增長。「房地產這樣一個相對傳統的行業,都在數字化轉型的倒逼下產生了如此強烈的需求。而在金融、電信、航空、能源等IT成熟度更高行業里,AIOps智能運維的作用更為突出,需求也就更加旺盛。」他欣喜的告訴記者。

AI加持,讓IT發揮最大價值

人力有盡,算力無窮。

業務對IT越來越依賴,同時IT架構越來越複雜,迫使人們向AI求助。而AIOps智能運維的應用也確實給IT運維帶來了新的變化。

以IT運維中最典型應用場景——故障告警為例。一個規模較大的數據中心,系統故障會導致幾分鐘內出現上萬條的告警信息。過去,遇到這種情況,運維人員的常規處理方式關掉所有關聯設備和系統,挨個重啟,逐一排查。這一方法簡單粗暴,不但盲目耗時,還會造成業務中斷。而AIOps智能運維利用大數據和AI技術,可以在幾秒鐘之內就能完成對所有告警消息的壓縮、篩選和關聯分析,從而找出最關鍵的告警消息。在某航空公司的一次IT故障中發生了告警風暴,雲智慧在一分鐘內將2萬條告警消息壓縮到7條相互關聯的關鍵告警。對於運維人員來說,處理7條告警和在幾萬條告警消息中發現問題,工作量不可同日而語。

在這背後涉及告警抑制、自動拓撲等多項新一代智能運維技術的應用。以自動拓撲為例,傳統緊耦合的煙囪式IT系統,彼此之間的關聯關係是很難建立起來的。而藉助AI,通過演算法對採集到的調用鏈數據進行分析,就可以把所有IT系統直接的業務拓撲關係和調用過程描述出來。有了這個拓撲,才能夠追根溯源的找到出問題的「罪魁禍首」。

類似應用場景還有動態閾值。傳統運維都是通過設置固定告警閾值來觸發報警,但固定閾值存在著明顯缺點——條件太寬鬆會出現故障漏報,太嚴格則會有大量誤報。此外,無論是閾值的設定還是故障的判斷,都依賴運維人員的個人經驗,很容易出紕漏。

「現在,我們利用機器學習的方法,通過對運維歷史數據進行分析,在數據特徵的基礎上建立演算法模型,對模型進行周期性地訓練學習,從而為IT系統設定更為科學的動態告警閾值。這個閾值會隨著業務的波動進行動態調整,既不放過每次潛在故障事件,又不會因為系統繁忙導致大量誤報。告警壓縮、根因分析、關聯分析等智能運維場景,都大量使用了AI的技術,也只有通過AI賦能,才能讓IT發揮最大的價值。」劉洪濤表示。

智能運維的發展路徑

數字化之路千萬條,智能運維第一條。

隨著ABC技術的應用,系統維護、日常巡檢等傳統運維工作的價值不斷降低,這也就是本文開頭提到某些IT工程師正在被AI取代的原因。不過,這並不意味著運維將被AI取代。

「業界有一種說法,AIOps智能運維的未來是NoOps無人化運維,目標是要消滅運維這個行業。但我認為這隻能在單一環境下實現,對於雙態IT佔據主導的傳統企業來說,AIOps的目標應該是BetterOps,更好、更高效的運維。」劉洪濤說,「AIOps能預判一個事件可能導致異常,但是否存在異常,還是要人來做判定。AI能幫我們第一時間把事件和關聯的原因找出來,大幅提升運維效率,但不是消滅運維。」

標準化、規模化的橫向管理工作,比如說機房裡的日常巡檢,未來是可以無人化的。而實現IT縱向管理的業務運維——讓IT更有效支撐業務運轉的工作——是無法做到無人化的。因為業務波動受大量外在因素的影響,而IT與業務融合之後,IT對業務的影響程度在大多數情況下需要人來做綜合判斷的。

在筆者看來,業務運維與業界所提到「IT運營」有異曲同工之意:同樣都是不讓AIOps局限於IT本身,還希望為業務提供更好的支撐,比如對業務系統進行預警和預測。應該說,這才是AIOps的核心價值,畢竟業務才能產生利潤,這也符合Gartner的觀點。

AI加持,讓智能運維成為數字世界的必選項

智能運維的演進路徑

不同行業、不同企業的IT成熟度不同,數字化轉型的路徑也是千差萬別。針對這種狀況,雲智慧提出了智能運維實施的三階段戰略,分別是:第一,數據為先,在這個階段實現企業IT數據的完整採集;第二,初步智能化,幫客戶發現業務與IT的關聯關係,實現業務全鏈路追蹤和根因分析;第三,高級智能化,用AI幫助客戶解決更有前瞻性的問題,包括故障預測、容量規劃等。

「經過幾年的市場培育,越來越多的中大型企業客戶認可了雲智慧的智能運維理念,這讓我們更大的信心和決心,利用機器學習、大數據等AIOps核心技術,幫助我們的客戶解決更多的業務問題,進而為客戶創造更多的價值。伴隨客戶成長,分享客戶成功的價值,這才是雲智慧能夠連續幾年保持高速增長的秘訣。」劉洪濤說。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 至頂網 的精彩文章:

HPE以13億美元價格收購超級計算機製造商Cray
大咖齊聚世界智能大會,共話智能創新加速城市轉型升級

TAG:至頂網 |