當前位置:
首頁 > 科技 > 為傳統工業注入生機活力,智慧運維在行動

為傳統工業注入生機活力,智慧運維在行動

當傳統工業遇上現代技術,如何平衡兩者之間的關係,使之和諧共進,煥發更強生機?

項目背景:包頭鋼鐵(集團)有限責任公司(以下簡稱:包鋼)是我國成立後最早建設的鋼鐵工業基地之一,1954年開始建設,1959年投產。包鋼擁有「包鋼股份」和「包鋼稀土」兩個上市公司,是中國主要的鋼軌及無縫鋼管生產基地之一、華北地區最大的板材生產基地、是世界稀土工業的發端和最大的稀土科研、生產基地。

包鋼始終致力於多元發展,並致力於建設「大包鋼」,成為世界最大的稀土鋼生產基地和最具競爭力的稀土生產、科研基地,年銷售收入達到1000億元以上。

隨著包頭鋼鐵(集團)有限責任公司信息化建設的深入, 信息化運維監控管理在企業發展過程中擔負起越來越重要的角色,企業利潤來源也越來越依賴於信息化的建設水平,而企業信息化的建設水平取決於兩個方面:

-一方面是基礎設施的搭建,這是硬體基礎

-另一方面是管理層面,就是如何將已有的硬體基礎設施的效能更好的發揮出來,這就和運維管理水平的高低息息相關。

如何及時了解系統的運行狀況,有效地降低系統運行的風險,主動的發現並及時解決系統運行故障,讓業務系統保持7×24小時的健康、持續、穩定、高效運行,這些都給包鋼的信息化運維管理水平提出了更高的要求,也是當前傳統工業企業運維管理普遍面臨的巨大挑戰。

運維挑戰

包鋼集團目前擁有網路設備、伺服器、存儲以及其他IT資源,在整個IT資源管理方面仍處於人工管理階段,管理運維屬於被動管理。

管理設備類型和數量

- 交換機主要為cisco和H3C交換機,共計需要管理80台。

- 操作系統主要有IBM AIX、CentOS、Windows等,共計需要管理35台。

- 資料庫主要為IBM DB2、Oracle等,共計需要管理 25套。

- 中間件主要為websphere,需要管理10套。

- 應用主要為HTTP,需要管理10套。

- 存儲設備主要為IBM、EMC,需要管理5台。

運維管理需求:網路管理

· 支持cisco、H3C等廠商的各型號設備,支持多廠商設備組成的混合網路自動發現,並且提供設備的真實面板,提供埠關閉與啟用操作,可以更改VLAN ID

·拓撲圖的生成支持網路設備的SNMP V1、V2、V3這三個版本的混和生成,並能對SNMP V3設備進行管理

·支持對全網的網路設備線路按照流量、帶寬佔用比、丟包率、錯包率、廣播包等指標的實時負載進行排名

·支持網路設備的ARP表、MAC表、路由表等表格數據定期存儲,差異自動比對,提供路由表歷史快照對比。

·提供任意IP類型對象的監控,支持ping狀態、TCP埠狀態、URL跳轉方式實現該對象的基礎管理;

·拓撲圖上的設備和線路支持按照性能參數的不同區間以紅、黃、綠顏色進行顯示,性能負載可自定義;

·在拓撲圖上可直接顯示線路峰值流量、廣播流量、組播流量信息;

·提供網路設備可用率、線路連通率、網路設備負載分析報表、線路負載分析報表、網路告警統計報表等多套基於採集和管理數據生成的客觀統計報表。

操作系統管理

· 支持對於Windows、IBM Aix、CentOS等類型操作系統的管理,支持對於CPU、內存、進程、日誌、網路流量、磁碟性能的監控;支持對於CPU、內存、進程、日誌、網路流量、磁碟性能的監控;

·支持對主機進程列表的監控,支持定期備份進程表,支持進程表比對,進程狀態告警。

·支持主機趨勢管理視圖,包括CPU、內存、文件系統,流量指標的對比,磁碟容量可用時間的預測;

·支持波浪圖方式顯示所有主機的全局信息,以圖形化方式顯示主機的常用管理參數;

·支持系統拓撲圖,一張圖可以展現所有主機承載的資料庫、中間件和標準應用之間的實時狀態監控,為主機監控提供全景視圖;

·提供主機可用率、主機性能報表、系統告警統計報表等多套基於採集和管理數據生成的客觀統計報表。

資料庫管理

·支持對Oracle、DB2等資料庫的各項運行參數進行監控;支持對於各個資料庫實時運行狀態的實時統計,包含資料庫會話數、死鎖數實時排行,支持對錶空間大小和會話數、緩存信息、鎖信息進行重點監管;

·支持在資料庫發生異常時,進行所在主機、資料庫關鍵指標的數據快照,便於事後便捷分析。

中間件管理

·中間件管理支持對WebSphere 等中間件實時監控;支持圖形化方式顯示應用的承載主機狀態和應用的基本性能信息,同時展示相關的運維負責人和聯繫方式。

標準應用管理

·支持HTTP、HTTPS等應用的監控;支持圖形化方式顯示應用的承載主機狀態和應用的基本性能信息,展示相關的運維負責人和聯繫方式。

存儲管理

·支持存儲設備硬體管理,以統一的視圖展現被管的各個硬體子項的運行詳情,清晰展現各個管理設備的各類型管理狀態,並以顏色顯著標示出現問題的硬體類型;涉及到磁碟陣列的電源、電池、風扇、溫度、磁碟、控制器等各個關鍵硬體信息;

·支持存儲空間使用全局視角,當前所有磁碟陣列設備已經使用空間的統計;當前哪個設備已配置的數據池,有足夠的空間可以分給給業務主機使用,列出Pool已使用的排行;提供各個業務主機磁碟使用的增長規律和使用預測,便於事前做好擴容規劃;

解決方案

基於自動化理念打造核心平台

BTSO以自動學習、自動分析、自動運維詮釋智能運維的運維方法。自動學習:實現用戶環境數據的學習,結合內置檢測指標體系,建立具有用戶特徵的常態健康標準;自動分析:實時監控用戶各項運維指標,結合指標變化特徵,通過諸如單指標越界比例、多指標組合判斷、歷史趨勢變化等方法自動判斷數據異常情況,主動提醒;自動運維:提供處置方案的提醒,用戶處置程序的調用等多種方案,實現異常問題的及時處理和運維。

系統智能化管理

傳統系統監控的訪問方式為告警,但是面對設備日趨完善,管理對象超過閾值的告警越來越少,如何實現信息化管理價值的最大化呢?這是擺在信息化管理管理主管面前的最大課題。北塔公司結合用戶信息化管理實際情況,發現信息化管理價值最大化的方式有如下方面:

·通過事前隱患智能分析,主動排除,即時通知,將故障發生概率降到最低;

·對於部分故障實現自動化分析和處置,縮短故障處置周期,避免損失擴大化;

·落實每個信息化管理主管的對於自身企業的個性化管理要求;BTSO適時推出了智能信息化管理管理,為用戶落實如上3點訴求,提供管理功能。

智能運維管理

BTSO核心管理方式就是智能化管理,智能化的理論基礎是北塔十幾年的信息化管理經驗和幾千家用戶的管理實踐,為把這些管理方案推送到用戶現場,BTSO提供了智能信息化管理模板。

智維模板按照管理等級,預置了不同管理對象的管理方案,方案包含如下技術點:

·內置監測方案,包含採集指標的多寡,具體指標的採集周期、監測閾值,便於對系統自行巡檢相關數據;

·提供了預置告警規則給用戶進行選擇,用戶可以根據業務管理實踐的不同啟用相應的告警管理規則;

·提供常見管理報表,並生成高級別對象的管理報表。

通過上述智維模板,使軟體無需複雜配置,安裝就能對資源進行基礎信息化管理。

實施效果

運維智能分析

BTSO自動對管理對象進行數據收集,用戶進行數據對比分析,系統也提供智維分析的周統計,智能的挖掘系統的問題隱患。

提供本周系統運行概要信息:

·目前管理的總數量,

·本周運維巡檢的次數

·本周執行智能診斷的次數

·本周生成的報表數量

提供各個管理類型的運維巡檢情況:

·本周運行健康趨勢如何,如果問題增多則需要關注;

l提供為什麼問題增多的具體表現,

·包含本周巡檢問題最多的指標,以及問題最多的設備;

·包含本周巡檢問題最多的設備,以及這個設備的問題指標;

提供各類重要類型的上周高低負載的數量;了解整體性能概況;

提供在告警處置上的效能評估,告警數量的變化以及平均解決時長的增長;

提供對於本周運行數據的分析判斷,便於用戶定位問題:

l提供線路吞吐量的環比變化,幫助用戶定位業務環比最大的線路;

l提供windows主機吞吐量的變化,幫助用戶定位業務環比最大的主機;、

l提供主機磁碟增長Top,列出各個分區的增長情況,並預期可用時長,幫助用戶進行定位需要調整控制項的具體設備;

智能管理

對於工程師日常監控來說,故障管理是突發情況,而關鍵業務、指標的監控是常態管理要求,為了滿足工程師對於重點應用質保的監控要求,系統提供了自定義首頁功能,該功能提供基於角色的個性展示功能,用戶可以自行選擇不同管理重點指標以及展現方式,以便完成一圖完成所有重點監控;

系統至少提供TOP表格、TOP柱狀圖、性能曲線圖、單值圖等多種展示方式;支持對於所有數值型數據的統一排序、歷史記錄展示;

結合日常管理需求。可以實現諸如骨幹線路監控總圖、關鍵應用監控視圖的管理要素;

系統為展示要求提供數據支撐,能為自定義布局提供技術支撐,管理展現提供數據支撐。除了所以採集範圍內的指標外,也應該支持通過sql、ssh、snmp等方式擴展業務指標的顯示;

系統應該提供基於一個角色同時查看和配置多張視圖的能力,每張視圖可以新窗口打開,為用戶日常監控展示提供便利性。

直觀明了的網路管理

自動根據北塔特有的拓撲生成演算法,快速搜索整個網路內的網路設備,智能分析網路拓撲結構,自動勾畫出整個網路的真實物理拓撲圖,真實反映整個網路的構成狀況。BTSO 除拓撲生成之外,還支持拓撲添加功能,在保留原有拓撲圖的基礎上,搜索新的網路設備,並自動添加到網路拓撲圖上。

網路拓撲圖可從全局的角度出發,幫助信息化管理管理人員實時了解整個網路當前的運行狀況,主動告訴用戶關注點應在哪裡,網路架構是否合理,有無網路瓶頸,設備和流量有無異常等,動態告訴用戶可能的故障隱患,達到透明化、事前管理目的。

為了同時滿足不同用戶間的個性化需求,BTSO 提供了靈活的拓撲圖複製功能,可為不同用戶提供單獨的展現頁面。用戶可以根據自己的偏好設置自己的個性化拓撲圖,且不同的用戶之間沒有任何影響。

·可以通過紅、黃、綠等不同顏色表示網路設備和線路負載壓力的評估狀況,並可以調整設備和線路的變色閾值;

·可以通過不同顏色的告警圖標,顯示各個網路設備的告警觸發情況;

·可以為拓撲圖上的每台設備、每條線路設置中文名稱,添加註釋,方便進行管理。

提供背景圖的更換設置功能,可自由選擇精美的圖片作為拓撲圖的背景;

直觀展示主機系統關聯關係的系統拓撲

系統拓撲以主機為核心,展現了所有承載的資料庫和中間件、標準應用之間的實時狀態監控, 為主機監控提供全景視圖;系統自動生成並智能布局,無需人工調整。

系統拓撲提供清晰的展現方式:提供網段不同顏色表示方式,不同主機按照其操作類型圖標 顯示,從主機出發關聯資料庫與主機的關係。

·系統通過不同的顏色區分管理對象的實時性能層 級,BTSO 提供了主機經典性能指標,並以紅、黃、 藍代表其主機實時性能;提供根據業務需要性能負 載調整設置功能;提供主機關鍵性能指標的實時顯示;

·系統以閃爍的圖標反映,重點提醒用戶該資源發生 了告警;同時以彈出框顯示告警的具體對象信息;

·系統提供自定義拓撲方式,可通過對不同業務拓撲 主機的自定義歸類,實現單獨業務的聚焦關注。

·拓撲圖不僅反映單個設備的狀態,同時提供關聯數據排行,為問題定位增加信息參考:

·提供以故障作為評價方式的綜合評分,整體了解系統的整體運行健康情況;

·提供主機 CPU 實時 TOPN 排行,分析主機性能最高的設備,便於用戶重點監控;

·提供主機連續運行時間 TOPN,分析主機異常開關係統的變化;

·提供資料庫會話數 TOPN,分析資料庫實時運行狀態。

同時提供主機一體化顯示,按照不同的操作系統進行數據分類,系統提供基礎信息、運行信息、進程管理、事件與告警、硬體信息等各類管理信息:

·以關聯方式顯示主機上的承載資料庫、中間件、標準應用的實時狀態

·圖形化列出重點監控的硬體、日誌、CPU性能、磁碟信息的實時信息

·對於CPU性能、網卡等重要參數的最近3天數據分析

·支持主機進程的實時展示分析

透明化、智能化、統一化的存儲管理

基於北塔的管理平台,以空間、硬體、性能 3 個方面為管理抓手,為用戶提供透明化、智能化、統一化管理,提高存儲運維管理效率;系統支持磁碟陣列、 光纖交換機的管理, 支持 SAN/NAS等各種部署方式;

硬體狀態管理作為基礎管理部分,以統一的視圖展現被管的各個硬體子項的運行詳情,清晰展現各個管理設備的各類型管理狀態,並以顏色顯著標示出現問題的硬體類型;涉及到磁碟陣列的電源、電池、風扇、溫度、磁碟、控制器等各個關鍵硬體信息;

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機情社 的精彩文章:

不止5G手機 vivo發布AR眼鏡和120瓦超級快充
海信手機金剛5 Pro評測:護甲加身 長續航利器

TAG:機情社 |