當前位置:
首頁 > 最新 > 基於大數據技術的有線網路綜合監控平台分析

基於大數據技術的有線網路綜合監控平台分析

本文由《廣播與電視技術》雜誌獨家授權。本文刊發於2017年第12期。

作者:賈興華,白鶴,傅力軍(中國廣播電視網路有限公司)

【摘 要】

隨著雲計算大數據的不斷發展,底層基礎設施資源的整合將成為各個公司未來IT架構變化的主要趨勢,多業務系統共享底層基礎設施資源,傳統綜合監控系統已經無法滿足現有需求,本文對如何設計一套基於大數據的綜合監控平台進行了詳細的闡述,並分析了系統建設中涉及的關鍵技術。

【關鍵詞】大數據,綜合監控

0 引言

目前各省廣電網路公司均擁有相當數量的業務監控系統,配備一定數量的人員進行實時監視與維護,各公司均設有業務運行監控專職部門,同時也設置了運行維護崗,承擔監視與維護職責。隨著全國有線電視網路的逐步整合,業務職能的也會隨之調整,隨著現有業務垂直化管理趨勢,當前的監控系統已經很難滿足未來的業務需求。

因此,在基礎資源、數據資源、業務應用集約化的同時,建立全流程、全要素、全過程的能進行統一監控和運維管理的系統已經成為保障實時業務正常運行的關鍵;而且統一運維監控也將降低場地環境、動力能耗和人力資源成本,提高運維效率。

1 系統設計目標

全國集中的綜合監控系統的監控範圍橫向涵蓋「數據產生、數據收集、數據加工處理、數據存儲服務、數據分析應用」數據全流程監控;縱向涵蓋「機房場地環境、IT基礎資源、數據平台、業務系統」全業務範圍和國、省兩級IT基礎資源、數據平台。融合「數據全流程、基礎設施資源、高性能、信息系統安全、動力環境」的監控,實現集中監視和控制;在集中監控的基礎上,把監視功能下沉一級,實現監控運維的全國聯動。運維機制上,實現多個運維中心、業務單位的協同分工機制,其中信息化部門負責基礎設施、數據運維及系統安全管理,業務單位負責應用系統運維及應用安全;實現基礎設施資源社會化保障和核心業務自我保障協同機制。

2 系統整體架構

綜合監控平台是支撐全國廣電網路業務全流程、一體化、可視化運維管理的技術平台,基於統一運維技術標準和管理規範構建,由信息採集層、信息分析處理成、綜合業務層和用戶層組成,具備廣電網路業務監控信息採集和處理分析、集中監控和運維管理、以及基礎設施資源運營服務和業務展示等功能。

3 數據流程設計

綜合監控平台的全流程監視能力依賴於兩個主要的數據流程,即監視基礎數據流程和控制數據流程。

圖1 統一運維平台總體架構

3.1 監視基礎數據流程

1. 採集:系統通過綜合業務信息匯聚介面獲取採集端採集的基礎設施資源、數據收集存儲加工環節、核心業務系統的運行狀態、業務處理和告警信息。

2. 實時處理及存儲:系統將需要實時分析處理的信息發送到相應的信息分析處理模塊進行處理,並將原始信息和處理後信息存儲在運維管理資料庫中。

3. 批處理:根據各類監視信息的統計時間窗口,系統將定時調度信息分析處理模塊對相應監視信息進行准實時、非實時批處理,生成業務統計信息並存儲。

4. 展示:綜合業務層通過訪問運維管理資料庫或消息方式獲取所需的監視信息進行前台的業務展示、集中監視、運營服務界面展示。

3.2 控制數據流程

1. 發起:管理員發起的控制信息主要包括控制指令、配置信息、運營信息;其中控制指令主要是根據告警情況和故障分析進行可能的故障處理的指令;配置信息主要是實現對調度策略等各方面配置的更新;運營信息是提供基礎設施資源和數據資源服務時所需新增和更新的運營信息。

2. 控制處理:發起的控制信息通過消息發送到相應控制信息處理模塊執行,並反饋執行情況;如執行失敗,需進行回滾操作;同時將控制信息存儲到運維管理資料庫。

4 系統功能設計

4.1 集中監視

集中監視基於監控信息資料庫,按照由面到點的原則,分整體業務監視、類別監視和資源細節監視等三個層次,動態展示場地環境、網路系統、集約化資源池、數據環境、業務的關鍵性能指標、預警信息及異常和故障信息,多維度、精細化監視觀測、傳輸、數據環境及數據應用等環節中關鍵業務數據的完整性、時效性及數據質量,提供異常自動報警及報警信息實時推送和發布。

圖2 統一運維平台總體流程

1. 整體業務監視:整體業務監視根據資源範疇對雲中心各層面進行歸類整體狀態集中監視,主要包括數據資源、國省兩級業務應用系統、用戶服務、計算存儲(包括集約化資源)、網路資源、內容資源、視頻流資源以及覆雲中心的信息安全和用戶行為監視等內容。並細分為各資源整體狀態監視和用戶關注關鍵內容集中監視。

各資源整體狀態監視通過對每類資源監視點狀態進行指標設定,根據狀態指標分析機制,實時展示各類資源的總體狀態。當某類資源任一監視點出現故障標識並對業務已造成重大影響時,對應整體監視狀態顯示故障指標類型及數據。當某類資源任一監視點出現異常標識並在未來一段時間將對業務已造成影響時,對應整體監視狀態顯示異常指標類型及數據。同時提供導航機制進入資源類別監視和資源內部細節監視中查詢更為詳細的監視信息。

2. 類別監視:類別監視的對象包括:內容資源監視、業務應用系統、硬體資源、場地資源、信息安全和用戶行為。

內容資源監視根據業務特點,對內容在各個業務環節的合法性、時效性、完整性和數據質量等內容進行多維度監視,主要包括用戶高關注度內容監視、內容分類監視、內容流流監視。用戶高關注度內容監視提供視頻服務、安全管控、信息網路等三個方面業務用戶關心的監視。內容分類監視根據不同的內容類型提供內容合法性、安全性、時效性和完整性等監視。內容流監視主要提供一體化內容流中的採集、處理、存儲、分發等業務環節的實時監視。

業務應用系統監視針對雲中心有統一監視需求的國省兩級業務應用系統,實現其系統運行總體狀態的實時監視。涉及的業務應用系統包括觀直播業務、點播業務、應用服務業務以及信息網路業務應用。

硬體資源監視實現對雲中心計算、存儲、網路等基礎資源的監視以及對運行於基礎資源上的資料庫、中間件等平台環境的監視。主要包括:集約化計算存儲資源與傳統資源的設備狀態、資源使用情況等監視;區域網絡、廣域寬頻網路等各類網路帶寬資源使用情況,業務及用戶級流量的可視化監視;各個資料庫、系統軟體、基礎軟體、中間件狀態監視,等等。

場地資源監視提供機房供配電、溫濕度數值和空間分布、動力環境設備運行狀態、機房運行情況等的監視。

信息安全監視採集各類網路設備、安全設備、伺服器、應用系統的相關狀態、日誌、告警信息,對採集的各類信息進行綜合分析,實現對雲中心平台安全健康狀態監視、安全事件監視、安全事件可追溯等的信息安全綜合監視。

3. 集中告警管理:集中告警對雲中心各層資源異常狀態進行集中顯示、提醒和管理,主要包括數據資源完整性、時效性、數據質量等異常告警;各個業務應用系統在運行過程中產生的錯誤告警;伺服器、存儲、網路等在運行過程中產生的異常告警;場地環境的異常告警;用戶行為的異常告警;以及安全方面的告警等。並通過多種技術手段(諸如郵件、簡訊或即時通信工具)實現關鍵異常信息的快速發布和及時提醒。

當某類監視對象的任一監視點出現故障標識並對業務已造成重大影響時,集中告警將以頁面顯示、聲音告警、郵件、簡訊或即時通訊工具通知和發布等方式提醒運維人員進行處理。當某類監視對象的任一監視點出現異常標識並在未來一段時間將會對業務已造成影響時,集中告警功能將以頁面顯示、聲音告警、郵件、簡訊或即時通訊工具通知和發布等方式進行異常預警,運維人員可得以及時進行處理,以提前預防故障發生。

4.2 運維控制

運維控制基於配置管理資料庫,構建基礎設施資源、數據資源、應用系統、信息安全系統等的資源拓撲和運維流程;管理和維護網路系統、集約化資源池、數據環境、業務應用系統、信息安全系統的運行,包括事件、問題、變更、配置、發布以及知識管理等;根據業務服務模型生成統計報表,包括性能數據的日報、周報、月報、性能數據的對比分析報表、性能數據的趨勢分析報表、以及告警分類報表、告警分時報表、告警來源報表等,提供報表定製及推送和發布。

運維控制從「運」的角度包括運行管理、統計分析和業務控制功能,從「維」的角度主要包括配置管理、變更管理、發布管理、事件管理、問題管理、知識管理等業務功能。

1. 運行管理:運行管理主要負責運維工作流的內容和節點設計,並面向業務管理人員提供統一運維的整體運行狀態和各運維崗位工作情況統計信息,為運維質量和工作效能考評提供參考。

2. 業務控制:應用調度雲中心運行的有統一控制需求的業務應用提供有限目標的應用軟體級別控制能力和調度功能,主要包括業務應用人工控制、任務/ 作業調度控制、業務配置信息管理、配置信息及業務信息的調閱和發布控制等。

3. 統計分析:提供統計報表和在線分析功能。包括主題管理,實現對各類業務主題的定義;報表定製,實現基於主題的報表類型定義以及報表訂閱;報表展示與發布,實現各種報表數據的展示與多手段發布;在線統計,實現基於多種統計條件的在線統計功能,實時輸入統計條件實時生成統計數據。統計數據提供圖表展示方式。

4. 運維管理:運維流程管理面向業務運維和管理人員,主要實現IT服務管理功能,參照ITIL最佳實踐框架,建立起符合業務實際需求的事件管理、問題管理、變更管理、配置管理、發布管理和知識管理等運維流程並驅動流程的運轉,提高業務運維的效率。

事件管理的主要目的是在最短的時間內恢復正常服務並將對業務運營的不利影響降至最低,從而確保維持協定的服務質量。

問題管理是對所有問題從最初識別到進一步調查、文檔記錄直至解決的整個生命周期進行管理。

變更管理主要是控制所有變更的生命周期,使得在最小化影響IT服務的情況下執行有益的變更。

配置管理主要規範配置活動,確保配置項正確地唯一標識並易於存取,保證基準配置項的更改受控,明確基線狀態,在貫穿整個生命周期中建立和維護配置項內容的完整性和可追溯性。

發布管理主要是策劃、制定時間表、控制構建、測試和部署發布的過程,交付業務需要的新功能並且保護現有服務的完整性。

知識管理主要為統一運維實現顯性知識和隱形知識的共享提供途徑,工作內容包括建立知識庫、促進運維人員知識交流、建立尊重知識的內部環境、將知識作為資產來進行管理等等。

4.3 運營服務

運營服務提供對基礎設施資源(計算、存儲、網路)的申請、分配、調度和安全管理,提供對IT資源用戶和數據用戶的用戶管理、數據服務及相應技術支持。為保障基礎設施資源與數據資源的高效服務,依託業務內網、郵件、電話、傳真、即時通訊工具等服務介面,統一運維平台建立服務台,統一受理用戶請求,並提供資源調度、資產管理、數據服務、技術支持、安全管理和用戶管理等各種服務。

1. 資源調度:的核心任務是實現計算資源、存儲資源、網路資源、集約化資源池的彈性按需分配。計算存儲資源管理調度功能包括資源創建、部署、分配、變更、回收。網路資源調度基於SDN技術,配合計算資源、存儲資源的動態調度進行網路資源的動態調度,完成IP地址、VLAN、路由、帶寬等的遷移調整。

2. 資產管理:主要管理提供運營服務的IT資產,包括硬體、軟體及其之間所屬關係,跟蹤和管理資產的整個生命周期,並提供用戶資產的分布及運行狀況。

3. 技術支持:負責接受、記錄、分級和追蹤用戶通過電話、郵件、簡訊、即時通信工具等方式提交的服務請求,提供一線的支持服務,協調二線和三線支持,及時通知用戶其請求的當前狀態和最新進展。

4. 安全管理:主要從安全事件管理、安全策略管理、安全許可權管理、安全補丁管理等方面提供運營服務。特別是對於單類安全設備無法發現的APT、未知威脅的攻擊進行綜合分析和檢測。

5. 用戶管理:主要提供統一身份認證和用戶信息統一維護功能,從而使得不同類別的用戶可以通過單點訪問獲得一站式服務。

圖3 監控信息存儲組織

4.4 系統功能

1. 信息採集:提供對業務應用系統和基礎設施資源的配置及狀態信息的採集服務。主要通過布設信息採集探針,按照格式規範和介面協議獲取觀測系統、場地環境、網路資源、集約化計算資源、數據環境、業務應用系統的狀態,並通過消息匯流排等介面將狀態信息傳送信息分析處理層,為業務應用系統和基礎設施資源的運行監視、運維管理、安全管理及運營服務提供信息支撐。

2. 信息分析處理:通過綜合業務信息匯聚介面獲取或接收來自信息採集層的各種業務信息,通過集中處理和分析形成支撐業務監視、運維管理、綜合展示和運營服務的各類信息,以及根據業務服務模型生成業務影響分析視圖和告警信息等,並將這些信息存入監控信息資料庫和配置管理資料庫存儲。綜合業務信息匯聚介面實現統一運維平台與各個資源之間的原始監視信息的彙集,以及調度控制信息的交換。主要採用匯流排技術,通過消息、SNMP、Agent代理、Web service以及腳本等多種技術手段以及標準化的介面,實現對原始監視信息的採集,實現控制調度信息的交換和執行反饋結果的收集。

信息的預處理和分析彙集了統一運維平台各項應用中間處理邏輯功能,採用大數據處理技術、故障關聯分析技術、KPI演算法管理框架、業務應用調控引擎、資源管理調度引擎、工作流引擎等多種技術框架實現對實時監視、調度控制、分析評估、運維管理、綜合展示、運營服務等應用的底層支撐。

監控信息和配置管理資料庫實現統一運維平台所有業務信息的統一管理,包括數據資源處理詳細信息、業務應用/任務/作業狀態信息、業務應用異常事件信息、總體狀態信息、系統資源狀態信息、告警信息、統計分析產品、運維管理信息、公共配置信息、配置管理信息、配置參數信息、以及中間處理信息等。這些信息的存儲管理將納入統一數據資源管理框架,依據信息特點,採用多種數據資源管理模式,實現對統一運維平台信息的集中管理。

3. 信息存儲:監控信息的存儲組織主要包括三個方面:

1)實時緩存:主要採用Redis 和Kafka 消息系統緩衝實時的監控指標信息。

2)在線指標存儲:主要採用Cassandra 和MPP 關係型資料庫存儲指標信息和配置及關聯信息。

3)非結構化存儲:主要指原始日誌和歷史數據的存儲,採用分散式文件存儲系統存儲。如採用ElasticSearch存儲日誌文本信息,用於原始文本日誌詳情查詢和分析;採用Hdfs文件存儲系統配套HIVE等hadoop體系查詢分析引擎進行查詢分析。

5 系統涉及的主要關鍵技術

5.1 大規模監控採集

1. 主動上報優先

監控數據採集採用本地代理Agent上報為主、遠程探針Probe採集為輔。以獲得更深入的採集顆粒度,充分利用本地數據採集實時性;避免複雜的安全認證;可與虛機鏡像或安裝腳本綁定,開機自監控,減少人為配置。

對不提供Agent安裝能力的設備,如網路設備、機房環境等,通過Probe就近採集方式,實現標準化的遠程輪詢採集上報。

2. 匯聚壓力分攤

為避免監控服務端的海量數據接入壓力,採用分散式匯聚技術,在服務端與Agent、Probe之間,按需增加匯聚代理(以下稱為Proxy),完成數據預處理。

為實現異地採集、複雜網路安全環境採集,採用分散式採集匯聚,允許Agent、Probe通過Proxy間接上報數據連接。

3. 高吞吐量接入

服務端接入可實現水平擴展,通過多種負載均衡措施,充分利用集群擴展能力,讓接入吞吐量不斷增加,以滿足監控規模的不斷擴展。

5.2 數據實時高效流處理

1. 簡化合併數據傳輸

在Agent到服務端的數據傳輸過程中,系統盡量的簡化數據格式,避免傳遞重複無意義的內容,增加網路傳遞成本。同時Agent 與Proxy 可以合併多個指標數據到一個數據包中,進一步減少網路連接建立次數。

2. 隊列並行消峰處理

當服務端接收到指標後,會首先存入高性能隊列,並通過多個數據處理節點消費隊列,來實現實時處理新數據。在高吞吐量的支持下,隊列可支持水平擴展,數據處理節點可支持水平擴展,避免數據堆積。

在瞬間收到大量上報的數據時,高性能隊列集群(如Kafka)將接收到的指標首先寫入到隊列中,再通過各個數據處理節點消費隊列,可以有效的實現削峰。

3. 熱點數據實時緩存

引入Redis內存緩存,對熱點數據進行內存數據存儲,實現高效的數據查詢服務,在高並發的情況下,能大幅度減少資料庫壓力,提高數據處理時效性。

5.3 海量數據高性能存儲

1. 指標資料庫存儲

採用基於列存儲基礎的Cassandra資料庫或MPP並行關係資料庫,基於Shared-nothing架構,存儲海量指標數據,藉助水平擴展能力,實現吞吐量的線性擴展。

2. 事務型關係資料庫存儲

採用關係型資料庫存儲對數據強一致性要求高的系統配置信息、功能策略、管理參數、管理任務等數據。

3. 圖形資料庫存儲

採用了圖形資料庫來映射大量資源之間的錯綜複雜關係,實現高效的拓撲關係檢索和分析。

5.4 任務調度引擎

1. 任務調度引擎架構

任務調度引擎採用管理網關(Proxy)和執行代理(Agent)兩層架構,Proxy單向與管理服務端(Server)通過HTTP(或HTTPS)協議進行通訊,可適應不同安全域的網路環境,降低對網路穩定性的要求,分攤服務端的任務調度壓力,支持統一管理。

2. 任務調度高效並行

調度引擎通過高速緩存、任務編排、制定執行目標等實現多環節串列和多主機並行調度執行,以保證大量主機批量執行時任務調度的實時性和順序性。

3. 多種模式觸發調度

按Crontab格式可設定定時調度策略,實現巡檢、備份等任務的調度執行;通過手工可實時觸發作業執行,跟蹤作業任務的執行情況,執行出現異常時可人工干預修正;通過Open API可根據條件觸發作業執行,實現配置變更自動實施等任務執行。

6 結論

通過以上的綜合分析,廣電網路行業要建設全國統一的綜合監控系統既要遵循廣電網路行業現有的特點,又必須要堅持以下原則,才能確保系統建設的安全可靠。

標準先行,用監控信息數據格式和收集協議規範打造監控信息匯聚介面,使系統的開放性具備標準基礎。

功能設計,結合運維崗位職責,從整體到局部、從概況到細節,層層深入,構建一體化監控功能體系,實現運維工作服務台界面集約整合。

搭建模塊化、開放技術架構,實現監視範圍、內容、功能、規模的靈活擴充,支撐各類監視信息的接入,實現業務綜合監控內容的集約整合。

集成與改造相結合,採用敏捷開發模式,從用戶端使用效果著手,從數據流程核心業務開始,逐步集成或改造現有監控系統,合理有效分步推進業務綜合監控進程。

作者簡介

賈興華,男,1982年12月出生。碩士,工程師。現任職中國廣播是電視網路有限公司技術部,主要從事有線電視網路運營相關的IT平台研發工作。

好文共賞請轉發有話要說請留言


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 廣電獵酷 的精彩文章:

ATSC 3.0 物理層技術介紹與討論
複雜地形條件下地面數字電視單頻網重疊覆蓋區接收性能研究
《高清晰度電視節目錄製規範》行業標準正式發布
中央電視台打造新型智慧融媒體
電視換代革命世界正式進入「激光電視時間」

TAG:廣電獵酷 |