數據分析與業務安全

最新 05-06

隨著高級持續性威脅（APT）攻擊的泛濫以及內部人員威脅的增加，針對企業業務系統的安全威脅日益增多。當前，一般企業的安全檢測類產品有操作系統（OS）漏掃、Web漏掃、資料庫（DB）漏掃等，但這些設備都不能發現客戶自開發應用的安全問題、業務邏輯方面的安全問題。同時，目前部署的入侵檢測系統（IDS）等檢測類設備由於是基於特徵庫或者啟發式規則進行檢測，對於針對業務邏輯類攻擊、APT類的攻擊往往毫無感知。傳統的防火牆（Firewall）往往針對五元組進行檢測，對上層應用的防護效果不大。Web應用防火牆（WAF）主要針對Web攻擊進行防護，而對業務邏輯、業務數據偽造等攻擊無能為力。同時，沙盒類APT攻擊檢測措施的重點是檢測威脅OS或某些應用的惡意代碼，對針對客戶應用數據的檢測更是無能為力。

業務系統的異常有很多類型，最常見的有以下幾種：

1.業務邏輯異常。例如用戶通過運營商的網站辦理繳費業務，通過某種方式繞過了支付的步驟，導致在用戶未支付的情況下成功辦理了收費業務。

2.業務濫用異常。例如對網站進行薅羊毛，雖然業務的操作邏輯完全正常，但是薅羊毛屬於對業務的濫用，也是業務異常。

3.業務數據異常。例如業務的參數異常，業務的統計數據異常等。

綜上所述，目前傳統的安全檢測、防護類設備針對業務應用安全基本上沒有防護效果。與網路層面的安全不同，業務應用安全的特點是用戶的行為符合訪問控制規則，並且對業務的每一步操作都不帶有明顯的攻擊特徵，例如沒有SQL注入，沒有XSS等攻擊特徵。但是用戶對業務的整體操作流程存在著異常，例如驗證碼猜測，密碼暴力破解，關鍵業務操作步驟缺失等。因此，需要一種全新的方案來檢測業務系統的安全。

數據分析與機器學習為業務安全問題提供了一個有效的解決方案。基於業務的歷史數據，通過統計分析與機器學習的方法，學習出業務的歷史特徵，包括操作邏輯特徵，時間特徵，參數特徵，統計信息特徵等，結合專家知識形成業務特徵的基線。根據基線來檢測業務行為是否存在異常。

與網路安全不同，業務系統的種類繁多。對於Web類型的業務來說，由於其一般工作在TCP/IP網路協議的第七層，即應用層，其業務參數及業務操作定製化程度很高。另外對於像工控系統，其業務主要是針對設備的控制指令操作，或者設備本身的數據上報與心跳。因此，對於不同類型的業務系統，其面臨的業務安全問題差別較大，需要針對不同的安全場景開發相應的解決方案。下面分別針對幾種典型的場景，給出相應的業務層面的分析手段。

一、 Web業務安全場景

Web類型的業務基於第七層網路協議，主要採集業務辦理過程中瀏覽器的HTTP頭數據來學習業務的操作序列。HTTP頭數據中包含有時間，HTTP請求類型，body，cookie，referer等欄位信息。其中，HTTP請求類型信息可以區分出相應的請求是否對應了關鍵的業務操作；body和cookie信息可以用來標識出用戶信息和會話的信息；referer信息可以用來標識業務的資源信息。其系統結構如圖1所示。

圖1 Web業務安全系統結構

採用關聯分析和統計分析的方法對採集到的HTTP頭數據進行分析，以得出業務的操作序列。在用戶對業務系統的操作過程中，瀏覽器主要有兩種類型的HTTP請求，即GET類型的請求和POST類型的請求。而對於業務辦理的操作來說，由於需要向伺服器提交數據，所以業務辦理的關鍵步驟對應的都是POST類型的HTTP請求。

提取出POST類型的數據以後，根據cookie和body中的信息將一個用戶在同一次會話的數據聚合在一起。將聚合以後的操作序列按照時間進行排序，就得到了有序的業務操作數據。

在HTTP請求數據中，referer信息可以標識出業務的資源，例如運營商系統中的流量套餐，彩鈴等業務。每個用戶在一次會話過程中可能會辦理多項業務，這些辦理業務的操作數據會一起出現。因此需要將這些數據按照referer信息進行聚合，以分別提取出用戶辦理業務的操作序列。

將前面提取出的業務操作序列進行去重，即得到包含有用戶信息和會話信息的序列。為了提取出業務本身所對應的操作序列，需要去掉用戶信息和會話信息，只留下業務本身的操作信息。在實際的業務系統中，業務本身的操作信息由URL的跳轉序列，和序列中每一條URL所對應的body信息中的屬性名組成。統計出原始數據中每一組URL跳轉序列出現的次數，再分別統計出每一組URL跳轉序列下所對應的不同的body參數屬性名稱組合出現的次數，並按照從多到少的順序進行排序。出現次數多的序列更有可能是正常的業務操作序列。將提取出的序列與專家知識進行結合，即可得到業務操作序列的基線，用於檢測業務操作序列的異常。

根據前面的方法，針對某彩鈴訂購網站的HTTP請求數據進行統計分析，得到的業務最小操作序列如表1所示。在表1中，URL序列就是通過統計學習得到的一條最小操作序列。在後面的參數欄位就是在這種操作序列下出現的body中的參數欄位的組合。出現次數指的是在給定的原始數據中相應序列組合的出現次數。在表1中一條URL序列對應了三種body的組合，也就是說表1中包含了三種可能的業務。統計學習出來的結果還需要經過管理員的確認，以保證其準確性。這樣通過歷史數據學習來取得業務的操作序列可以幫助管理員配置安全審計系統中的業務操作基線，減少管理員的工作量。

表1 Web業務最小操作序列示例

二、物聯網卡業務安全場景

物聯網卡指的是運營商用在物聯網業務中的SIM卡。物聯網卡的類型與功能如表2所示。

表2 物聯網卡的類型與功能

由於很多物聯網卡的功能與普通手機卡的功能相同，所以物聯網卡會存在著被濫用的情況，即被用在個人手機業務中，或者被用來進行薅羊毛、電信詐騙等。另外，由於物聯網卡一般不會與設備進行綁定，所以也會存在物聯網卡實際應用的業務場景與合同約定的場景不同的情況。基於大數據分析和機器學習的方法可以有效的發現物聯網卡業務數據的異常，進而發現被異常使用的卡。

圖2 物聯網卡異常分析流程

如圖 2所示，採集物聯網卡的語音話單、簡訊話單、流量話單、上網日誌和發卡與用卡單位相關信息等數據，根據異常分析模型數據需求，從話單中提取出有效的關鍵數據特徵，如通話信息、簡訊發送信息、上網行為信息等，採用統計分析，關聯分析和相似度聚類分析、深度學習等基於機器學習的方法進行行為模式分析。其中，統計分析針對原始數據進行統計，並基於專家知識找出統計結果的異常。關聯分析將多個維度進行關聯，進一步提高檢測的準確性。基於機器自學習的行為模式分析通過歷史數據學習出卡的行為模式特徵，並基於特徵來檢測卡的當前行為是否異常。將分析的結果經過人工審核與確認，最終找到被異常使用的物聯網卡。

基於某運營商的物聯網卡的相關數據進行分析，並結合人工調查的結果，得出物聯網卡主要存在以下幾種異常使用的情況：

1. 挪用異常

物聯網卡被應用的場景發生了變化。例如原來被用在電梯衛士中的SIM卡被用在了車務通中。由於物聯網卡的發卡合同規定不允許私自變更卡所應用的物聯網業務，因此這種情況屬於異常使用。通過和人工確認，發現異常的卡號有320個。

2. 濫用異常

物聯網卡只能應用在物聯網業務中，不能應用在個人業務中。如果物聯網卡被用在了個人的手機中，這種情況屬於卡被濫用的情況。經過分析和人工確認，發現存在濫用異常的卡號一共有1020個。

3. 合同及管理異常

在實際調查中發現，有很多的卡雖然在數據分析的結果中被認為是異常，但實際上這種異常並非由於卡被異常使用所引起，而是由於在管理中的疏忽所導致。例如有些卡存在個人業務的行為特徵，而實際調查中發現這些卡本身就是已經實名制的個人手機卡，但卡的相關信息卻出現在了物聯網卡的數據集合中。這種情況一般是由於卡在被管理的過程中出現差錯導致的，而卡本身並不存在被異常使用的情況。另外還有一種情況是物聯網卡的發卡合同中只規定了卡所對應的收費套餐，而沒有規定卡所應用的行業場景。這種情況也屬於對卡的管理存在漏洞導致的異常，而不是卡本身存在被異常使用的情況。

三、變電站業務安全場景

變電站是電力系統中變換電壓、接受和分配電能、控制電力的流向和調整電壓的電力設施。它通過其變壓器將各級電壓的電網聯繫起來。而智能變電站是指通過智能設備以全站信息數字化、通信平台網路化、信息共享標準化為基本要求，自動完成信息採集、測量、控制、保護、計量和監測等基本功能，並可根據需要支持電網實時自動控制、智能調節、在線分析決策、協同互動等高級功能的變電站。與傳統變電站不同，智能變電站採用IEC61850的標準。這是一個國際通用的變電站自動化系統。它對於設備的行為，數據的命名以及定義都進行了規範。智能變電站使用電子式互感器替代傳統的電壓互感器，使用光纖接線替代傳統的信號電纜硬接線，傳輸的數據也變為數字量。

與一般的IT網路不同，由於工業網路中經常存在輪詢，診斷，周期刷新等業務，工業網路中傳輸的報文在時間上通常具有一定的規律。變電站網路如果遭到入侵導致工作異常，其報文傳輸的時間特性通常會發生變化。因此對變電站網路中報文傳輸的時間特性進行分析，可以為變電站網路是否遭到入侵提供一種檢測的方法。這裡以智能變電站中的MMS報文為例，來分析其傳輸的時間特性。

將採集到的MMS報文按照源IP/port，目的IP/port，報文類型和關鍵字進行聚合，聚合以後統計其傳輸間隔的時間特性。其時間特性如圖 3所示。

圖3 聚合以後的MMS報文的時間間隔特性

如果MMS報文的時間間隔特性發生變化，則說明中間有對系統的操作，或者系統出現了異常情況。由於時間特性的變化會很微小，不容易直接檢測到，這裡採用小波變換的方法進行檢測。如圖 4和圖 5所示。

圖4 MMS報文的時間間隔與其小波變換

圖5 MMS報文的時間間隔與其小波變換

圖 4所示是對圖 3中的序列進行小波變換以後所得到的結果。在圖 5中，時域信號發生了微小的變化。這種時域的變化不容易直接檢測。但是採用Haar小波變換的方法卻可以檢測這種變化，如圖 5中間的曲線圖所示，時域序列的微小變化會引起小波變換以後的結果發生較大的變化。通過檢測這種變化，即可檢測到原始時域序列的變化，進而檢測報文傳輸的異常。

以上給出了幾個通過數據分析和機器學習的方法檢測業務系統中異常的案例。可以看出由於業務系統的功能不同，其數據源和分析方法有較大的差別。根據系統的特點和功能對其數據進行分析與學習，將得到的結果與專家知識結合，即可發現業務系統中的異常情況。

內容編輯：安全大數據分析實驗室吳子建責任編輯：肖晴

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 綠盟科技研究通訊 的精彩文章:

※容器鏡像安全概述

TAG:綠盟科技研究通訊 |