基於大數據和機器學習的Web異常參數檢測系統Demo實現

新聞 05-20

*本文原創作者：foxscheduler，本文屬FreeBuf原創獎勵計劃，未經許可禁止轉載

前言

如何在網路安全領域利用數據科學解決安全問題一直是一個火熱的話題，討論演算法和實現的文章也不少。前段時間看到楚安的文章

《數據科學在Web威脅感知中的應用》，其中提到如何用隱馬爾可夫模型(HMM)建立web

參數模型，檢測注入類的web攻擊。獲益匪淺，遂嘗試用python實現該演算法，並嘗試在大數據環境下的部署應用。

演算法一般過程

隱馬爾可夫模型是一個統計模型，可以利用這個模型解決三類基本問題：

學習問題：給定觀察序列，學習出模型參數

評估問題：已知模型參數，評估出觀察序列出現在這個模型下的概率

解碼問題：已知模型參數和給出的觀察序列，求出可能性最大的隱藏狀態序列

這裡我們是要解決前兩類問題，使用白樣本數據學習出模型和參數基線，計算檢測數據在該模型下出現的可能性，如果得分低於基線就可以認為這個參數異常，產出告警。演算法可分為訓練過程和檢測過程，演算法本身我這裡不在細說，這裡重點講一下參數的抽取和泛化。

參數的抽取

對http請求數據進行拆解，提取如下參數，這部分的難點在於如何正確的識別編碼方式並解碼：

GET、POST、Cookie請求參數

GET、POST、Cookie參數名本身

請求的URL路徑

http請求頭，如Content_type、Content-Length(對應strust2-045)

參數泛化

需要將參數值泛化為規律性的觀測經驗，並取字元的unicode數值作為觀察序列，泛化的方法如下：

大小寫英文字母泛化為」A」，對應的unicode數值為65

數字泛化為」N」，對應的unicode數值為78

中文或中文字元泛化為「C」，對應的unicode數值為67

特殊字元和其他字符集的編碼不作泛化，直接取unicode數值

參數值為空的取0

系統架構

在訓練過程中要使用儘可能多的歷史數據進行訓練，這顯然是一個批(batch)計算過程；在檢測過程中我們希望能夠實時的檢測數據，及時的發現攻擊，這是一個流(streaming)計算過程。典型的批+流式框架如Cisco的Opensoc使用開源大數據架構，kafka作為消息匯流排，Storm進行實時計算，Hadoop存儲數據和批量計算。但是這樣的架構有一個缺點，我們需要維護Storm和MapReduce兩套不同的代碼。考慮到學習成本，使用Spark作為統一的數據處理引擎，即可以實現批處理，也可以使用spark streaming實現近實時的計算。

系統架構如上圖，需要在spark上運行三個任務，sparkstreaming將kafka中的數據實時的存入hdfs；訓練演算法定期載入批量數據進行模型訓練，並將模型參數保存到Hdfs；檢測演算法載入模型，檢測實時數據，並將告警保存到ES。

Spark簡介

Apache Spark是一個快速通用的大數據計算框架，由Scala語言實現，同時提供Java、python、R語言的API介面。相比於Hadoop的Mapreduce,Spark可以實現在內存中計算，具有更高的計算速度，並且spark streaming提供流數據計算框架，以類似批處理的方式處理流數據。

RDD

RDD是Spark中抽象的數據結構類型，是一個彈性分布式數據集，數據在Spark中被表示為RDD。RDD提供豐富的API介面，實現對數據的操作，如map、flatmap、reduce、filter、groupby等等。

DStream

DStream(離散數據流)是Spark Streaming中的數據結構類型，它是由特定時間間隔內的數據RDD構成，可以實現與RDD的互操作，Dstream也提供與RDD類似的API介面。

DataFrame

DataFrame是spark中結構化的數據集，類似於資料庫的表，可以理解為內存中的分布式表，提供了豐富的類SQL操作介面。

數據採集與存儲

獲取http請求數據通常有兩種方式，第一種從web應用中採集日誌，使用logstash從日誌文件中提取日誌並泛化，寫入Kafka(

可參見兜哥文章)

；第二種可以從網路流量中抓包提取http信息。我這裡使用第二種，用python結合Tcpflow採集http數據，在數據量不大的情況下可穩定運行。

數據採集

與Tcpdump以包單位保存數據不同，Tcpflow是以流為單位保存數據內容，分析http數據使用tcpflow會更便捷。Tcpflow在linux下可以監控網卡流量，將tcp流保存到文件中，因此可以用python的pyinotify模塊監控流文件，當流文件寫入結束後提取http數據，寫入Kafka，Python實現的過程如下圖。