有了這個數據集,AI有望揪出變種勒索軟體
去年5月,惡意勒索軟體WannaCry大面積爆發,全球不少國家機構、企業、個人終端電腦中招,電腦文件被鎖。
要想恢復重要資料,就必須向黑客支付300到600美元等值的比特幣。
儘管在去年3月14號發布了針對該勒索軟體所利用的漏洞的補丁,但不久又出來個Wannacry 2.0變種版本,導致更多電腦陷入魔爪。
由於勒索軟體和殭屍網路不斷「換馬甲」,傳統網路安全公司只能疲於奔命,被動地一一應付。考慮到AI強大的學習能力,擅長「以暴制暴」的黑客型網路安全公司Endgame想藉助AI之力,幫助他們及時地識別出變種的惡意軟體。
可是有個問題:目前缺少可供訓練的數據集。
像圖像識別或自然語言處理領域,都已經有龐大的開源的數據集來訓練演算法。但幫助AI識別勒索軟體的數據集,還沒有。
誰適合來做這件事呢?想來想去,擁有豐富防禦黑客經驗的Endgame決定自己上。
網路安全公司Endgame
其實,網路安全方面的數據從來都不缺。但因為數據總會涉及到個人的隱私,以及網路金融密碼等信息,所以網路安全領域一直缺乏合適的數據集。
上周,Endgame宣布開源Ember(Endgame Malware BEnchmark for Research)數據集,其中含有殺毒軟體VirusTotal 2017年檢測到的110萬個便攜可執行文件(PE文件)的sha256哈希值,供研究惡意軟體。
為了避免泄露個人隱私,Endgame特地沒有在Ember里放這些PE文件本身。但這個數據集包含元數據(metadata),也就是PE文件里提取出的特徵,以及基於這些特徵訓練得出的基準模型。
有了開源的基準數據集之後,研究人員就可以量化AI技術的學習效果了。
關於數據
這110萬個樣本里,有90萬個是用於訓練的,剩下的拿來測試。
訓練的樣本里,惡意軟體、無害軟體、未標註軟體的樣本數相等,都是30萬。測試樣本里的惡意軟體和無害軟體等比。
每個樣本都包含了PE文件的sha256哈希值,文件初次瀏覽月份,標註, 以及從文件提取出的特徵。
從下圖可以看出,訓練數據和測試數據的比例。
橫坐標指代訓練/測試時間段,這個信息對於隨時識別「換臉」的惡意軟體來說非常重要。這個數據集的目標,就是能識別出沒有見過的惡意軟體。
不過,公開這個數據集,Endgame要冒很大的風險。畢竟一旦公開之後,黑客也能接觸到。訓練樣本被篡改後,識別模型就完蛋了。
除了數據,Endgame還在GitHub上建了一個儲存庫,方便大家使用這些數據。Ember庫定義了基準模型的訓練工作環境,大家也可以拿這些數據反覆地訓練模型。
Endgame還提供Jupyter notebook(https://github.com/endgameinc/ember/blob/master/resources/ember-notebook.ipynb),上面有模型表現的信息。代碼里還特地有一段是定義特徵的提取過程,詳細介紹了如何從PE文件里算出特徵。
有了這些資源,任何一個人都能下載到基準模型,然後用庫重新分類新的PE文件。
關於模型
Ember基準模型,是一個梯度提升決策樹(GBDT)。在默認模型參數的基礎上,用LightGBM訓練的。該模型在測試集的表現可以看下圖。
對比二值分類器,一個比較好的方法是模型評估指標AUC。
Ember模型的測試成績達到了0.9991123分。用同一個GBDT演算法,也還有很多簡單的辦法提高這個分數,比方說優化模型的參數,進一步篩選特徵,或者再提取出更好的特徵。
Ember相當於一個測量參照,看模型訓練的效果有沒有不斷靠近理想目標。
OMT
雖然挺好用的,但Endgame建議不要用Ember模型作為抗病毒的引擎。這只是個研究階段的成果,和Endgame旗下成熟的產品MalwareScore還不一樣。
Ember模型還沒有更多地優化,也沒有持續地更新數據,理論上來說沒有現有的大部分防毒軟體表現那麼好。
Endgame模型的目的,是提供對比數據,也給未來的研究提供一個支撐點。
最後,Ember資料庫的傳送門:
https://github.com/endgameinc/ember
Endgame原文
https://www.endgame.com/blog/technical-blog/introducing-ember-open-source-classifier-and-dataset
論文:
https://arxiv.org/abs/1804.04637
網上盛傳的WannaCry的「進階版」
—完—


※6位科學界意見領袖,與Nature分享今年最期待的前沿科技
※清華大學、南京大學做人工智慧,雲創產品受親睞!
TAG:雲創大數據 |