用數據集訓練演算法識別惡意軟體，就像識別貓一樣簡單

新聞 04-19

本文由人工智慧觀察編譯

譯者：Sandy

從勒索軟體到殭屍網路，惡意軟體正在以各種各樣的形式出現，而且還一直處於增長狀態。雖然網路安全員一直在盡自己最大的努力來保證用戶電腦的安全，但似乎還是躲不過惡意軟體的襲擊。因此，為了改變這個情況，他們將目光轉向了人工智慧。

然而，問題還是有的——機器學習工具需要大量的數據。對於像計算機視覺或者語言處理這樣的任務來說，這還是可以接受的。因為在這個過程中，大型且開源的數據集可以用來教授演算法，比如貓是什麼樣子的或者單詞之間的關係。但是，在惡意軟體方面，這些東西一直是空缺的，到現在也是如此。

不過，本周，網路安全公司Endgame發布了一款名為EMBER的大型開源數據集。EMBER是一個包含了100多萬種良性和惡意Windows可移動執行的文件集合，這是一種常見的惡意軟體隱藏格式。

該公司的一個團隊還發布了可以在數據集上進行培訓的人工智慧軟體。其想法很簡單，如果想要人工智慧成為打擊惡意軟體的強大武器，那麼它就需要知道該尋找什麼。

其實，安全公司有大量的潛在數據用於演算法的訓練，但這是一個喜憂參半的結果。開發惡意軟體的黑客會不斷調整其代碼，努力保持領先地位，因此，對過時的惡意軟體樣本進行培訓，最後可能做的是無用功。

「這是一場打鼴鼠的遊戲，」來自馬里蘭大學計算機科學的教授Charles Nicholas表示。

從本質上說，EMBER的目的是為了幫助自動化網路安全程序的展開。

與可以感染研究員計算機的實際文件集合相比，EMBER包含的是文件的「替身」，這是一種數字代表，為演算法提供了與良性或惡意文件相關的特徵概念，卻不會暴露文件本身。

這應該可以幫助網路安全社區的人們快速訓練和測試更多的演算法，使他們能夠構建更好的、適應性更強的狩獵惡意軟體的AI。

當然，將數據集公開使用也意味著責任，如果這個數據集被黑客採用了呢？研究惡意軟體的黑客便可以通過這些數據設計一個AI技術無法識別的病毒系統，一旦發生，情況會很糟糕。

對此，Endgame的數據科學技術總監Hyrum Anderson表示，該公司已對此問題進行了考慮。進行EMBER研究的Anderson稱，他希望公開的好處會大於風險。此外，鑒於網路犯罪非常有利可圖，開發惡意軟體的黑客是很有動力來繼續完善其攻擊工具的。

最後，加州大學伯克利分校的計算機科學教授Gerald Friedland表示，「不管怎麼樣，黑客總能找到案例。」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 人工智慧觀察 的精彩文章: