AI網路安全實戰：生成對抗網路

最新 04-21

以下是正文：

作者：Brad Harris，安全研究員，Brad曾在公共和私營部門的網路和計算機安全領域工作過。他已經完成了從滲透測試到逆向工程到應用研究的所有工作，目前他是IBMX-Force的研究員。

GANs是人工智慧（AI）的最新思想之一。在我們深入討論這個話題之前，讓我們先來看看「對抗性」這個詞的含義。在AI的原始應用中，這個詞指的是用來欺騙評估神經網路或另一個機器學習模型的樣本類型。隨著機器學習在安全應用程序中的應用越來越多，這個樣本類型變得非常重要。

想像一下包含終止標記的文檔，比如HTML、文檔長度、RTF文本格式（.rtf）或（.doc）文件格式。因為這些文件可以有附加到末尾的任意位元組，這就產生了文件空間，可以用來創建這些對抗樣本。

目前，最先進的技術集中表現在圖像上，但它也可能適用於其他的文件格式。從理論上講，這些格式可能更容易受到攻擊，因為圖像必須稍作更改才能確保人類仍能識別它。這就產生了針對這些樣本的幾種不同的攻擊（和防禦），弗吉尼亞大學的研究人員在一篇論文中更詳細地描述了這些樣本，「特徵壓縮:在深層神經網路中對抗性樣本的檢測[1]」

什麼是生成的對抗性網路?

根據O "Reilly媒體的說法，生成對抗性網路是「學習產生與一些已知的輸入數據相似的合成數據的神經網路。」這些網路對「對抗性」的定義與上面描述的稍有不同，在這種情況下，這個術語指的是兩個神經網路——一個生成器和一個鑒別器，它們在遊戲中相互競爭以獲得成功。遊戲的目的是讓生成器用類似於訓練集的樣本來欺騙鑒別器，這個想法在Ian J. Goodfellow的一篇研究論文首次提出,「生成敵對網路[2]。」

當鑒別器拒絕由生成器生成的一個樣本時，生成器將學習更多關於好的樣本的內容。注意，生成器必須從某種概率分布開始，這種概率通常只是正態分布，這使得GAN變得非常實用，且易於初始化。如果生成器能更多地學習真實的樣本，它可以選擇一個更好的概率分布。通常，鑒別器充當二進位分類器——也就是說，它說「是」或「不是」。所以，對於鑒別器只有兩個選項可以選擇簡化架構並使GANs實用。

生成器如何生成出更接近真實的樣本呢？生成器每次向鑒別器發送樣本，鑒別器都會向它返回一個信號，告訴它與真實樣本有多接近。從技術上講，這是梯度差異，但你可以將其視為接近度/相似度的指標。換句話說，鑒別器暴露出生成器生成的樣本與真實樣本有多接近的信息，以及它該如何調整使其生成的樣本更接近真實樣本。隨著生成器根據鑒別器返回的信息不斷生成樣本，在理想情況下，生成器最終生成出的樣本會和真實樣本相一致。

半監督學習

鑒別器從訓練集和發生器得到樣本。訓練時，它將輸入標記為1（通常使用平滑因子使值接近1為正值），並將生成器圖像標記為0。鑒別器就是這樣初始化自己的。然後它假定來自生成器的任何圖像都是假的，這就是它創建二進位訓練集的方式。

在實際意義上，網路的每一半都在同一時間運行，這意味著每一半在完全不知道的情況下初始化。但是，鑒別器可以訪問訓練集中所隱藏的存儲信息，而生成器只能根據鑒別器返回的初始缺陷指標器進行調整。這是可行的，因為在開始的時候，生成器創建了可以被稱為雜訊的Y樣本——這些樣本太假了，以至於它們根本不像真實的樣本。因此，鑒別器可以安全地說它從生成器收到的任何樣本都是假的。

這在技術上稱為半監督學習。在半監督學習中，該演算法（鑒別器）有一組被標記為真實的樣本，一組不是。在這種情況下，鑒別器知道訓練集包含了真實的樣本，但是它不能確定由生成器發送的初始樣本與真實樣本不太接近。它只能假定輸出是雜訊，因為生成器對真實樣本應該是什麼樣子知之甚少。

由於概率分布極其精確，生成器可以快速創建令人信服的樣本。然而，這違背了GANs的目的，因為如果一個人已經知道了詳細的概率分布，就會有更簡單和更直接的方法來得到真實的樣本。

隨著時間的推移，鑒別器從訓練集中學習，並向生成器發送越來越多的有意義的信號。當這發生時，生成器越來越接近於從訓練集的樣本中學習樣本。再一次，生成器的唯一輸入是初始概率分布（通常是正態分布）和它從鑒別器返回的指示器。它從來沒有見過真實的樣本。

現在我們已經描述了生成對抗網路（GANs）的起源和一般功能，讓我們來探討一下人工智慧（AI）中這一令人興奮的新發展在網路安全方面的作用。

PassGAN:用生成對抗網路破解密碼

這種技術最著名的應用是在一篇由研究人員Briland Hitaj、Paolo Gasti、Giuseppe Ateniese和Fernando Perez - Cruz撰寫的題為「PassGAN：密碼猜測的深度學習方法」的論文中描述的[3]，其代碼可在GitHub上找到[4]。

在這個項目中，研究人員首先使用GAN來測試破解密碼工具Johnthe Ripper和HashCat，然後擴充HashCat的猜測規則。GAN非常成功:它接受了990萬個獨特的泄露密碼的訓練了2370萬個密碼包括重複密碼。這是不涉及映像的GANs安全應用程序的一個罕見示例。

據該報報道，PassGAN的成績是John the Ripper的實驗室規則集的兩倍，並與HashCat的最佳64和第2代規則集競爭。然而，作者指出，當他們使用PassGAN作為對HashCat的擴展時，他們產生了驚人的結果----——這種組合破解的密碼比單獨使用HashCat要多18%到24%。這確實是一個驚人的結果。如果HashCat能夠從數據泄露中破解100萬個密碼，則該擴展將向破解的密碼集中再添加18萬到24萬個密碼。考慮到我們過去看到的大量數據泄露，這並非不現實。

更重要的是，作者聲稱他們的技術能夠猜測不在規則範圍內的密碼。這是因為PassGAN的生成器了解了訓練集的密碼分布。它學習了更多的人類模式，並生成了與這些人類生成模式相近的密碼。這意味著PassGAN會學到一些典型的密碼破解程序永遠也抓不到的東西。

需要注意的是，作者將訓練數據和猜測中的最大密碼長度設置為10個字元。我希望看到同樣的實驗使用更長的密碼:在撰寫本文時，13個字元被廣泛認為是強密碼的必要條件。

這個項目也很有趣，因為它生成文本作為輸出。這些問題中的許多都是基於圖像識別和操縱的，比如我們在研究另一篇描述使用GANs生成安全隱寫術的論文是所看到的。

SSGAN: GANs在隱寫術中的應用

隱寫術是將信息隱藏在其他看起來正常的文件中的過程。例如，改變圖像的每個RGB像素值中的最低有效位將允許信息泄漏而不會破壞用於人類感知的圖像。然而，在統計上，這些圖像易於被檢測。

中國科學院的一篇題為「SSGAN :基於生成對抗網路的安全隱寫術[5]」的論文描述了研究人員試圖使用GANs來創建隱寫術的方案，SSGAN方法改進了早期在該領域使用另一種性能較差的策略的項目。

與PassGAN項目不同，本項目使用了一個生成器和兩個鑒別器。在這裡，生成器的工作是嘗試創建非常適合隱藏信息的圖像，這意味著該圖像在視覺上是一致的，並且抗隱寫術。這些稱為安全封面圖像。

鑒別器做兩件事:一個鑒別器基於GAN的隱寫術框架，作者聲稱它比以前的研究中使用的更複雜。第二個的方法是與生成器「競爭」，以鼓勵創建的圖像中的多樣性，也就是說，它試圖評估所創建的圖像的視覺質量。這樣，發生器就不會繼續產生雜訊圖像。相反，它接收反饋，告訴它哪些圖像更適合視覺。所以，第二個鑒別器試圖確定圖像對於隱寫術的適用性。

實驗結果表明，採用SSGAN結構後，隱寫術網路的分類誤差增大，生成的隱寫圖像更適合於隱藏信息。雙鑒別器結構成功地使發生器不僅產生更多的抗隱寫術的圖像，而且產生更高視覺質量的圖像。這是隱寫術領域的一個巨大勝利，因為它擊敗了其他基於啟發式的演算法。

冰山一角

總體而言，這兩個項目證明了各種體系結構的GANs在網路安全領域具有良好的應用前景。PassGAN證明了GANs可以應用於基本的安全相關任務，例如破解密碼，並且可以改進和提高現有技術。SSGAN證明了GANs可以處理極其複雜的任務，例如發現隱藏在高質量生成的抗隱寫術的圖像中的信息。

這些項目只是冰山一角。隨著GANs應用於更多與網路安全相關的任務，毫無疑問，GANs將在幫助安全分析師應對不斷變化的威脅方面發揮極其有效的作用。

論文附錄：

特徵壓縮：在深層神經網路中對抗性樣本的檢測；

生成敵對網路；

PassGAN：密碼猜測的深度學習方法；

PassGAN代碼地址；

SSGAN：基於生成對抗網路的安全隱寫術。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！