精準防禦對抗性攻擊，清華大學提出對抗正則化訓練方法DeepDefense

最新 03-07

選自arXiv

作者：Ziang Yan等

機器之心編譯

參與：劉曉坤、黃小天

本文提出了一個名為 DeepDefense 的訓練方案，其核心思想是把基於對抗性擾動的正則化項整合進分類目標函數，從而使模型可以學習直接而精確地防禦對抗性攻擊。在 MNIST、CIFAR-10 和 ImageNet 上的擴展實驗證明了該方法可以顯著提高不同深度學習模型對高強度對抗攻擊的魯棒性，同時還不會犧牲準確率。

雖然深度神經網路（DNN）在許多挑戰性的計算機視覺任務中都取得了當前最優的表現，但在對抗樣本（在人類感知上和真實圖像很相似，但卻能欺騙學習模型做出錯誤預測的生成圖像）面前，它們仍然非常脆弱 [32]。

合成對抗樣本的通常方法是應用最壞情況的擾動到真實圖像上 [32,7,26]。通過適當的策略，僅有真實圖像像素值 1/1000 的擾動幅度就可以成功欺騙 DNN 模型，這種擾動通常對於人類來說是不可感知的。有研究稱即使是當前最佳的 DNN 模型也會被這類對抗樣本所欺騙，得出高信度的錯誤分類結果 [19]。更糟糕的是，對抗擾動還可以遷移到不同的圖像和網路架構上 [25]。這種遷移性使得黑箱攻擊變得可行，即不需要任何模型架構或參數的知識就可以實現欺騙 [28]。

雖然 DNN 的這種特性很有趣，但其還會導致現實世界應用的潛在問題（例如，自動駕駛汽車和人臉識別支付等）。和對抗隨機雜訊的不穩定性不同（已被證明理論上和實踐上都不是很重要 [6,32]），深度學習的對抗擾動脆弱性仍然是很嚴重的問題。目前有許多研究都嘗試對其進行分析和解釋 [32,7,5,12]。例如，Goodfellow 等人 [7] 稱 DNN 的脆弱性的主要原因在於線性本質（而不是非線性）以及過擬合。基於該解釋，他們設計了一種高效的線性擾動，並在進一步研究中將其結合到對抗訓練中 [32]，以優化正則化效果。最近，Cisse 等人 [5] 探索了基於 DNN 分類器的 Lipschitz 常數，並提出了 Parseval 訓練法對該常數進行控制，從而提高 DNN 分類器的魯棒性。然而，和某些以前提出的基於正則化的方法類似 [8]，Parseval 訓練法需要對其理論最優約束做一些近似，限制了其對非常強的對抗攻擊的有效性。

本文提出了 DeepDefense，這是一種用於訓練 DNN 提高模型魯棒性的對抗正則化方法。與很多已有的使用近似和優化非嚴格邊界的方法不同，研究者準確地將一個基於擾動的正則化項結合到分類目標函數中。從理論的角度看，這使得 DNN 模型可以直接從對抗擾動中學習並進一步對其進行防禦。具體來說，就是給正確分類的樣本分配更大的正則化項值，給錯誤分類的樣本分配更小的正則化項值，來懲罰對抗擾動的範數。作為正則化項，它將和原始的學習目標函數聯合優化，並且整個問題將被當做訓練一個類似遞歸型的網路而高效地求解。在 MNIST、CIFAR-10 和 ImageNet 上的擴展實驗證明了該方法可以顯著提高不同 DNN 對高強度對抗攻擊的魯棒性，同時還不會犧牲準確率。

圖 1：左上，該類似遞歸型的網路以重塑的圖像 x_k 為輸入，並相繼地通過利用一個預設計的攻擊模塊計算每個 r^(i)_k（0≤i

表 1：不同防禦方法在對抗攻擊下的測試性能。第 4 列：無對抗擾動的測試圖像的準確率。第 5 列：在 DeepFool 攻擊下的 ρ_2 值。第 6 列：在 Fast Gradient Sign（FGS）攻擊下的 ρ_∞ 值。第 7-9 列：FGS 擾動圖像上的分類準確率，ε_ref 是使得 50% 的擾動圖像被本文提出的正則化模型誤分類的最小 ε 值。

表 2：精調過程中的一些超參數。

圖 2：MNIST 上的收斂曲線：(a) MLP 的測試精度，(b) MLP 的測試ρ_2 值，(c) LeNet 的測試精度，(d) LeNet 的測試 ρ_2 值。「Clean」表徵無擾動圖像上的精調。

圖 3：一張來自 MNIST 測試集並標註為「0」的圖像 (x_k)，並基於 DeepFool 生成對抗樣本以欺騙不同的模型，包括：(b) 參考模型，(c)-(e)：帶有對抗性訓練的精調模型、Parseval 訓練以及我們的 DeepDefense。圖中上方的箭頭表示實例被錯誤分類的類別結果，下方的數字表示的值。上半部分是為 MLP 模型生成，下半部分是為 LeNet 模型生成。模型（即，動量：0.9，權重衰減：0.0005）。

圖 4：帶有變化的超參數的 DeepDefense 在 MNIST 上的表現。這裡使用 LeNet 作為參考網路。同一曲線上的不同點對應於不同 c 值的精調（從左至右依次減少）。

圖 5：當僅優化一層以正則化 LeNet 分類目標函數時本文方法的表現。同一曲線上的不同點對應於不同的 c 值。

圖 6：CIFAR-10 上的收斂曲線：(a) ConvNet 的測試精度，(b) ConvNet 的測試 ρ_2 值，(c) NIN 的測試精度，(d) NIN 的測試 ρ_2 值。

論文：DeepDefense: Training Deep Neural Networks with Improved Robustness

論文鏈接：https://arxiv.org/abs/1803.00404

摘要：儘管深度神經網路（DNNs）對於很多計算機視覺任務很有效，但很容易受到對抗性攻擊，限制了其在安防系統的應用。最近工作已表明不可感知的擾動圖像輸入（即對抗樣本）存在欺騙良好訓練的 DNN 模型做出任意預測的可能性。為解決這一問題，我們提出了一個名為 DeepDefense 的訓練方案，其核心思想是把基於對抗性擾動的正則化項整合進分類目標函數，從而使模型可以學習直接而精確地防禦對抗性攻擊。整個優化問題可以按訓練遞歸網路的方式得到解決。實驗結果表明我們的方法在不同數據集（包含 MNIST、CIFAR-10 和 ImageNet）和 DNN 架構上明顯優於當前最佳方法。我們將很快公開發布再現這一結果的代碼和模型。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

?------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※BAIR開發現實環境的RL機器人，通過與人類的物理交互學習真實目標
※既能欺騙機器，也能迷惑人類：Goodfellow等人提出新一代對抗樣本

TAG:機器之心 |