當前位置:
首頁 > 新聞 > ICML 2018|防禦增強型網路:簡單修改已有網路可提升防攻擊能力

ICML 2018|防禦增強型網路:簡單修改已有網路可提升防攻擊能力

在訓練數據集上表現優良的深度模型在識別有細微差別的樣本時可能會得到非常讓人意外的結果。針對這類對抗樣本的防禦是人工智慧安全研究方面重點關注的研究主題之一。近日,蒙特利爾學習演算法研究院(MILA)提出了一種有助於提升深度網路在應對對抗攻擊方面的穩健性的模型:防禦增強型網路(Fortified Networks)。該研究已提交 ICML 2018。

1 引言

深度神經網路已經在很多不同任務上都取得了成功。這樣的成功推動了其在可靠性與安全性至關重要的領域的應用,其中包括自動駕駛汽車(Bojarski et al., 2016)、醫療保健、人臉識別(Sharif et al., 2017)以及惡意軟體檢測(LeCun et al., 2015)。當智能體所使用的系統表現不佳時,安全性問題就會出現。當模型在訓練過程中看到的輸入數據的分布不同於模型評估的數據分布時,會出現可靠性問題。

對抗樣本(Goodfellow et al., 2014)是一種攻擊神經網路模型的方法。這種攻擊是對輸入進行微小的擾動,從而改變所預測的類別。需要指出,得到肉眼無法察覺的微小擾動是可能的。事實證明,簡單的梯度方法就能讓人找到往往能改變輸出類別的修改輸入的方式(Szegedy et al., 2013; Goodfellow et al., 2014)。更近期的一項研究還表明,有可能通過創造甚至能貼在攝像頭上的貼片來改變具有高置信度的輸出類別(Brown et al., 2017)。

為了應對對抗樣本,研究者開發了一些防禦方法。其中一些最為突出的防禦類型包括特徵壓縮(Xu et al., 2017)、輸入的自適應編碼(Jacob Buckman, 2018)、與 distillation 相關的方法(Papernot et al., 2015)。現有的方法能實現一些穩健性,但大都不易部署。此外,事實證明很多方法都容易受到梯度掩碼的影響。而其它一些方法還需要直接在可見空間中訓練一個生成模型,這目前甚至在相對簡單的數據集上也很難辦到。

我們的目標是提供一種方法,其(i)是通用的,可加入到已有的網路中;(ii)能使網路在對抗攻擊下保持穩健;(iii)能為輸入數據的存在提供一個可靠的信號,且不取決於網路訓練所基於的流形。直接在輸入數據上使用生成模型來提升穩健性並不是什麼新思想。我們的主要貢獻是在所學習到的隱藏表徵的分布上實現了這種穩健性,而不是讓對流形外的樣本的識別更容易,如圖 1 所示。

我們提出了 Fortified Networks(防禦增強型網路)。其防禦增強方法包含使用去噪自動編碼器來「裝飾(decorate)」原始網路的隱藏層。我們使用了 Python 意義上的「裝飾」,可以應用於任何函數(在這裡是網路的一部分)並將其行為無明確修改地延展。防禦增強方法滿足上面陳述的三個目標。我們會討論這種隱藏層的防禦增強方法的直觀理解並闡述該方法的一些顯著屬性。我們在 MNIST、Fashion-MNIST、CIFAR10 數據集上針對白盒攻擊和黑盒攻擊對我們提出的方法進行了評估。

ICML 2018|防禦增強型網路:簡單修改已有網路可提升防攻擊能力

圖 1:輸入空間(上)和抽象的隱藏空間(下)中自動編碼器動態的示意圖。左邊一列展示了來自三個不同類別的數據點,中間一列給出了描述自動編碼器動態的向量場,右邊一列展示了一些所得到的軌跡和吸引盆地(basin of attraction)。Fortified Networks 背後的關鍵動機是:在抽象空間中,可以使用更簡單的統計結構來更輕鬆地識別指向數據流形之外的方向,這讓其能更輕鬆地將對抗樣本映射回其所投射的數據流形。

ICML 2018|防禦增強型網路:簡單修改已有網路可提升防攻擊能力

圖 2:在可見空間(左)和隱藏空間(右)中映射迴流形的過程的示意圖。陰影區域表示空間中由給定類別的數據點所佔據的區域(它們不表示決策邊界)

ICML 2018|防禦增強型網路:簡單修改已有網路可提升防攻擊能力

圖 3:單層的 fortified network 的圖示。使用數據樣本 x 及其對應的對抗樣本

ICML 2018|防禦增強型網路:簡單修改已有網路可提升防攻擊能力

對網路進行評估。隱藏單元 hk 和

ICML 2018|防禦增強型網路:簡單修改已有網路可提升防攻擊能力

中都會添加雜訊,然後使用編碼器 Enc 進行編碼,再通過解碼器 Dec 解碼。自動編碼器(用紅色表示)的訓練目標是重建對應清潔輸入的隱藏單元 hk。虛線表示兩個重建成本:良性樣本的重建成本(Lrec)和對抗樣本的重建成本(Ladv)。注意,一個層可以在網路中的任何位置得到防禦增強。

ICML 2018|防禦增強型網路:簡單修改已有網路可提升防攻擊能力

表 1:使用 FGSM 進行的白盒 MNIST 攻擊下,不同方法的準確度,其中的模型是一個卷積網路。我們使用了 ε 為 0.3 的標準 FGSM 攻擊參數,並且與其他研究者發表的對抗訓練防禦方法進行了比較。我們也執行了 ablation study,考慮了移除對抗樣本 Ladv 上的重建誤差的情況,以及將防禦增強層中的激活函數從 leaky relu 改成 tanh 的情況——我們發現這對這一情況有所助益。儘管我們的基準和預先防禦增強的網路使用了 relu 激活函數,但我們發現通過在所有層中使用 leaky relu,使用標準對抗訓練在 FGSM ε = 0.3 上的準確度可以提升至 99.2%,這說明我們自己的基準和過去研究所報告的基準一直都太弱了。

ICML 2018|防禦增強型網路:簡單修改已有網路可提升防攻擊能力

表 4:在使用標準的 ε = 0.03 的 FGSM 的白盒 CIFAR 攻擊下的準確度,其中每個模型都是一個卷積網路。我們的基準對抗訓練方法是來自(Nicolas Papernot, 2017)的殘差網路模型。

標題:防禦增強型網路:通過建模隱藏表徵的流形來提升深度網路的穩健性(Fortified Networks: Improving the Robustness of Deep Networks by Modeling the Manifold of Hidden Representations)

ICML 2018|防禦增強型網路:簡單修改已有網路可提升防攻擊能力

論文:https://arxiv.org/abs/1804.02485v1

深度網路已經在很多不同的重要任務上得到了出色的結果。但是,它仍然有一個眾所周知的缺點:在與訓練數據分布不同的數據上訓練時往往表現不佳——即使這些不同之處非常細微,比如對抗樣本的情況。我們提出了 Fortified Networks,這是一種對已有網路進行的簡單修改,能夠通過識別不在數據流形上的隱藏狀態來強化深度網路中隱藏層的防禦,並且還能將這些隱藏狀態映射回網路表現優良的數據流形部分。我們的主要貢獻是表明:增強這些隱藏狀態的防禦能提升深度網路的穩健性;並且我們的實驗(i)表明這種方法能在黑盒和白盒威脅模型中提升標準對抗攻擊下的穩健性;(ii)說明我們所獲得的提升並非主要源自梯度掩碼問題;(iii)表明了在隱藏層而非輸入空間執行這種防禦增強的優勢。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

不出所料!ICLR 2018最佳論文:基於梯度的元學習演算法,可高效適應非平穩環境
一文簡述ResNet及其多種變體

TAG:機器之心 |