當前位置:
首頁 > 新聞 > 清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

雷鋒網AI研習社按:對抗樣本是一類被惡意設計來攻擊機器學習模型的樣本。它們與真實樣本的區別幾乎無法用肉眼分辨,但是卻會導致模型進行錯誤的判斷。本文就來大家普及一下對抗樣本的基礎知識,以及如何做好對抗樣本的攻與防。

在近期雷鋒網AI研習社舉辦的線上公開課上,來自清華大學的在讀博士生廖方舟分享了他們團隊在 NIPS 2017 上一個對抗樣本攻防大賽中提到的兩個新方法,這兩個方法在大賽中分別獲得了攻擊方和防守方的第一名。點擊可視頻回放

廖方舟,清華大學化學系學士,生醫系在讀博士。研究方向為計算神經學,神經網路和計算機視覺。參加多次 Kaggle 競賽,是 Data Science Bowl 2017 冠軍,NIPS 2017 對抗樣本比賽冠軍。Kaggle 最高排名世界第10。

分享主題:

動量迭代攻擊和高層引導去噪:產生和防禦對抗樣本的新方法

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

分享內容:

大家好,我是廖方舟,今天分享的主題是對抗樣本的攻和防。對抗樣本的存在會使得深度學習在安全敏感性領域的應用收到威脅,如何對其進行有效的防禦是很重要的研究課題。 我將從以下幾方面做分享。


  • 什麼是對抗樣本

  • 傳統的攻擊方法

  • 傳統的防守方法

  • 動量迭代攻擊

  • 去噪方法

  • 高層引導去噪方法

什麼是對抗樣本

對抗樣本的性質不僅僅是圖片所擁有的性質,也不僅僅是深度學習神經網路獨有的性質。因此它是把機器學習模型應用到一些安全敏感性領域裡的一個障礙。

當時,機器學習大牛Good fellow找了些船、車圖片,他想逐漸加入一些特徵,讓模型對這些船,車的識別逐漸變成飛機,到最後發現人眼觀測到的圖片依然是船、車,但模型已經把船、車當做飛機。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

我們之前的工作發現樣本不僅僅是對最後的預測產生誤導,對特徵的提取也產生誤導。這是一個可視化的過程。

當把一個正常樣本放到神經網路後,神經元會專門觀察鳥的頭部,但我們給它一些對抗樣本,這些對抗樣本也都全部設計為鳥,就發現神經網路提取出來的特徵都是亂七八糟,和鳥頭沒有太大的關係。也就是說欺騙不是從最後才發生的,欺騙在從模型的中間就開始產生的。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

下圖是最簡單的攻擊方法——Fast Gradient Sign Method

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

除了FGSM單步攻擊的方法,它的一個延伸就是多步攻擊,即重複使用FGSM。由於有一個最大值的限制,所以單步的步長也會相應縮小。比如這裡有一個攻擊三步迭代,每一步迭代的攻擊步長也會相應縮小。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

產生圖片所用的CNN和需要攻擊的CNN是同一個,我們稱為白盒攻擊。與之相反的攻擊類型稱為黑盒攻擊,也就是對需要攻擊的模型一無所知。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

以上所說的都是Non Targeted, 只要最後得到的目標預測不正確就可以了。另一種攻擊Targeted FGSM,目標是不僅要分的不正確,而且還要分到指定的類型。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

一個提高黑盒攻擊成功率行之有效的辦法,是攻擊一個集合。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

而目前為止一個行之有效的防守策略就是對抗訓練。在模型訓練過程中,訓練樣本不僅僅是乾淨樣本,而是乾淨樣本加上對抗樣本。隨著模型訓練越來越多,一方面乾淨圖片的準確率會增加,另一方面,對對抗樣本的魯棒性也會增加。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

下面簡單介紹一下NIPS 2017 上的這個比賽規則

比賽結構

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

兩個限制條件:容忍範圍不能太大;不能花太長時間產生一個對抗樣本,或者防守一個對抗樣本

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

FGSM演算法結果

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

圖中綠色模型為攻擊範圍,最後兩欄灰色是黑盒模型,隨著迭代數量的增加, 攻擊成功率反而上升。這就給攻擊造成了難題。

我們解決的辦法就是在迭代與迭代中間加入動量

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

加入動量之後,白盒攻擊變強了,而且對黑盒模型攻擊的成功率也大大提升了。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

總結:

以前方法(iterative attack)的弱點是在迭代數量增多的情況下,它們的遷移性,也就是黑盒攻擊性會減弱,在我們提出加入動量之後,這個問題得到了解決,可以很放心使用非常多的迭代數量進行攻擊。

在NIPS 2017 比賽上得到最高的分數

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

需要提到的一點,上面提到的都是Non-targeted , 在Targeted攻擊裡面,這個策略有所不同。在Targeted攻擊裡面,基本沒有觀察到遷移性,也就是黑盒成功率一直很差,即便是加入動量,它的遷移程度也非常差。

下面講一下防守

首先想到的就是去雜訊,我們嘗試用了一些傳統的去噪方法(median filter 、BM3D)效果都不好。之後我們嘗試使用了兩個不同架構的神經網路去噪。一個是 Denoising Autoencoder,另一個是Denoising Additive U-Net。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

我們的訓練樣本是從ImageNet數據集中取了三萬張圖片 ,使用了七個不同的攻擊方法對三萬張圖片攻擊,得到21萬張對抗樣本圖片以及三萬張對應的原始圖片。除了訓練集,我們還做了兩個測試集。一個白盒攻擊測試集和一個黑盒攻擊測試集。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

訓練效果

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

我們發現經過去噪以後,正確率反而有點下降。我們分析了一下原因,輸入一個乾淨圖片,再輸入一個對抗圖片,然後計算每一層網路在這兩張圖片上表示的差距,我們發現這個差距是逐層放大的。

圖中藍線發現放大的幅度非常大,圖中紅線是去噪過後的圖片,仍然在放大,導致最後還是被分錯。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

為了解決這個問題,我們提出了經過改良後的網路 HGD

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

HGD 的幾個變種

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

和之前的方法相比,改良後的網路 HGD防守準確率得到很大的提升

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

HGD 有很好的遷移性

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

最後比賽中,我們集成了四個不同的模型,以及訓練了他們各自的去噪, ,最終把它們合併起來提交了上去。

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

HGD網路總結

優點:


  • 效果顯著比其他隊伍的模型好。

  • 比前人的方法使用更少的訓練圖片和更少的訓練時間。

  • 可遷移。

缺點:


  • 還依賴於微小變化的可測量

  • 問題並沒有完全解決

  • 仍然會受到白盒攻擊,除非假設對手不知道HGD的存在

雷鋒網AI慕課學院提供了本次分享的視頻回放:http://www.mooc.ai/open/course/383

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

TAG:雷鋒網 |