當前位置:
首頁 > 最新 > 伯克利AI研究:深度神經網路的物理對抗實例

伯克利AI研究:深度神經網路的物理對抗實例

作者|Berkeley Artificial Intelligence Research

譯者|Liu Zhiyong

編輯|Debra Chen,Emily

AI 前線導讀:從語音處理到醫療診斷,儘管深度神經網路已經在很多領域取得了巨大的成功,但最近的研究結果表明,它們很容易受到對抗干擾。對 DNN 輸入所進行的這種惡意製作的改變將會導致它們以一種意想不到的和存在潛在危險的方式行事。

2017 年 8 月,OpenAI 曾發現對抗樣本在圖像不斷變化時可能會失效,他們將一張小貓的圖片放大後,神經網路分類器輸出的結果變成「台式電腦」。MIT 的 LabSix 研究小組在 11 月份也得出了相似的結論,他們在研究中製作了一些受到對抗干擾的 3D 模型,從而成功欺騙分類器,證明神經網路分類器完全可以被 3D 對抗樣本完美地欺騙。許多機構和實驗室已經開始注意到 DNN 的這個缺陷,他們用大量的研究向公眾證明了它的潛在危害:基於深度神經網路的分類器很容易受到對抗樣本的影響,即通過添加小幅度干擾而從導致對輸入的錯誤分類。

不久前,加州大學伯克利 AI 研究團隊發布了一篇文章 [1],詳細的闡述了深度神經網路的物理對抗示例。這篇文章是基於基於 Ivan Evtimov、Kevin Eykholt、Earlence Fernandes、Tadayoshi Kohno、Bo Li、Atul Prakash、Amir Rahmati、Dawn Song 和 Florian Tramer 的最新研究撰寫。

更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front)

深度神經網路(DNN,Deep neural network)在各種應用領域都取得了很大的進展,包括圖像處理、文本分析和語音識別等。在許多信息物理系統(cyper-physical system)中,DNN 也是一個重要的組成部分。例如,自動駕駛汽車的視覺系統可以利用 DNN 來更好地識別行人、車輛和道路標誌。然而,最近的研究表明,DNN 很容易受到攻擊:在輸入中加入精心設計的對抗性干擾,可以誤導目標 DNN 在運行時錯誤標記它們。當在現實世界中應用 DNN 時,這樣的對抗示例帶來了安全性問題。例如,對抗干擾的輸入,可能會誤導自動駕駛汽車的感知系統,將道路標誌錯誤分類,從而有可能會產生災難性的後果。

人們已經提出了一些技術,用來產生對抗的示例來防禦它們。在這篇博文中,我們將簡要介紹最先進的演算法,以生成數字對抗的示例,並討論我們的演算法,在不同的環境條件下,在真實的物體上生成物理對抗的示例。我們還將提供有關我們為目標探測器生成物理對抗示例的更新。

數字對抗示例

在白盒設置中,人們已經提出了不同的方法來產生對抗示例,而對抗目標完全可以訪問 DNN。白盒設置假設一個強大的對抗目標,因此可以幫助人們開發未來的傻瓜式防禦奠定基礎。這些方法有助於理解數字對抗的示例。

Goodfellow 等人提出了一種快速梯度法 [2],該方法應用損失函數的一階近似來構建對抗樣本。人們基於優化 [3] 的方法,也提出了針對目標攻擊的對抗干擾。具體來說,這些攻擊制定了一個目標函數,其解決方案旨在最大限度地提高輸入真實標記和攻擊者期望的目標標記之間的差異,同時最小化輸入相似度的定義。在計算機視覺分類問題中,一個常用的測量方法是輸入向量的 L2 範數。通常,低 L2 範數距離的輸入將彼此更接近。因此,有可能計算出與人眼非常相似的輸入,但是對於分類器而言是非常不同的。

最近的工作已經研究了數字對抗示例的黑盒 [4] 轉移性,在黑盒設置中產生對抗示例也是可能的。這些技術包括以白盒方式生成另一個已知模型的對抗示例,然後針對目標未知模型運行它們。

物理對抗示例

為了更好地理解這些缺陷,我們已經就對抗示例如何影響在物理世界中部署的 DNN 進行了廣泛的研究。

Kurakin[5] 等人指出,通過智能手機的攝像頭,觀看列印的對抗性樣本可能會被錯誤分類。Sharif[6] 等人通過在眼鏡框上列印對抗干擾來攻擊人臉識別系統。他們的研究工作證明了在相對穩定的物理條件下成功的物理攻擊,在姿勢、距離攝像頭的距離 / 角度以及燈光的變化很小。這有助於理解穩定環境中的物理示例。

我們最近的一項研究:「基於深度學習模型的對物理世界的健壯性攻擊 [7]」顯示了對分類器的物理攻擊。(文末有兩個視頻 [8][9])Athalye[10] 等人表示,對在物理世界中對抗性輸入進行轉換的數字優化,可以產生針對分類器的 3D 對象的有效的對抗示例。作為下一個邏輯步驟,我們演示了對目標探測器的攻擊。這些計算機視覺演算法識別場景中的相關目標,並預測顯示目標的位置和種類的邊框。與分類器相比,探測器在處理整個圖像時更具有挑戰性,並且可以在預測中使用上下文信息(例如,場景中目標對象的方向和位置)。

我們演示了 YOLO[11] 探測器的物理對抗實例,YOLO 探測器是一種很受歡迎的最新演算法,具有良好的實時性。我們的示例,是在一個真正的 STOP 標誌上採用貼紙干擾的形式,下圖顯示了我們的物理對抗干擾示例。

我們還通過錄製視頻來進行動態測試,來測試檢測性能。從視頻中可以看出,YOLO 網路在幾乎所有的幀中都沒有感知到 STOP 標誌。如果一輛真正的自動駕駛汽車行駛在道路上,有這樣一個對抗的 STOP 標誌,它將不會看到這個標誌並停車,這樣可能會導致在十字路口發生碰撞。我們創建的干擾對於距離和角度的變化是非常有效的:這是自動駕駛汽車場景中最常見的變化因素。

更有趣的是,為 YOLO 探測器生成的物理對抗示例也能夠欺騙標準的 Faster-RCNN[12]。我們的演示視頻包含一個動態的測試,在 Faster-RCNN 上的物理對抗的示例。由於這是對 Faster-RCNN 的黑盒攻擊,攻擊並不像在 YOLO 示例那樣成功。這是預期的行為。我們相信,通過附加技術(如整體訓練),黑盒攻擊可以變得更加有效。此外,特別優化對 Faster-RCNN 的攻擊將產生更好的結果。下圖是 Faster-RCNN 沒有感知到 STOP 標誌的一個示例。

在這兩種情況下(YOLO 和 Faster-RCNN),只有當相機非常靠近標誌(大約 3~4 英尺遠)時,才會檢測到停止標誌。在實際環境中,這段距離對於車輛而言太過接近,無法採取有效的糾正措施。

攻擊演算法概述

這個演算法是基於我們之前的攻擊分類器的工作原理。從根本上說,我們採取優化方法來產生對抗的示例。然而,我們的實驗經驗表明,為探測器生成健壯的物理對抗實例需要模擬一組變化更大的不同物理條件,而非用來欺騙分類器。這很可能是因為探測器在生成預測時需要考慮更多的上下文信息。該演算法的關鍵屬性包括指定物理條件模擬序列的能力,以及指定平移不變性屬性的能力。也就是說,無論目標對象位於場景內何處,干擾都應該是有效的。由於對象可以在場景中自由移動,取決於觀察者,如果對象移動,此屬性的干擾可能會中斷。

潛在的防禦

鑒於數字和物理世界中都有這些對抗性示例,潛在的防禦方法也被廣泛研究。其中,不同類型的對抗訓練方法是最有效的。Goodfellow 等人 [13] 首次提出了對抗訓練是提高神經網路健壯性的有效方法,Tramèr 等人 [14] 將其延伸到集體對抗性學習。Madry 等人 [15] 也提出了通過迭代訓練和對抗性示例來建立健壯的網路。要進行對抗性訓練為基礎的防禦,需要大量的對抗性示例。此外,這些對抗性的示例可以使防禦更加健壯,如果它們來自集合訓練工作的不同模型。集合對抗訓練的好處在於增加對抗實例的多樣性,使得該模型可以充分發掘對抗性示例的空間。還有其他類型的防禦方法,但 Carlini 和 Wangner[16] 已經表明,這些現有的防禦方法都沒有足夠強大的防禦能力。

總的來說,我們還需要很長一段時間才能找到最佳的防禦策略來對抗這些對抗示例。我們期待著探索這個令人興奮的研究領域。

[16] Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methodshttp://nicholas.carlini.com/papers/2017_aisec_breakingdetection.pdf


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI漫遊 的精彩文章:

IBM推出DeepTriage,利用深度學習實現Bug自動分類

TAG:AI漫遊 |