對抗樣本到底是bug還是特徵？Reddit熱議的MIT論文再度引發大討論

新聞 08-08

【新智元導讀】5月初，MIT的一篇論文提出。對抗樣本不是bug，而是有用的特徵，引發熱議。三個月以來，有學者該文中的觀點提出了不同意見，對抗樣本到底是bug還是特徵？有網站專門組織了一場大討論，原論文作者也參加了，雙方有來有回，一起來看看吧。

5月6日，MIT的Andrew Ilyas團隊發表了一篇論文，題為《對抗樣本不是Bug, 而是特徵 》。文中概述了兩組實驗。首先，他們表明，在對抗性實例上訓練的模型可以應用到實際數據上，其次，在源自高魯棒性神經網路表示的數據集上訓練的模型，似乎繼承了這些數據集非平凡的魯棒性。

他們對這一結論提出了一個有趣的解釋：對抗性實例是由於「非魯棒特徵」，這些特徵具有高度可預測性，但對人類來說難以察覺。

對抗樣本到底是bug還是特徵？Reddit熱議的MIT論文再度引發大討論

這篇論文引起了全世界社交媒體上的熱議，各地社群和研究小組中都引發了興趣濃厚的討論。該如何解釋這些實驗？這些實驗是可復現的嗎？如果確實存在非魯棒性的特徵......那麼都有哪些特徵？

大討論：對抗樣本到底是不是bug？

為了探索這些問題，Distill上開展了一個實驗性的「討論」，邀請了一些研究人員在論文上撰寫評論，並組織了原作者的討論和回應。

機器學習社區有時擔心同行評議不夠徹底。但此次討論參與的積極性非常高。一些人花了幾個星期的時間來複現結果，進行新的實驗，並深入思考原來的論文。還有人在實驗時隨時更新著對非魯棒特徵觀點，有時還會進行討論。此文的原作者也深入地討論了實驗結果，澄清了誤解，甚至在回應他人的評論時進行了新實驗。

這種深度的參與和討論非常令人興奮，希望將來能夠嘗試更多此類形式的討論。

討論內容主要圍繞以下幾個主題：

對原文內容的澄清：參與討論和原論文作者之間的討論中可能表現出一些誤解，藉此機會能夠各自明確自己的觀點。

成功的實驗再現：有些討論者成功復現了Ilyas團隊的許多實驗。這與論文原作者發布代碼，模型和數據集是分不開的。Gabriel Goh和Preetum Nakkiran都獨立地重新實現並複製了非魯棒數據集的實驗。Preetum還通過已發布的魯棒數據集上訓練了模型，發現模型結構其實非常簡單，從而復現了部分魯棒的數據集實驗。而且，Preetum和Gabriel最初都對此持懷疑態度。Preetum表示，他嘗試的許多模型變體和超參數都是高魯棒性的。

探索非魯棒性「轉移」的邊界條件：其中一些討論重點放在了「非魯棒數據集」實驗的變體上，這些實驗將訓練的對抗樣本非魯棒性轉移到了實際數據上。這種轉移是何時發生的，為何會發生？Gabriel Goh探索了出另一種機制，Preetum Nakkiran則展示了一種不會發生這種轉移的特殊結構。Eric Wallace表明，對於其他類型的錯誤標記數據，很可能會發生這種轉移。

魯棒和非魯棒特徵的屬性：Gabriel Goh探討了線性模型中出現非魯棒特徵的可能性，Dan Hendrycks和Justin Gilmer討論了實驗結果與更廣泛的魯棒性的分布和轉移問題相關聯的問題。Reiichiro Nakano探討了魯棒模型的定性差異等.

討論話題和作者回應節選

論文原作者積极參与了這次討論，並針對討論中提出的多種觀點和問題給出了回復。以下節選幾例：

對抗樣本研究人員應該擴展「魯棒」的含義

Justin和Dan討論了「非魯棒特徵」模型不具備魯棒性的特殊情況，因為這些特徵依賴於膚淺的相關性，這種觀點經常出現在分布魯棒性文獻中。他們還討論了神經網路在頻率空間中的最新行為分析。他們強調，我們應該對魯棒性的概念進行更廣泛的擴展。

原作者回復：

僅從數據中高頻出現的要素進行學習的模型，是一個有趣的發現，這一發現為我們提供了另一種視角，我們的模型可以從對人類「毫無意義」的數據中進行學習。我們完全同意這一觀點，即研究更廣泛的魯棒性概念，在機器學習研究中將變得越來越重要，並有助於我們更好地掌握希望模型依賴的那些特徵。

存在非魯棒、但有用的樣本

Gabriel探討了線性模型中非魯棒但有用的特徵。他提供了兩種結構：一種是「受污染」的特徵，由於混合了無用的特徵，是非魯棒的，而「集合」特徵可能是真正有用的非魯棒特徵。

原作者回復：

這些線性模型實驗，是實現真實數據集非魯棒特徵可視化的第一步（即對它們的存在性的一種巧妙的證實）。此外，「受污染」的非魯棒特徵的理論架構，為開發更精細的特徵定義提供了一個有趣的方向。

對抗樣本就是Bug

Preetum構建了一系列對抗樣本，這些樣本沒有轉移到真實數據中，這表明一些對抗樣本是原始論文框架中的一些「錯誤」。Preetum還證明，即使底層分布沒有「非魯棒特徵」，也會出現對抗樣本。

原作者回復：

應該細緻考察對抗樣本。基於構造的「bug」的對抗樣本不會轉移的事實，是「可轉移性」和「非魯棒特徵」之間的存在聯繫的另一個證據。

從錯誤標記的數據中學習

Eric表示，對模型的訓練錯誤進行訓練，或者如何預測示例形成不相關的數據集，可以轉移到真實的測試集。這些實驗類似於原始論文的非魯棒轉移結果。- 所有三個結果都是「從不正確標記的數據中學習」的例子。

原作者回復：

這些實驗創造性地證明了這樣一個事實，即「人類毫無意義」數據的學習特徵的潛在現象實際上可以在廣泛的環境中出現。

原論文地址：

https://arxiv.org/pdf/1905.02175.pdf

討論內容鏈接：

https://distill.pub/2019/advex-bugs-discussion/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※2019計算機體系結構最高獎Eckert-Mauchly公布，Mark D. Hill獲獎
※Keras 作者 Francois Chollet：這些年，AI 未解決任何基本問題

TAG:新智元 |