深度學習之對抗樣本

最新 01-26

目前的深度卷積神經網路（CNN）在多個視覺相關的任務中都達到或超過了人類的水平，例如圖片的分類、人臉識別等。同時，CNN也是容易被愚弄的，我們可以通過一定的手段騙過CNN，使其分類錯誤。

例如上面例子中，一個熊貓圖像，原本神經網路可以將其正確分類為熊貓，而加上了一些看似白雜訊的干擾，就使得神經網路以99%的置信度將其歸類為長臂猿。

這種愚弄神經網路的方法就是對抗樣本（adversarial examples）。這種方法在安全領域受到十分密切的關注，因為隨著人工智慧應用的普及，其安全性就越來越重要，如果一個AI很容易被騙過，那麼將非常容易被黑客利用。例如，垃圾郵件發送者可以通過欺騙AI來防止被過濾掉，而更嚴重的例子是，自動駕駛技術中就包括了行人、車輛的識別，如果黑客使用對抗樣本使得AI誤以為路面上沒有人，那就將造成重大交通事故。

這裡介紹一種簡單的產生對抗樣本的方法，其示意圖如下（此處展示的是希望將人物誤分類為書櫃）