當前位置:
首頁 > 科技 > 賓夕法尼亞州立大學提出深度k-最近鄰演算法,解決深度學習應用的安全漏洞

賓夕法尼亞州立大學提出深度k-最近鄰演算法,解決深度學習應用的安全漏洞

原文來源:arXiv

作者:Nicolas Papernot、Patrick McDaniel

「雷克世界」編譯:嗯~是阿童木呀、KABUDA、EVA

深度神經網路(DNN)使諸如圖像識別、機器翻譯、惡意軟體檢測這種機器學習的創新應用成為可能。然而,深度學習卻經常被批評,因為它在對抗環境中缺乏魯棒性(比如,對對抗輸入的脆弱性)並且整體上無法使它的預測合理化。在此,我們利用了深度學習的結構,使新的基於學習的推斷和決策策略有可能具備魯棒性和可解釋性等屬性。我們向這個方向邁出了第一步,並介紹了深度k-最近鄰(DkNN)。這種混合分類器將k-最近鄰演算法與DNN每一層所學習的數據表徵相結合:根據在表徵中它們之間的距離,比較測試輸入與相鄰的訓練點。我們指出了這些相鄰點的標籤,它們為模型訓練集之外的輸入提供了置信度估計,包括像對抗樣本這樣的惡意輸入,並且在其中提供了對抗模型理解之外輸入的保護。這是因為最近鄰可以用來估計不一致性,即,對訓練數據中預測的支持的缺失。這些近鄰也構成了人類對預測可作出的解釋。我們對DkNN演算法在多個數據集上進行了評估,並顯示了置信度估計準確地識別了模型之外的輸入,而且由最近鄰提供的解釋在理解模型失敗時非常直觀和有用。

深度學習無所不在:深度神經網路在諸如機器翻譯、診斷糖尿病視網膜病變或肺炎這種疾病、惡意軟體檢測和圖像分類等挑戰性任務上表現優異。這一成功的部分原因是硬體的發展(如GPU和TPU)和大型數據集的可用性(如ImageNet),但更重要的原因是神經網路的架構設計和隨機梯度下降的卓越性能。實際上,深度神經網路被設計用來學習輸入域的一個層次集的表徵。這些表徵將輸入數據投射到越來越抽象的空間中—或嵌入—,最終足夠抽象到使任務能夠被線性決策函數解決(比如,分類)。

深度k-最近鄰背後的直觀圖

儘管深度神經網路(DNN)得了突破, 但在安全性和安全關鍵應用程序中,它們的應用仍然有限。部分是因為它們通常被視為黑盒模型,其性能並不完全被一大套參數理解和控制——現代DNN架構通常用超過一百萬的值進行參數化。這是矛盾的,因為深度學習的本質:DNN的設計哲學中一個重要組成部分是學習一個模塊化的模型,它的組成部分(神經元層)是簡單的、孤立的,但又強大且富有表現力——因為它們的編配是非線性函數構成的。

在本文中,我們利用了深度學習的內在模塊化,解決了與其安全性直接相關的三個明確的批評:缺乏可靠的置信度估計、模型解釋能力和魯棒性。我們介紹了深度k-最近鄰(DkNN)分類演算法,該演算法根據模型的訓練數據,執行DNN對測試輸入預測的一致性評估。對於DNN中的每一層,DkNN執行一個最近鄰搜索,以找到訓練點,該層的輸出最接近於在有用測試輸入那層的輸出。然後我們分析這些相鄰訓練點的標籤,以確保每一層的中間計算與最終模型的預測保持共形。

在對抗環境中,這產生了一種與以往研究所不同的防禦方法,它解決了惡意輸入模型性能低下的根本原因,而不是試圖使特定的對抗策略失敗。實際上,我們不是通過試圖對所有合法的和惡意的輸入進行正確分來培養模型的完整性,而是通過創建一種全新的、稱為可信度(credibility)的置信度特徵來確保模型的完整性,該特徵跨越DNN內部的表示層次:任何可信的分類必須得到訓練數據的證據支持。相反,缺乏可信度則表明該樣本必須是模稜兩可的或對抗性的。事實上,機器學習模型的大誤差空間揭露了一個大型的攻擊面,它被諸如對抗樣本這樣的威脅向量攻擊所利用。

在測試數據中DNN softmax置信度(左)和DkNN可信度(右)的可靠性圖表

我們的評估表明,當DkNN分類器的預測得到基礎訓練集的支持時,DkNN分類器的完整性便得以維持。這種支持被評估為預測中,與在模型的每一層所發現的最近鄰居的一致性的「置信度」水平,並通過適形預測(conformal prediction)對其進行分析。回到模型的期望屬性; (a)置信度可以看作是對測試輸入和模型訓練點之間距離的估計;(b)可解釋性,可以通過在訓練集上找到支持預測的點來實現;(c)魯棒性,當預測的支持在DNN的各個層上達到一致,即預測具有高度的置信度時便可實現。

深度k-最近鄰演算法

DkNN背後的直觀圖如圖1所示,下面討論了這一點,從而引出了對置信度、可解釋性和魯棒性的定義和重要性的探索,以及它們在對抗環境下的機器學習中所起的作用。

(a)置信度:最近有來自安全部門和ML社區的呼籲,要求對DNN所做出預測的置信度進行更準確地校準。這在諸如自動駕駛汽車的行人檢測或自動診斷醫療狀況等任務中至關重要。 DNN所輸出的概率通常用作它們置信度的代表。然而,這些概率並不是模型置信度的可靠指標。一個值得注意的反例就是對抗性樣本中的一個,儘管模型預測在這些輸入上是錯誤的,但相較於它們的合法對等物,它們往往被分類為擁有更多的「置信度」(根據DNN的輸出概率)。此外,當DNN將相等的概率分配給兩個候選標籤(即對任一輸出結果置信度都不高)時,它之所以會這樣做至少存在兩個不同的原因:(1)DNN在訓練過程中沒有分析過相似的輸入,並正在進行推斷,或者(2)輸入不明確,可能是因為對抗方企圖顛覆系統,或者是採用自然雜訊觀察過程收集的樣本。

調試ResNet模型偏差

在DkNN中,標籤與測試輸入的預測結果不匹配的最近鄰訓練點的數量定義了輸入與訓練數據不一致性的估計。數字越大,訓練數據對預測的支持越弱。為了對其進行形式化,我們在適形預測框架中進行操作並計算DkNN預測的置信度和可信度。前者量化了給定訓練集合的預測正確的可能性,而後者則表徵訓練集與預測的相關程度。經過研究試驗,我們發現當在離訓練集較遠進行預測時,可信度能夠可靠地識別出訓練數據缺乏支持。

(b)可解釋性:該特性是指為模型預測構建解釋性,從而使其能夠被人類觀察者輕鬆理解的能力,或者以另一種方式合理化基於證據的DNN預測—並回答以下問題:「為什麼模型做了這一決策?」DNN的決策是很難進行解釋的,因為神經元排列在一個複雜的計算序列中,並且每一層的輸出表示都是高維的。這種有限的可解釋性抑制了深度學習在諸如醫療保健這樣的領域內的應用,在這些領域中,對模型預測的信任是非常關鍵的。相比之下,DkNN演算法可以通過設計從而使其更加具有可解釋性,因為最近鄰本身提供了可解釋性,從而對於單個層和整體DNN預測來說,它們很容易被人類所理解,因為它們位於輸入域中。

(c)魯棒性:對機器學習系統而言,針對輸入干擾的魯棒性是安全性的另一項重要要求。雖然DNN對其輸入的隨機干擾具有魯棒性,但在測試時,DNN容易受到其輸入的微小系統干擾的影響,即對抗樣本。此攻擊向量使得攻擊者可以完全控制DNN的預測,儘管其無法訪問模型的訓練數據或內部參數。由對抗樣本引入的微小干擾可以隨意改變DNN的輸出,因為它們被模型中每層連續應用的非線性逐漸放大。換言之,當DNN對輸入進行錯誤分類時,它必然會有一層對輸入的表示(這一表示最初被定義在正確的分類中)進行轉換。相比之下,DkNN分類器通過識別DNN的較低層和較高層之間最近鄰訓練點標籤的變化,並將此作為DNN的錯誤預測指示器,從而預防這種情況的發生。本質上,DkNN消除了攻擊者可利用的試圖操縱系統預測的自由度,從而提供了一種對抗樣本攻擊的魯棒性形式。請注意,這不是一個簡單的綜合性方法,它組合了來自多個模型的預測;我們的DkNN演算法檢查單個DNN的中間計算,以確保其預測與訓練數據一致。

總之,我們做出了以下貢獻:

?我們引入了深度k-最近鄰(DkNN)演算法,該演算法測量測試輸入與訓練數據之間預測的不一致性,將其作為模型預測可信度的間接估計。

?我們根據經驗驗證,相較於自然發生的非分配輸入的DNN,DkNN可以做出更可靠的可信度預測。對於幾何變換的輸入或未包含在訓練數據中的類輸入,DkNN的可信度低於10%,DNN的可信度為20%-50%。

?我們通過一個眾所周知的用DNN進行的對種族偏見和公平性進行研究,證明了DkNN的可解釋性。

?我們證明DkNN能夠識別利用現有演算法生成的對抗樣本,因為他們的可信度很低。我們還發現,針對DkNN的攻擊往往需要干擾輸入語義以改變DkNN的預測。

我們發現這些結果令人鼓舞,同時,我們指出了分析置信度、可解釋性及魯棒性作為DNN相關屬性的好處。在此,我們利用了DNN的模塊化,並在每個抽象層驗證了預測與訓練數據的一致性,並在其中確保DNN收斂於一個合理的和可解釋的輸出。有趣的是, Sabour等人調查了內部表示作為創造惡意輸入工具的脆弱性。這表明除了在整個模型的級別上強制執行這些屬性之外,重要的是要保護每個抽象性,以防止惡意操作。事實上,我們的探討表明,這一做法不僅是必要的,而且是為現有對抗演算法提供潛在防禦的有用工具。

我們介紹了深度k-最近鄰(DkNN)演算法,,該演算法在測試時檢查深度神經網路(DNN)的內部,以提供置信度、可解釋性和魯棒性等屬性。DkNN演算法將層表示預測與用於訓練的最近鄰進行比較。所得到的可信性度量評估表示預測與訓練數據的一致性。當訓練數據與預測結果一致時,預測結果很可能是準確的。如果預測和訓練數據不一致,則預測沒有可靠的訓練數據支持其是可靠的。這種情況下的輸入是不明確的(例如,輸入的種類繁多或因預處理不完善導致部分信息缺失),或是被攻擊者惡意干擾而產生的對抗性樣本。因此,這種跨越DNN內部表示層次結構的置信度特徵保證了模型的完整性。這些近鄰也使模型預測的可解釋性成為可能,因為它們是輸入域中用作預測支持的點,並且容易被人類觀察者理解和解釋。

我們的研究結果強調了集成簡單推理過程作為複雜學習演算法預測的輔助驗證的好處。這種驗證是為機器學習系統提供安全性的潛在新途徑。我們預計,機器學習和安全性的交叉的、未解決的問題將會因此得到改善,包括可用性和完整性。我們期待在不久的將來對這些及其他相關領域展開探索。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

《人工智慧》雜誌第二期正式出版!40位權威作者共話語音和語言的機器智能
想要更精確的分類預測結果?多倫多大學等提出半監督式few-shot分類範式

TAG:雷克世界 |