當前位置:
首頁 > 科技 > MIT與FAIR提出「mixup」,用數據和標籤的隨機線性插值提高神經網路健壯性

MIT與FAIR提出「mixup」,用數據和標籤的隨機線性插值提高神經網路健壯性

圖:pixabay

原文來源:arXiv

作者:MIT、FAIR

「雷克世界」編譯:嗯~阿童木呀

近日,麻省理工學院(MIT)與Facebook人工智慧研究院(FAIR)聯合發表了一篇題為《mixup:超越經驗風險最小化》(mixup: BEYOND EMPIRICAL RISK MINIMIZATION)的論文,他們提出了一種能夠構建虛擬訓練樣本的方法——mixup,提高了神經網路的健壯性。我們一起來看一看他們是如何做到的。

眾所周知,大型深度神經網路是非常強大的,但在記憶和針對對抗樣本的敏感性上卻表現地不太理想。在這項研究中,我們提出了mixup,它是一個用以解決這些問題的簡單學習原則。實質上,mixup是在樣本對和其標籤的凸組合(convex combinations)上訓練神經網路的。通過這樣做,mixup將神經網路正規化以支持訓練樣本之間的簡單線性行為。我們分別在ImageNet-2012、CIFAR-10、CIFAR-100、Google命令和UCI數據集上進行試驗,研究結果表明,mixup可以改進當前最先進的神經網路架構的泛化能力。我們還發現,mixup能夠減少對錯誤標籤的記憶,增加對抗樣本的健壯性,並能夠穩定對生成對抗網路的訓練過程。

我們都知道,大型深度神經網路在計算機視覺(Krizhevsky 等人於2012年提出)、語音識別(Hinton 等人於2012年提出)和強化學習(Silver等人於2016年提出)等領域均實現了突破性發展。在大多數的成功應用中,這些神經網路有兩個共同點:首先,它們進行訓練以將其訓練數據的平均誤差最小化,這種學習規則也被稱為經驗風險最小化(Empirical Risk Minimization,ERM)原則(Vapnik於1998年提出);其次,這些當前最先進的神經網路的大小與訓練樣本的數量呈線性關係。例如,Springenberg等人(於2015年提出)的網路使用10^6個參數來對CIFAR-10數據集中的5×10^4個圖像進行建模,Simonyan和Zisserman(於2015年提出)的網路使用10^8個參數來對ImageNet-2012數據集中的10^6個圖像進行建模,Chelba等人(於2013年提出)的網路使用2×10^10個參數對十億單詞(One Billion Word)數據集中的10^9個單詞進行建模。

引人注目的是,學習理論(Vapnik和Chervonenkis於1971年提出)的經典結果告訴我們,只要學習機器(如神經網路)的大小不隨著訓練數據數量的增加而增加,那麼ERM的收斂性就是可以得到保證的。其中,學習機器的大小是根據其參數數量,或相關地,根據其VC複雜度(Harvey等人於2017年提出)來衡量的。

這一矛盾挑戰了ERM訓練當前神經網路模型的適應性,正如在最近的研究中所強調的那樣。一方面,ERM允許大型神經網路記憶(而不是從中泛化)訓練數據,即使是在強正則化,或是標籤是隨機分配的分類問題(Zhang等人於2017年提出)中。另一方面,在對訓練分布之外的樣本(也被稱之為對抗樣本)進行評估時,用ERM訓練的神經網路會徹底地改變其預測結果(Szegedy等人於2014年提出)。這一證據表明,當測試分布與訓練數據略有不同時,ERM便無法對其進行解釋或為其提供泛化。那麼,ERM的替代方案是什麼呢?

選擇在類似但不相同的樣本上進行訓練以增加到訓練數據中的方法稱為數據增強(data augmentation)(Simard等人於1998年提出),而後由鄰域風險最小化原則(Vicinal Risk Minimization,VRM)形式化(Chapelle等人於2000年提出)。在VRM中,需要用人類知識來描述訓練數據中每個樣本周圍的鄰域區域。然後,可以從訓練樣本的附近分布中提取附加的虛擬樣本,以擴大訓練分布的支持。例如,當進行圖像分類時,通常將一個圖像的鄰域定義為其水平反射、輕微旋轉和輕微縮放的集合。雖然一直以來,數據增強都會促使改進泛化能力(Simard等人於1998年提出),但是該過程是依賴於數據集的,因此需要使用專家知識。除此之外,數據擴充假設鄰域中的樣本共享相同的類,並且不對不同類的樣本之間的鄰域關係進行建模。

受到這些問題的啟發,我們引入了一個簡單的、並且和數據無關的數據擴充常式,稱為mixup。簡而言之,mixup能夠構建虛擬的訓練樣本:

其中(xi,yi)和(xj,yj)是從我們的訓練數據中隨機抽取的兩個樣本,且λ∈[0,1]。因此,mixup通過結合先驗知識,即特徵向量的線性插值應該導致相關目標的線性插值,來擴展訓練分布。Mixup在很少的幾行代碼中就可以得以實施,並且引入了最少的計算開銷。

儘管它很簡單,但mixup在CIFAR-10、CIFAR-100和ImageNet-2012圖像分類數據集中實現了當前最先進的性能。此外,當從錯誤數據中進行學習,或面對對抗樣本時,mixup能夠增強神經網路的健壯性。最後,mixup能夠改善在語音和表格數據中的泛化能力,並可用於穩定GAN的訓練過程。相關實驗的源代碼資源鏈接:https://coming.soon/mixup。

在此研究中,我們提出了mixup,一個和數據無關的、簡單的數據增強原則。研究結果表明,mixup是鄰域風險最小化的一種形式,它在虛擬樣本(即構建為訓練集中的兩個隨機樣本及其標籤的線性插值)中進行訓練。將mixup集成到現有的訓練管道中僅需要幾行代碼,並且很少或幾乎沒有計算開銷。在廣泛的評估中,結果已經表明,mixup改進了當前最先進的模型在ImageNet、CIFAR、語音和表格數據集中的泛化誤差。此外,mixup有助於有助於消除對錯誤標籤的記憶、對對抗樣本的敏感性以及對抗訓練的不穩定性。

在我們的實驗中,以下思維趨勢是一致的:隨著α越來越大,實際數據的訓練誤差就會增加,而泛化差距會縮小。這就支持了我們的假設,即mixup隱式地控制了模型的複雜性。然而,我們還沒有一個很好的理論來理解這種偏差—方差平衡(bias-variance trade-off)的「最佳點」。例如,在CIFAR-10分類中,即使在α ∞(即僅對真實樣本的平均值進行訓練)的情況下,我們仍然可以在真實數據中獲得非常低的訓練誤差。而在ImageNet分類中,當α ∞時,真實數據的訓練誤差會顯著增加。考慮到我們的ImageNet和Google命令實驗是用不同的模型架構進行的,我們推測,增加模型容量會降低訓練誤差對較大的α的敏感性,從而給予mixup一個更大的優勢。

與此同時,mixup還為進行進一步探索開闢了幾種可能性。首先,是否有可能讓類似的想法在其他類型的監督學習問題上發揮作用,比如回歸和結構化預測?雖然將mixup泛化到回歸問題是很簡單的,但要將其應用到諸如圖像分割這樣的結構化預測問題上效果就不那麼明顯了。第二,類似的方法能否在監督學習之外的問題上有所幫助?插補原理似乎是一種合理的歸納偏置(inductive bias),即也有可能在無監督、半監督和強化學習中有所幫助。我們是否可以將mixup擴展到特徵標籤外插,以確保遠離訓練數據的強大的模型行為?雖然我們對這些方向的討論仍然是具有推測性的,但我們對mixup未來所能開闢的可能性抱有極大的期待,並希望我們的觀察結果將有助於未來的發展。

下載論文原文:https://arxiv.org/pdf/1710.09412v1.pdf

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

如何一文讀懂「進化策略」?這裡有幾組動圖!
對抗攻擊最新研究:僅修改「一個像素」即可騙過神經網路!
如何使用Keras函數式API進行深度學習?
李國傑院士:AI創業公司如何擺脫被收購的命運「附雷克世界專訪」
機器學習時代,企業如何應對?你需要克服這「三座大山」!

TAG:雷克世界 |