谷歌大腦最新研究：不用「訓練」！高斯過程「超越」隨機梯度下降

科技 11-04

圖：pixabay

原文來源：arxiv

作者：Google Brain

「雷克世界」編譯：嗯~阿童木呀、多啦A亮

可以這樣說，一個具有獨立同分布（independent identically distributed，i.i.d）先驗參數的深度完全連接神經網路，就等同於在無限網路寬度限制下的高斯過程（GP）。這種對應關係使得僅通過簡單的矩陣計算，便能夠為回歸任務上的神經網路提供精確的貝葉斯推理。而對於單隱層網路來說，這個GP的協方差函數早已為人所知。

最近，多層隨機神經網路的核函數已經被開發出來，但只適用於貝葉斯框架之外。因此，以前的研究並沒有明確使用這些內核作為一個GP的協方差函數和使用一個深度神經網路進行完全貝葉斯預測之間的對應關係。在本項研究中，我們推導出了這種對應關係，並開發出一個在計算上頗為高效的管道來計算協方差函數。然後，我們使用生成的GP對MNIST和CIFAR-10上的深度神經網路進行貝葉斯推理。我們發現基於GP的預測結果非常好，並且可以超越使用隨機梯度下降（SGD）進行訓練的神經網路。我們觀察到，隨著層寬度的增加，經過訓練的神經網路的精確度接近於相應的基於GP的計算，並且GP的不確定性與預測誤差密切相關。然後，我們就想到，將觀察結果與隨機神經網路中信號傳播的最新發展聯繫起來。

近年來，深度神經網路作為一種靈活的參數模型，以能夠適應複雜的數據模式而著稱。作為一種對比，長期以來，高斯過程一直是傳統的非參數化建模工具。實際上，Radford Neal提出的一個對應關係（於1994年提出）在無限寬度的限制條件下將這兩個模型對等起來了。

Radford Neal

我們可以考慮使用具有獨立同分布隨機參數的深度完全連接神經網路，網路的每一個標量輸出，即最終隱藏層的仿射變換（affine transformation），將是獨立同分布的總和。在無限寬度的限制條件下，中心極限定理（Central Limit Theorem）意味著經由神經網路（NN）計算的函數即是一個從高斯過程（GP）提取的函數。而在單隱層網路的情況下，這個GP內核的形式是廣為人知的（Neal於1994年、Williams於1997年提出）。

這個對應意味著，如果我們選擇假設空間為無限寬的神經網路，那麼，權重和偏差的獨立同分布先驗就可以被函數相對應的GP先驗所代替。正如Williams（於1997年）所指出的那樣，這種替代使得我們可以使用神經網路對回歸任務進行精確的貝葉斯推理。該計算需要在訓練和測試集上建立必要的協方差矩陣以及簡單的線性代數計算。

鑒於神經網路的普及和發展，重新審視這一領域是很有必要的。我們描述了深度神經網路和GP之間的對應關係，並利用它對回歸任務的神經網路進行貝葉斯訓練。

相關研究

一般來說，我們的研究涉及GP、貝葉斯學習和組合內核的各個方面。無限神經網路與GP之間的這種對應關係，最初是由Radford Neal發現的。Williams（於1997年）計算出了這種用於具有誤差函數或高斯非線性的單隱層神經網路的解析GP核函數，並強調在回歸任務中使用GP先驗以進行精確的貝葉斯推理。Duvenaud等人（於2014年）探討了構建深度GP的幾條路徑，並觀察了被組成了無限多次的內核的退化形式，但他們並沒有像我們那樣得到GP內核的形式。Hazan和Jaakkola（於2015年）所探討的內核依賴於輔助GP。

我們在GP上下文之外也進行了相關的研究，但這是在組合內核結構進行的。Cho和Saul（於2009年）推導出了一個多項式級的非線性的組成核，其中包括Sign和ReLU非線性，並可用於GP中。可以說，儘管上下文是不同的，但我們的核心構成方式與他們的是相符的。Daniely等人（於2016年）將組合內核的構造擴展到了神經網路，其潛在的有向無環圖（他們稱之為「計算框架」）是通用的。他們還證明，利用雙重激活形式化情況下，由完全連接的拓撲構成的具有相同非線性的組合內核在無限多次組合的情況下將變得退化。在與組成內核不同的背景下，Poole等人（於2016年）、 Schoenholz等人（於2017年）針對完全連接網路和有界非線性的具體情況研究了相同的潛在遞歸關係。它們區分了超參數空間中具有不同的固定點和收斂行為的區域。進行這些研究的重點是更好地理解深度網路的表達性和可訓練性。

從一個遞歸的、確定性的內核函數計算方面考慮的話，我們首先指定一個GP的形式，它對應於一個深度的、無限寬度的神經網路——（以下稱為神經網路GP（NNGP））。該方法對於通用的逐點非線性是非常有效的。我們開發了一個在計算上非常有效的方法，用以計算與具有固定超參數的深度神經網路相對應的協方差函數。

在這項研究中，作為我們NNGP構造概念的第一個證明，我們關注的是回歸任務中的精確貝葉斯推理，並將分類視為類標籤上的回歸。雖然缺乏原則性，但最小二乘分類表現良好（Rifkin等人於2003年提出），使我們能夠將通過GP得到的精確推理，與通過在複雜任務（MNIST和CIFAR-10分類）上得以訓練的神經網路得到預測相比較。需要注意的是，我們有可能將GP擴展到具有交叉熵損失的softmax分類中（Williams和Barber於1998年、 Rasmussen和Williams於2006年提出），而這是我們打算在接下來的工作中著手研究的。我們在MNIST和CIFAR-10上進行了貝葉斯預測的實驗，並與基於梯度的標準方法進行訓練的神經網路進行比較。實驗探討了貝葉斯訓練的不同的超參數設置，包括網路深度、非線性、訓練集大小(包括由成千上萬的圖像組成的完整數據集)，以及權重和偏差方差。我們的實驗表明，NNGP的最佳性能始終優於用基於梯度的技術訓練的神經網路的NNS，並且從超參數中選擇的最佳NNGP設置也常常超過傳統訓練的結果。我們進一步觀察隨著網路寬度的增加，基於梯度訓練的神經網路的性能接近於NNGP計算。此外，NNGP的性能取決於內核的結構，它可以與在具有隨機參數網路中的信號傳播的近期研究聯繫起來（Schoenholz等人於2017年提出）。

結論和未來的方向

通過利用無限寬度的限制，我們已經指定了深度神經網路的先驗和高斯過程之間的對應關係，其核函數是組合的，但是以全確定和可微的方式構建。在函數使用GP先驗可以實現對矩陣計算回歸的精確貝葉斯推斷，因此我們能夠在沒有基於隨機梯度的訓練的情況下從深度神經網路獲得預測和不確定性估計。在類似的超參數設置下，性能與在同一回歸任務上訓練的最好的神經網路相當。雖然我們能夠對有些較大的數據集（大小為50k）進行實驗，但是我們打算利用最新的可擴展GP研究更大規模的學習任務的可擴展性。

在已經提到的那些方面，我們建議另外一些有趣的方向。在我們的實驗中，我們觀察到優化的神經網路的性能接近於寬度增加的GP計算。基於梯度的隨機優化是否實現近似貝葉斯計算是一個有待進一步研究的有趣問題。最近的研究認為，SGD可以從貝葉斯後驗近似採樣，需要進一步的研究來確定SGD是否在實踐中通常採用的條件下大致實現了貝葉斯推斷。此外，神經網路GP（NNGP）提供了明確的不確定性評估。這對於預測深度學習的關鍵應用中的模型失效，或者用於主動學習任務（其可以用於識別手工標籤的最佳數據點）可能是有用的。

論文下載：https://arxiv.org/pdf/1711.00165.pdf

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※「離AI最近」的生活方式，它正走向世界
※「反向傳播」被替代！深度學習可使用「離散優化」方法實現
※TensorFlow發布「eager」模式，更易操作！
※MIT與FAIR提出「mixup」，用數據和標籤的隨機線性插值提高神經網路健壯性
※如何一文讀懂「進化策略」？這裡有幾組動圖！

TAG:雷克世界 |