當前位置:
首頁 > 新聞 > Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢



新智元報道

來源:arXiv

作者:聞菲,肖琴

【新智元導讀】Hinton創建的向量學院的研究者提出了一類新的神經網路模型,神經常微分方程(Neural ODE),將神經網路與常微分方程結合在一起,用ODE來做預測。不是逐層更新隱藏層,而是用神經網路來指定它們的衍生深度,用ODE求解器自適應地計算輸出。

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

我們知道神經網路是一種大的分層模型,能夠從複雜的數據中學習模式。這也是為什麼神經網路在處理圖像、聲音、視頻和序列行動時有很多成功的應用。但我們常常忘記一點,那就是神經網路也是一種通用函數逼近器,因此,神經網路可以作為數值分析工具,用來解決更多的「經典」數學問題,比如常微分方程(Ordinary Differential Equation,ODE)。

2015年橫空出世的殘差網路ResNet,已經成為深度學習業界的一個經典模型,ResNet對每層的輸入做一個reference,學習形成殘差函數,這種殘差函數更容易優化,使網路層數大大加深。不少研究者都將 ResNet 作為近似ODE求解器,展開了對 ResNet的可逆性(reversibility)和近似計算的研究。

在一篇最新的論文里,來自多倫多大學和「深度學習教父」Geoffrey Hinton創建的向量學院的幾位研究者,將深度學習與ODE求解器相結合,提出了「神經ODE」(Neural ODE),用更通用的方式展示了這些屬性。

他們將神經ODE作為模型組件,為時間序列建模、監督學習和密度估計開發了新的模型。這些新的模型能夠根據每個輸入來調整其評估策略,並且能顯式地控制計算速度和精度之間的權衡。


將深度學習和常微分方程結合在一起,提供四大優勢

殘差網路、遞歸神經網路解碼器和標準化流(normalizing flows)之類模型,通過將一系列變化組合成一個隱藏狀態(hidden state)來構建複雜的變換:

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

其中

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

。這些迭代更新可以看作是連續變換的歐拉離散化。

當我們向網路中添加更多的層,並採取更少的步驟時會發生什麼呢?在極限情況下,我們使用神經網路指定的常微分方程(ODE)來參數化隱藏單元的連續動態:

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

從輸入層

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

開始,我們可以將輸出層

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

定義為在某個時間

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

時這個ODE的初始值問題的解。這個值可以通過黑盒微分方程求解器來計算,該求解器在必要的時候評估隱藏單元動態

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

,以確定所需精度的解。圖1對比了這兩種方法。

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

圖1:左:殘差網路定義一個離散的有限變換序列。右:ODE網路定義了一個向量場,它不斷地變換狀態。圓圈代表評估位置。

使用ODE求解器定義和評估模型有以下幾個好處:

  • 內存效率

    。在論文第2章,我們解釋了如何計算任何ODE求解器的所有輸入的標量值損失的梯度,而不通過求解器的操作進行反向傳播。不存儲任何中間量的前向通道允許我們以幾乎不變的內存成本來訓練模型,這是訓練深度模型的一個主要瓶頸。
  • 自適應計算

    。歐拉方法(Euler』s method)可能是求解ODE最簡單的方法。現代的ODE求解器提供了有關近似誤差增長的保證,檢測誤差的大小並實時調整其評估策略,以達到所要求的精度水平。這使得評估模型的成本隨著問題複雜度而增加。訓練結束後,可以降低實時應用或低功耗應用的精度。
  • 參數效率

    。當隱藏單元動態(hidden unit dynamics)被參數化為時間的連續函數時,附近「layers」的參數自動連接在一起。在第3節中,我們表明這減少了監督學習任務所需的參數數量。
  • 可擴展的和可逆的normalizing flows

    。連續變換的一個意想不到的好處是變數公式的變化更容易計算了。在第4節中,我們推導出這個結果,並用它構造了一類新的可逆密度模型,該模型避免了normalizing flows的單個單元瓶頸,並且可以通過最大似然法直接進行訓練。

  • 連續時間序列模型

    。與需要離散觀測和發射間隔的遞歸神經網路不同,連續定義的動態可以自然地併入任意時間到達的數據。在第5節中,我們構建並演示了這樣一個模型。

ODE求解器提供了一個通用的反向傳播演算法

論文作者、多倫多大學助理教授David Duvenaud表示,他們通過ODE求解器,提供了一個通用的backprop,但他們的方法是從可逆性上入手,而不是在ODE求解器的運算里進行反向傳播(因為這樣做對內存消耗很大)。這個方法已經添加到 autograd。

另一位作者、多倫多大學的博士生Tian Qi Chen也表示,他們這項工作創新的地方就在於提出並且開源了一種新方法,在自動微分的框架下,將ODE和深度學習結合在一起。

此外,這項研究還得到了很多意外的收穫。例如,構建了連續標準化流(continuous normalizing flows),可逆性強,可以使用寬度,就像 Real NVP一樣,但不需要對數據維度分區或排序。

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

標準化流與連續標準化流量的比較。標準化流的模型容量由網路的深度(K)決定,而連續標準化流的模型容量可以通過增加寬度(M)來增加,使它們更容易訓練。來源:研究論文

還有時間連續RNN(continuous-time RNNs),能夠處理不規則的觀察時間,同時用狀態依賴的泊松過程近似建模。下圖展示了普通的RNN和神經ODE對比:

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

Tian Qi Chen說,他尤其喜歡變數的即時改變,這打開了一種新的方法,用連續標準流進行生成建模。

目前,作者正在講ODE求解器拓展到GPU上,做更大規模的擴展。


論文:神經常微分方程

Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢

摘要

我們提出了一類新的深度神經網路模型。不在隱藏層中指定離散序列,而是用神經網路來對隱藏狀態的導數進行參數化。網路的輸出使用一個黑箱微分方程求解器來計算。這些連續深度(continuous-depth)模型具有常量存儲成本,根據每個輸入來調整其評估策略,並且可以顯示地(explicitly)犧牲數值精度來獲取速度。我們在連續深度殘差網路和連續時間潛變數模型中證明了這些性質。我們還構建了連續標準化流(continuous normalizing flows),這是一種可以用最大似然法來訓練的生成模型,無需對數據維度進行分區或排序。至於訓練,我們展示了在不訪問其內部操作的情況下,對任意ODE求解器進行可擴展反向傳播的過程。這使得我們能在較大的模型里對ODE進行端到端的訓練。

參考資料 & 了解更多:

  • Neural ODE 論文:https://arxiv.org/pdf/1806.07366.pdf
  • autograd:https://github.com/HIPS/autograd/blob/master/autograd/scipy/integrate.py

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

44天連發兩次車禍:Waymo自動駕駛車又被撞
「深度好文」怎樣用可交互對抗網路增強人類創造力

TAG:新智元 |