當前位置:
首頁 > 新聞 > 正在湧現的新型神經網路模型:優於生成對抗網路

正在湧現的新型神經網路模型:優於生成對抗網路

選自Medium

作者:Alfredo Canziani等人

機器之心編譯

參與:黃小天、吳攀


隨著深度神經網路技術的發展,新型的網路架構也在不斷湧現。普渡大學 e-Lab 的三位研究者 Alfredo Canziani、Abishek Chaurasia 和 Eugenio Culurciello 近日在 Medium 上發文闡述了一類新型的深度神經網路,其在視頻分析上具有無監督學習 、分割、場景解析、定位、時空表徵、視頻預測、表徵預測、在線學習等能力,並且還在很多方面優於當前大熱的生成對抗網路(GAN)。

新一代深度神經網路正在湧現。它們演變自前饋模型,之前我們曾作過詳細分析,參閱機器之心文章《重磅 | 神經網路架構演進史:全面回顧從LeNet5到ENet十餘種架構(附論文)》或更新版本:https://medium.com/towards-data-science/neural-network-architectures-156e5bad51ba

這種新型的神經網路從 LeNet5 / AlexNet 及其變體的初始前饋模型進化而來,並且包含有比 ResNet / Inception 更複雜的旁路方案。由於這些前饋神經網路把圖像壓縮並編碼為更小的表徵向量,其也被稱為編碼器。

新一代神經網路有兩個重要的新特徵:

  • 生成性分支(generative branches):也被稱為解碼器,因為它們把表徵向量投射回輸入空間

  • 循環層(recurrent layers):其把前一時間步的表徵和當前時間步的輸入和表徵結合在了一起

太棒了!但是這一額外的複雜性能給我們帶來什麼?

它證明了傳統的前饋神經網路有很多局限性:

1 - 不能精確定位:由於較高層的下採樣和空間解析度的損失,特徵/目標/類別的定位受到限制。

2 - 不能進行場景推理:由於把圖像壓縮為短表徵代碼,它們失去了關於圖像構成以及圖像或者場景各個部分的空間排列的信息。

3 - 具有時間的不穩定性:由於它們使用靜止圖像進行訓練,所以不能學習目標在空間中運動時平滑的時空轉化。它們可以識別一些圖像中(但不是全部)目標所屬的類型,並且對於對抗性的噪音和擾動非常敏感。

4 - 不能預測:由於它們使用時間信息,前饋神經網路在每一幀提供一個新的表徵代碼,這隻基於當前輸入,但是並不預測下幾幀中將會發生什麼(注意:有一些例外,它們不在視頻上進行訓練)

為了克服這些局限,我們需要新一代神經網路,以將已學習的表徵投射回輸入圖像空間,並且可在圖像的時間連貫的序列上訓練:我們需要在視頻上進行訓練。

以下是新一代神經網路所具有的高級特徵:

無監督學習 - 它們可在視頻上進行預訓練,以預測未來的幀或者表徵,因此需要更少的標註數據來訓練並執行某些任務。

  • 分割 - 分割一張圖像中的不同目標

  • 場景解析 - 其在分割之後,如果數據集有每一像素的目標標籤,用於自動駕駛和增強現實

  • 定位 - 在分割和完美的目標邊界之後,所有的場景解析和分割網路都可以做到此

  • 時空表徵 - 使用視頻進行訓練,而不僅僅是靜態圖像,了解時間概念和時間關係

  • 視頻預測 - 一些網路被設計用來預測視頻中的未來幀

  • 表徵預測 - 一些網路可以預測視頻中未來幀的表徵

  • 在線學習能力 - 通過監測預測與真實未來幀或表徵之間的錯誤信號

現在讓我們了解一下這些新網路的細節和實現:

生成性梯網路(Generative ladder networks)

這些模型使用一個編碼器和一個解碼器對以把圖像分割為不同的部分與目標。實例有: ENet、SegNet、Unet、DenseNet、梯網路以及更多:

  • ENet:https://arxiv.org/abs/1606.02147

  • SegNet:https://arxiv.org/abs/1511.00561

  • Unet:https://arxiv.org/abs/1505.04597

  • DenseNet:https://arxiv.org/abs/1611.09326

  • 梯網路:https://arxiv.org/abs/1507.02672

下面是一個典型的 3 層模型:

正在湧現的新型神經網路模型:優於生成對抗網路

D 模塊是標準的前饋層。G 模塊是生成性模塊,它和標準的前饋層相似,但具有去卷積和上採樣。它們同樣使用殘差類型的連接 「res」 以把每一編碼層的表徵與解碼層的表徵相連。這迫使生成層的表徵被前饋表徵模塊化,從而具有更強的能力去定位,把場景解析為目標和部分。「x」是輸入圖像,「y」是同一時間步的輸出分割。

這些網路可以執行分割、場景解析、精確定位,但是不能在時域中進行操作,且沒有過去幀的記憶。

最近每一層的編碼器到解碼器旁路幫助這些網路獲得了當前最佳的性能。

遞歸和生成性梯網路(Recursive and generative ladder networks)

它是最新的深度神經網路之一,把遞歸添加進了生成性梯網路,從而形成了遞歸性和生成性梯網路(REGEL)。REGEL 是迄今為止最為複雜的深度神經網路之一,至少在圖像分析領域是這樣。

下面是一個我們正使用的 REGEL 的 3 層模型:

正在湧現的新型神經網路模型:優於生成對抗網路

D 和 G 模塊實際上與上述的生成性梯網路中的模塊相同。該網路把來自每一個 G 模塊的循環路徑「t-1」添加到了同一層的每一個 D 模塊之中。

該網路採用視頻中一系列的幀作為輸入 x[t],並在每一時間步預測視頻 y[t+1] 的下一幀, y[t+1] 接近於 x[t+1],如果預測是精確的。

由於該網路可以度量預測與真實的下一幀之間的誤差,它知道什麼時候可以或者不可以預測輸入。如果不可以,它可以激活增量學習,這是前饋神經網路做不到的。因此該網路本質上就可以執行在線學習。

我們認為這是機器學習的一個非常重要的特性,這是預測神經網路的一種天賦。沒有這種特性,網路就不能提供真實的預測置信度信號,而且不能執行有效的增量學習。

這些網路仍在研究之中。我們的建議是:繼續關注它們!

預測編碼網路(predictive coding network)——第一部分

遞歸生成網路(recursive generative network)是一種可能的預測模型。預測編碼計算神經科學模型(predictive coding computational neuroscience model)可作為其替代,能夠提供預測能力並被做成層次化的深度神經網路。

這裡給出了一個 2 層模型的示意:

正在湧現的新型神經網路模型:優於生成對抗網路

Rao 和 Ballard 在其 Nature Neuroscience 論文《Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects》中的模型和 Friston 的實現論文《Canonical microcircuits for predictive coding》都是計算 A 模塊(類似於上述梯網路中的 D 模塊)和 R/Ay 模塊(類似於上述梯網路中的 G 模塊)之間每一層的誤差 e。這個誤差 e 表示了該網路在每一層預測表徵的能力。然後誤差 e 被作為輸入發送給下一層。R 是一個卷積 RNN/LSTM 模塊,而 Ay 類似於 A 模塊。R 和 Ay 可以被結合為一個單一的循環模塊。在第一層中,x 是輸入幀。

這個模型的問題是該網路非常不同於標準的前饋神經網路。這些預測網路並不會在更高層面上創造一個結合了更低層的特徵的層次表徵,而是會計算之前的層的殘差誤差(residual errors)的表徵。

因此,它會讓人想起殘差前饋網路(residual feed-forward network),但在實際中,強迫這些網路向前傳播誤差並不能讓它們在更高層學習到有效的層次表徵。因此,它們不能基於更上層的表徵來有效地執行其它任務,例如分類、分割、動作識別。要明確這些限制,還需要更多的實驗。

該模型已經被 Bill Lotter 和 David Cox 實現,參考 PredNet:https://coxlab.github.io/prednet/

預測編碼網路——第二部分

Spratling 預測編碼模型是將表徵 y 投射到更上層,而非像之前的 Friston 模型那樣投射誤差 e。這使得該網路與層次化前饋深度神經網路更兼容,並且還避免了學習到更上層的誤差的矩(moments of errors)。

這裡給出了一個 2 層模型的示意:

正在湧現的新型神經網路模型:優於生成對抗網路

本質上講,該模型可以被重寫和簡化成我們前面提到的循環生成梯模型。這是因為 R 和 Ay 可以被結合成一個單個循環模塊。

與生成對抗網路的關係

生成對抗網路(GAN)是現在一種非常流行的模型,其可以從數據分布中學習生成樣本。這裡提出的新網路模型優於 GAN,原因如下:

  • 它們並不通過最小最大博弈(minimax game)的方式來訓練,而是直接面向一個有用的任務訓練的,所以其鑒別器和生成器都是直接有用的。

  • 它們可以學習創造有用的輸入表徵,同時也可以生成新的輸入。

  • 它們可以學習基於輸入來生成目標數據。

  • 生成器網路和鑒別器網路是緊密綁定的,消除了收斂問題。

  • 其生成器可以提供具有近乎完美真實感的照片樣本(見下),相比而言,GAN 的結果並不太好。

正在湧現的新型神經網路模型:優於生成對抗網路

REGEL 網路預測能力的示例——左圖:當前幀;中圖:下一個真實幀;預測的下一幀

其它模型

REGEL 這樣的模型讓人想起像素循環網路(Pixel recurrent networks)及其諸多實現(比如 PixelCNN、Pixel CNN++、WaveNet)。這些模型的目標是建模輸入數據的分布。(「我們的目標是估計自然圖像的分布,並將其用於可跟蹤地計算數據的似然並生成新的數據。」)它們僅專註於生成新的具有真實感的數據樣本,但還沒有表現出為真實世界任務學習表徵的能力。而且這些模型的推理速度也非常慢。

  • 像素循環網路:https://arxiv.org/abs/1601.06759

  • PixelCNN:https://arxiv.org/abs/1606.05328

  • Pixel CNN++:https://openreview.net/pdf?id=BJrFC6ceg

  • WaveNet:https://deepmind.com/blog/wavenet-generative-model-raw-audio/

  • 其它:http://ruotianluo.github.io/2017/01/11/pixelcnn-wavenet/

總結

這些新網路仍然還在研究和評估之中。比如最近的 PredNet 論文(https://arxiv.org/abs/1605.08104 )就給出了預測編碼網路和梯網路的一個比較,其中 PredNet 在一些任務上表現更優。PredNet 可被用於使用高層表徵來執行定向的面部分類。另外,其還可以在一個數據集中預測轉向角,但大多還是使用該網路第一層的簡單動作過濾器。該任務並不需要對特徵進行層次分解。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

清華大學發布珠算:一個用於生成模型的Python庫
嚴格的評選標準,造就了這張分享量過千的在線機器學習課程榜單
英偉達GTC大會開幕,首日三大亮點
Gary Marcus:在人工智慧上取得成功的「叛逆者」

TAG:機器之心 |

您可能感興趣

循環神經網路不需要訓練?復現「世界模型」的新發現
清華大學圖神經網路綜述:模型與應用
谷歌大腦發現神經網路的「牛頓法」:網路足夠寬,就可以簡化成線性模型
超全總結:神經網路加速之量化模型
清華大學張長水教授:神經網路模型的結構優化
一種信息門控的神經網路模型:王彬旭
冷戰遺產再現,神秘模型盛傳網路,俄國大殺器借屍還魂
從經典結構到改進方法,神經網路語言模型綜述
再生神經網路:利用知識蒸餾收斂到更優的模型
多輸出回歸問題如何用神經網路模型來實現?
強化學習+對抗,面向任務的神經對話模型新思路
無人機航拍葉片缺陷識別模型——基於卷積神經網路的實現
一串模型代碼,支持所有神經網路框架
生成式模型入門:訓練似然模型的技巧
研究提出基於圖神經網路的會話序列推薦模型
網友製作樹脂模型再現東映海浪擊石的Logo、東映的官方都給出好評
巨型變形金剛 宇宙大帝模型新鮮出爐 網友:除了貴沒毛病
VGG卷積神經網路模型解析
找下家?遼寧艦模型現身大型防務展,美媒:真正的對手來了!
你的模型剛不剛?谷歌提出「剛度」概念,探索神經網路泛化新視角