當前位置:
首頁 > 最新 > 論文筆記:Fraternal Dropout

論文筆記:Fraternal Dropout

來自:ICLR 2018

作者:Konrad Zo?na, Devansh Arpit, Dendi Suhubdy, Yoshua Bengio

背景

遞歸神經網路( RNNs )是用於語言建模和序列預測的一類重要的神經網路模型。然而,優化RNNs比優化前饋神經網路更難。文獻中已經提出了許多技術來解決這個問題。本文提出了一種簡單的技術,稱為Fraternal Dropout,利用dropout來實現這一目標。

本文方法

Fraternal Dropout

訓練具有不同dropout值的RNN (共享參數)的兩個相同副本,同時最小化它們(進行softmax操作之前的)預測值之間的差異。通過這種方式,我們的正則化操作鼓勵RNNs的表示對於不同的dropout值是不變的。

公式描述

在每個時間步t,我們同時前饋輸入樣本X,通過共享相同參數θ但具有不同dropout mask sti和stj的RNN的兩個相同拷貝。這在每個時間步t處產生兩個損失值,由lt(pt(zt,sti;θ),Y)和lt(pt(zt,stj;θ),Y)給出。

Fraternal Dropout的整體損失函數如下:

其中k是正則化係數。m是pt(zt,sti;θ)的維度。RFD(zt;θ)由下得到:

我們使用蒙特卡洛採樣來逼近RFD(zt;θ)。

我們注意到,我們的目標的正則化等同於使用不同的dropout mask最小化預測函數的方差,如下所示。

sti和stj獨立同分布。

實驗

language models:文中對模型進行了評估,並在兩個基準數據集( Penn Treebank和Wikitext - 2 )上,取得了序列建模任務的最優結果。(tabel 1和tabel 2)

image captioning:我們還證明,我們的方法可以顯著提高圖像標註( Microsoft COCO )和半監督( CIFAR - 10 )任務的性能。(tabel 3)

總結

本文研究了一種dropout的變體,稱為fraternal dropout。該方法與期望線性dropout密切相關,因此具有一定的增量性。儘管如此,fraternal dropout確實將PTB和wikitext-2上語言模型最優結果提高了約0.5 - 1.7個perplexity 。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 LVPaperDaily 的精彩文章:

TAG:LVPaperDaily |