論文筆記：Fraternal Dropout

最新 03-31

來自：ICLR 2018

作者：Konrad Zo?na, Devansh Arpit, Dendi Suhubdy, Yoshua Bengio

背景

遞歸神經網路( RNNs )是用於語言建模和序列預測的一類重要的神經網路模型。然而，優化RNNs比優化前饋神經網路更難。文獻中已經提出了許多技術來解決這個問題。本文提出了一種簡單的技術，稱為Fraternal Dropout，利用dropout來實現這一目標。

本文方法

Fraternal Dropout：

訓練具有不同dropout值的RNN (共享參數)的兩個相同副本，同時最小化它們(進行softmax操作之前的)預測值之間的差異。通過這種方式，我們的正則化操作鼓勵RNNs的表示對於不同的dropout值是不變的。

公式描述：

在每個時間步t，我們同時前饋輸入樣本X，通過共享相同參數θ但具有不同dropout mask sti和stj的RNN的兩個相同拷貝。這在每個時間步t處產生兩個損失值，由lt（pt（zt，sti;θ），Y）和lt（pt（zt，stj;θ），Y）給出。

Fraternal Dropout的整體損失函數如下：

其中k是正則化係數。m是pt（zt，sti;θ）的維度。RFD（zt;θ）由下得到：

我們使用蒙特卡洛採樣來逼近RFD（zt;θ）。

我們注意到，我們的目標的正則化等同於使用不同的dropout mask最小化預測函數的方差，如下所示。

sti和stj獨立同分布。

實驗

language models：文中對模型進行了評估，並在兩個基準數據集( Penn Treebank和Wikitext - 2 )上，取得了序列建模任務的最優結果。（tabel 1和tabel 2）

image captioning：我們還證明，我們的方法可以顯著提高圖像標註( Microsoft COCO )和半監督( CIFAR - 10 )任務的性能。（tabel 3）

總結

本文研究了一種dropout的變體，稱為fraternal dropout。該方法與期望線性dropout密切相關，因此具有一定的增量性。儘管如此，fraternal dropout確實將PTB和wikitext-2上語言模型最優結果提高了約0.5 - 1.7個perplexity 。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 LVPaperDaily 的精彩文章: