當前位置:
首頁 > 最新 > 論文筆記:Sequence Generative Adversarial Nets with Policy Gradient

論文筆記:Sequence Generative Adversarial Nets with Policy Gradient

1 問題描述

GAN在圖像生成領域取得了巨大的突破,而直接將GAN用於文本生成則存在以下困難:

1.GAN難以直接處理離散數據,與圖像生成中pixel的值連續不同,文本生成中需要生成離散的tokens序列。由於生成器G需要從判別器D獲取誤差進行訓練,因此G和D都需要完全可微。在圖像生成中,G的參數進行一點點的更新都會造成生成圖片的像素的改變,使得生成的數據更加「逼真」。而在文本生成中,G參數的微小變化無法在引起離散token的變化,使得D無法給出相應的信息。

2.一般來說,判別器D只可以對生成的完整序列打分,由於文本生成中一般通過token by token的方式生成,如何判斷生成的部分序列的質量也是一個困難。

本文章提出使用policy-gradient的方法,將判別器D對生成文本的打分作為reward,對生成器G進行更新,來解決離散問題。通過蒙特卡洛採樣的方法,對部分序列進行估值,來解決判斷生成的部分序列的質量問題。生成器使用LSTM-RNN language model,判別器使用Text-CNN。

2 模型

整個模型架構如下圖

對於判別器,對輸入的真實數據和生成數據進行二分類,它的損失函數如下:

對於生成器,先通過MLE進行預訓練,再利用policy-gradient進行更新。

policy-gradient的思想就是直接通過梯度上升的方法來調整策略(policy)以最大化reward。這裡policy-gradient即最大化下式:

上式可簡化為:

其中Q代表生成Y1:t-1序列時,生成yttoken的expected accumulative reward。即增強學習中在狀態 Y1:t-1下,執行動作yt的Q值。該Q值可以通過蒙特卡洛採樣的方式,利用生成器在該狀態下繼續採樣出N個完整句子,由判別器對這N個完整句子打分,取平均值,來估計該Q值,如下:

從(7)式我們可以看出,直觀來說,如果生成yt帶來的reward高,那麼我們就增大生成它的概率。

最終對於生成器G,我們通過最大化(7)式進行參數更新,如下:

整個演算法的流程為先通過真實數據對G進行MLE的預訓練,再從G中採樣出負樣本,通過負樣本和真實數據進行判別器D的預訓練。預訓練完畢後,通過對G和D進行迭代訓練,訓練G時,先通過生成一個batch的數據,再通過MC search的D對該batch數據每一時刻的reward進行計算,最終通過policy-gradient調整概率分布,整個流程如下:

3 實驗

作者在奧巴馬演講稿、詩歌生成、音樂生成等真實數據上進行了實驗,通過BLEU和人工評價的方式證明了該方法比單純的MLE效果要好。事實上BLEU並不能很好的衡量生成質量,而人工評價又耗時好力,且具有一定偏差和隨機性。作者創新性的設計了一種Synthetic Data Experiments。

該實驗先將一個生成模型LSTM作為oracle,該模型參數可以隨機初始化。該模型即代表目標數據分布,我們從該模型上採樣出10000個樣本作為真實數據,來訓練G,而將G生成的數據輸入oracle模型,通過計算平均的NLL值(negative log-likelihood)作為評價標準。這相當於我們通過訓練G,來擬合oracle模型的分布,而由於oracle分布已知,我們可以通過NLL計算出G對oracle分布的擬合程度,作為一種可信的自動化評價標準。作者在這個實驗上比較了隨機生成、PG-BLEU、scheduled sampling和MLE等模型,證明了SeqGan能夠取得很好的效果,實驗結果如下:

作者也通過該實驗測試了G和D迭代訓練時,每一輪迭代,兩個模型應該分別訓練的次數,結果如下:

發現當g-step=1,d-step=5,k=3時效果較好。

4.總結

本文章通過policy-gradient和MC search解決了GAN在文本生成上的兩大問題,並取得了較好的實驗結果,開啟了GAN生成文本的大門。然而方法仍然存在一些問題,比如訓練不穩定,當D訓練的很好時,傳給G的信號很弱(Reward vanishing),mode-collapse,判別器必須要等到生成完整句子才能給出打分,訓練計算量大等問題。我將在以後陸續介紹針對這些問題提出改進方法的文章。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 文本智能 的精彩文章:

TAG:文本智能 |