當前位置:
首頁 > 科技 > 加拿大研究員使用自然語言對抗生成中國古詩詞

加拿大研究員使用自然語言對抗生成中國古詩詞

【導讀】今日 arXiv 最火論文之一,作者包括著名的《深度學習》(Deep Learning)一書的作者 Aaron Courville。論文用 GAN 解決自然語言處理問題,「在中國詩詞數據集上取得目前最好結果」。研究人員表示,他們為訓練 GAN 生成自然語言提供了一種直接有效的方法。作者表示,接下來他們想探索 GAN 在 NLP 其他領域的應用,比如非目標導向的對話系統。

對抗生成網路(GAN)是眼下的熱詞,而使用 GAN 做自然語言處理(NLP)則一直是業界關注的問題。日前,包括「Deep Learning」一書作者、CIFAR Fellow Aaron Courville 在內的加拿大研究人員在 arXiv 上傳論文《自然語言對抗生成》 「Adversarial Generation of Natural Language」,稱為訓練 GAN 生成自然語言提供了一種直接而有效的方法

作者表示,而其簡單之處在於,向判別器提供來自生成器的概率分布序列和對應於真實數據分布的 1-熱矢量序列(a sequence of 1-hot vectors),強制判別器對連續值進行運算

論文提出的模型架構。

此外,論文還提供了定量和定性的評估方法,展示了有可能對高級句子特徵(如情緒和問題)進行文本的條件生成。

論文中給出的文本條件生成示例:上面一行是使用亞馬遜網站帶有「積極」和「消極」屬性的評論數據集作為訓練數據生成的樣本,下面一行則是有同樣數據集中帶有「問題」特徵的條件生成樣本。

作者表示,接下來他們想探索 GAN 在 NLP 其他領域的應用,比如非目標導向的對話系統。

論文《自然語言的對抗生成》及實驗介紹

摘要

生成對抗網路(GAN)近來在計算機視覺界引起了很多注意,在圖像生成方面取得了令人印象深刻的結果。但是,從噪音中對抗生成自然語言的進展與在圖像生成方面的進展並不相稱,仍遠遠落後於基於似然的方法(likelihood based methods)。本文中,我們單一以 GAN 為目標,生成自然語言。論文引入了一個簡單的基準,解決了離散輸出空間問題,不依賴於梯度估計函數(gradient estimator),並在一個中國詩詞數據集上取得了當前最好的結果。論文還提供了從無上下文和隨機上下文無關文法(probabilistic context-free grammar)生成句子的定量結果,以及語言建模的定性結果。論文還描述了一個能夠根據句子條件特徵生成序列的條件版本(conditional version)。

作者介紹,語言模型一般是通過測量模型下樣本與真實數據分布的似然進行評估的。然而,使用 GAN,測量模型本身的似然是不可能的,因此他們採取了其他方法,通過測量模型樣本在真實數據分布下的似然對結果進行評估。

作者將實驗分為 4 類:

生成語言,這些語言屬於 CFG 樣本數據集(toy CFG),以及從 Penn Treebank 推導而來的 PCFG (Marcus et al., 1993) 數據集

生成中國詩詞,與 (Yu et al., 2016) 和 (Che et al., 2017) 的結果進行比較

生成包含簡單英語句子的語言,這些句子來自於 1-billion-word 和 Penn Treebank 數據集

使用 Conditional GAN,生成帶有情緒(sentiment)和問題(question)等屬性的句子。

實驗結果

表 1(見上)展示了實驗1 中,句子生成定量分析的結果。Acc 和 Uniq 分別表示精確度(Accuracy)和獨特度(Uniqueness),LSTM-P 表示帶有 output peephole 的 LSTM。WGAN-GP 和 GAN-GP 表示在訓練過程中採用了梯度懲罰(gradient penalty,GP)的模型。

從表 2(見上)中可見,在五言詩和七言絕句中,作者提出的方法 BLEU 得分都是最高的。

1-billion word 數據集字和詞級別上的生成結果。

Penn Treebank 和 CMU-SE 數據集在字級別(Word level)上的生成結果。

來源:arXiv

編譯:文強

微波段量身定製培養計劃 9.10?上海站

如何量身定製交易系統

兼顧炒單的高勝率和波段的盈虧比

真正學會看盤、解盤、做盤

實戰高手全面講解為你全面講解……

2017年9月10日-9月22日上海

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據實驗室 的精彩文章:

孫正義:未來30年的人工智慧和物聯網
21世紀最大風險:精英階層製造大量人工智慧,絕大多數人淪為無用階層,數億人將失業
陳省身——什麼是幾何學
程序員搞笑故事:給女兒織的辮子????,你知道是什麼演算法嗎?
「精準醫療」對於人類的終極意義

TAG:大數據實驗室 |

您可能感興趣

對話系統中的自然語言生成技術
深化中國詩歌語言藝術原理及生成規律研究
「知言善用」:生活中的語言藝術
文學語言與生活語言
語言的藝術魅力
北京語言大學「語言智能研究院」成立啦
蒙古語和中國蒙古族語言生活現狀,了解一下
誦讀中華美文 感受語言魅力
語言中的「方言文化」,賦予了國漫嶄新的魅力
語言文字應用研究中青年學者協同創新聯盟正式加盟中國語言資源開發應用中心
語言:朗誦藝術中的語言技巧
加持力最大的語言是梵文,其次是藏語
書法是藝術語言,也是語言藝術
國家語委「語言生活皮書」 即將發布
教師切忌對學生使用語言暴力
終生受用的語言
大數據下自然語言生成和人工智慧成為新標準特徵
經典口誤,中國語言的博大精深
從英國語言政策看語言保護工作
說話的語言藝術