arXiv上最近有哪些值得讀的論文?
「本周值得讀」是 PaperWeekly 的優質文章集合地。在這裡,來自 NLP、CV、DL 等方向的學習達人,各自用精鍊妙語推薦當下最新的高質量文章。
這是第39篇「本周值得讀」
#Language Generation#
Deep Keyphrase Generation
關鍵短語(Keyphrase)提供了高度總結的信息可以應用於理解,組織和檢索文本。之前的研究提供了一些方法來自動提取關鍵短語,這些方法通常會將待歸納的文本分割成文本塊(text chunks),然後再排名和選擇最有意義那些。但是這些方法無法提取沒有在文本中出現的關鍵短語,也不能很有效地捕捉文本背後的真實語義。這篇文章使用編碼器 - 解碼器框架(encoder-decoder framework)提出了一個關鍵短語的生成模型,可以克服上述缺點。在模型評價部分,這篇文章在六個數據集測試了他們提出的模型,實現了顯著的性能提升,而且模型也可以基於文本語義(semantic meaning)生成源文本中沒有出現的關鍵短語。
這篇文章使用了一個很有意思的方法叫複製機制(Copying Mechanism)。為了控制辭彙表的大小,絕大多數 RNN 的模型都會只考慮一定數量的頻繁辭彙(比如 30000 個單詞),這篇文章為了生成包含 out-of-vocabulary 辭彙的關鍵短語,使用了複製機制(Copying Mechanism)。類似於注意機制(attention mechanism),複製機制加權考慮了每個單詞在源文本中的重要性。所以源文本中的罕見詞仍然有可能被複制進關鍵短語中。
本文工作已被 ACL 2017 接收,本文代碼也已開源。
論文鏈接:https://arxiv.org/abs/1704.06879
相關代碼:
https://github.com/memray/seq2seq-keyphrase
推薦人:
姚文林,Texas A&M University(PaperWeekly arXiv 打卡小組)
#GAN#
CAN: Creative Adversarial Networks Generating 「Art」 by Learning About Styles andDeviating from Style Norms
如何生成具有美學特徵且具有創新性的作品,是風格轉換類演算法核心問題,也是最具有挑戰的部分。本論文就是圍繞這個問題展開,本論文的目標是調研在創造過程中不需人干預的能夠創造新的藝術品的計算機系統。
本論文基出兩個心理學或美學論點,首先是 Martindale 對創造性藝術品產生過程的解釋: 創造性的藝術家通過增加藝術品的激勵潛力(arousal potential)來對抗常規潛力,但是激勵潛力應該努力減少觀察者的負面反應;藝術家在藝術風格使用其它的方式時會增加藝術品的激勵潛力,從而產生了突破性的藝術風格;其次是,D. E. Berlyne 認為心理學上的美學跟激勵很相關,跟美學特徵相關的激勵主要有:novelty,surprisingness,complexity,ambiguity 和 puzzlingness;因此,並通過增加潛在激勵潛力提升創新性而讓其不拘於原始風格,新穎但並不過於新穎,來構建能夠生成創造性的且具有美學特徵的作品的計算機系統。
論文鏈接:https://arxiv.org/abs/1706.07068
推薦人:羅玄,北京郵電大學(PaperWeekly arXiv 打卡小組)
#對話系統#
Generative Encoder-Decoder Models for Task-Oriented Spoken Dialog Systems with Chatting Capability
本文給出了一個特定領域對話系統的端到端解決方案,包括用 entity indexing 來解決對話生成時的 OOV 問題,也包括從外部資料庫中獲取到知識並融合到生成的對話中,對工程實現有一定的啟發。
本文已被 SIGIDIAL 2017 錄用。
論文鏈接:http://cn.arxiv.org/abs/1706.08476
推薦人:大俊,PaperWeekly 首席客服
#對話系統#
Deal or No Deal? End-to-End Learning for Negotiation Dialogues
本文研究了對話中的辯論問題,在使用增強學習的基礎上使用了對話輪轉策略訓練 seq2seq 模型。論文對應的源碼和數據都已公開。
本文可能是第一個會使用欺騙策略和讓步策略的對話模型。作者來自 Facebook Research AI。
論文鏈接:https://arxiv.org/abs/1706.05125v1
數據和源碼:
https://github.com/facebookresearch/end-to-end-negotiator
推薦人:Chuan Young,北京航空航天大學(PaperWeekly arXiv 志願者)
#文本分類#
Generative and Discriminative Text Classification with Recurrent Neural Networks (2017)
本文來自 DeepMind,比較了生成模型和判別模型在文本分類上的表現。
2001 年的一篇研究文章表明「線性的」判別模型對比對應的生成模型,具有更低的 asymptotic error rate。本文的實驗通過判別式的 LSTM 模型和生成式的 LSTM 模型(類似於 seq2seq),在三個不同設置的實驗中的表現,證明了這一結論同樣適用於神經網路這樣的複雜模型。然而,在數據量小,或者不同標籤的數據依次出現(continual learning),或者 zero-shot learning 的情況下,生成式 LSTM 模型的性能遠遠好於判別式模型。
文章針對文本分類這一任務,主要比較了普通的判別式 LSTM 和經改造的 seq2seq 兩個模型。改造的 seq2seq 中增加了一個 label embedding,通過優化聯合概率 P(xy)P(y) 訓練,通過 argmax_y 來預測標籤 y 。此外,還在實驗中比較多種較簡單的生成模型和其他工作中的模型
本文使用了一組包含新聞分類,情感分析,Wiki 分類和 QA 分類的數據集(http: //goo.gl/JyCnZq),進行了以下幾類實驗:1. 正常使用所有數據進行訓練;2. 每個標籤只使用 5,20,100,1000 個樣本進行訓練;3. 每個標籤的樣本依次出現(continual learning);4. zero-shot learning。在 2,3,4 中,生成式模型的性能都明顯勝出。
此外,在任務 4 中本文給生成模型增加的一個 self-training algorithm 比較 tricky。
論文鏈接:https://arxiv.org/abs/1703.01898
推薦人:趙天雨,京都大學(PaperWeekly arXiv 打卡小組)
#GRNN#
Recurrent Additive Networks
論文來自 UW 的 Omer 組,提出一種新的 gated RNN 簡稱 RAN,在 latent state 上只用加法更新不而摻雜 non-linearities,可以理解為 LSTM 或 GRU 的一種簡化嘗試。
本文 Experiment 在 Penn treebank,BWB,text8 上做 word-based 語言模型。RAN 的 perplexity 超過了 LSTM,而且在相似 performance 情況下減少了 33~37% 的參數,RAN 的另一個優勢在於可以 formally 表示用來計算 hidden state 的函數空間,每個 state 是一個 component-wise 的 input 加權和。從 LSTM 轉化到 RAN 可以簡單理解為去掉 output gate 並簡化 content layer。
論文鏈接:
http://www.kentonl.com/pub/llz.2017.pdf
推薦人:
沙龍,Brandeis University(PaperWeekly arXiv 打卡小組)
「本周值得讀」欄目的內容來自 PaperWeekly arXiv 志願者小組推薦,如果您也是 arXiv 愛好者,願意一起來豐富 PaperWeekly 的推薦內容,並且培養良好的閱讀習慣,就請加入我們吧。請添加下面的微信號,並註明「志願者+學校+碩士生/博士生+研究方向」,一起來為 AI 領域學術的發展貢獻自己的一份力量。
關於PaperWeekly


※SIGIR2017 满分论文:IRGAN
※缺少靈感?你一定需要這8篇論文
TAG:PaperWeekly |
※你看的每一篇Nature論文,都是這樣出爐的!
※漫畫 | 你看的每一篇Nature論文,都是這樣出爐的!
※論文讀不懂?這裡有全年無休的 Nature、Science 中文導讀
※SCI論文中最難寫的Discussion,怎樣一步到位
※對抗樣本到底是bug還是特徵?Reddit熱議的MIT論文再度引發大討論
※給正在寫Paper的你:如何在成千上萬的arXiv論文中脫穎而出?
※擁有ESI高水平論文的技巧,你get到了嗎?
※一篇 Nature 論文,還了這個男性的清白|Nature 自然科研
※同行評審是這樣跳讀論文的!Ian Goodfellow「嘲諷」了一波
※會用EndNote,你的論文就成功了一半
※Science最新論文:不好好睡覺小心得痴呆
※研究「無F可說」的Science論文:發不出f音,是因為祖先沒吃上更軟的食物
※學術論文7大搜索引擎在此,論文季還怕reference湊不夠嗎?
※Science"吐槽」Nature子刊論文,起因竟是一片雲
※同行評審是這樣略讀論文的!Ian Goodfellow實力「嘲諷」了一波
※Ian Goodfellow 談 GANs 論文評審:有這些跡象的論文要懷疑
※Jurgen Schmidhuber新論文:我的就是我的,你的GAN還是我的
※論文季,你有一份Word Tips待查收
※發一篇Nature/Science論文獎勵多少錢?
※Ludwig:還在用Chinese English 寫作文?它用 AI 教你寫最地道的英語論文