8篇高質量論文已為你打包完畢

最新 07-16

「本周值得讀」是 PaperWeekly 的優質文章集合地。在這裡，來自 NLP、CV、DL 等方向的學習達人，各自用精鍊妙語推薦當下最新的高質量文章。

這是第41篇「本周值得讀」

#ACL2017#

A Deep Network with Visual Text Composition Behavior

本文提出 Attention Gated Transformation (AGT) network，網路核心是多層轉換層，每一層由 Attention layer（控制從原始文本中獲取信息）、Transform Gate（由Attention 控制底層信息和原始文本信息如何流向高層）組成。

每一層的結果：f(W, concat(last_layer, current_layer_attention)) * T + last_layer* (1 - T)，其中 T 是 Transform Gate 輸出。通過試驗，整體效果不錯。

本文分析了 attention 每一層的值、選中詞長度（文中視 attention 值 0.95 以上為選中）等的分布，展示了 AGT 獲取信息、處理信息的過程。

推薦人：羅玄，北京郵電大學（PaperWeekly arXiv 打卡小組）

#Text Classification#

#ACL2017#

Learning to Skim Text

RNN（Recurrent Neural Network）在多個自然語言處理的任務中取得了最好的結果，例如文本分類（document classification），機器翻譯（machine translation），問答系統（question answering）。然而，絕大多數 RNN 必須一字一句地閱讀整個文本，使它在處理長文本的時候會很慢。例如，使用 RNN 閱讀整本書然後回答有關的問題是極其困難的。

這篇論文提出了一種閱讀模型可以跳過不相關的文本信息。底層模型使用一個 RNN 來根據已讀文本決定跳過多少個單詞。文章也使用了標準的策略梯度（policy gradient）訓練模型來得到離散的跳讀動作。在模型評價部分，這篇文章測試了 4 個不同的任務，包括數字預測（number prediction），情緒分析（sentiment analysis），新聞文章分類（news articles classification）和自動問答（automatic QA），比起標準順序 LSTM，LSTM with jumping 快了 6 倍，同時可以保持相同甚至更好的準確率。

這篇文章的想法很有趣，模仿人類的跳讀（skiping）和略讀（partial reading），因為跳讀距離的學習是一個離散的過程，所以文章使用了強化學習演算法（reinforce algorithm）來估計跳讀策略。

推薦人：

姚文林，Texas A&M University（PaperWeekly arXiv 打卡小組）

#Atrous Convolution#

Rethinking Atrous Convolution for Semantic Image Segmentation

本文是所謂的 DeepLab-v3，來自 Google DeepLab 團隊。從題目就能看出是繼續在 atrous convolution（或者 dilated convolution）上做文章。主要地，作者使用了兩種策略來試驗 multiple atrous rates：一種是「串聯的結構」（atrous convolution in cascade）；另一種則是「並聯的結構」（atrous convolution in parallel），以此來 handle 語義分割中的 mutliple scale 問題。

其中並聯的結構主要是基於先前 DeepLab-v2 提出的 ASPP（Atrous Spatial Pyramid Pooling）結構，並且受 PSPNet 和 ParseNet 的啟發，進一步融合了 image-level global feature，提升了精度。文章以 ResNet 作為 base network，使用了 Batch Normalization 和諸多 trick，在沒有使用 CRF 後處理的情況下能在 PASCAL VOC2012 上拿到第二名的好成績。

另外一個值得稱道的地方是，文章作者分享了詳細的工程最佳實踐（best practice），讓人十分受益。比如說作者發現 Batch Normalization Layer 對於訓練很有必要（先前的 DeepLab-v2 沒有 BN layer），並且使用了 bootstrapping 的方法來著重訓練那些標註較少的樣本等。

推薦人：黃河，中國科學院大學（PaperWeekly arXiv 志願者）

#綜述#

Text Summarization Techniques: A Brief Survey

一篇關於文本摘要的綜述小文章。

推薦人：大俊，PaperWeekly 首席客服

#表示學習#

Efficient Vector Representation for Documents through Corruption

Doc2VecC 的主要優點是：1. 模型的複雜度與文檔集大小無關，只取決於詞的數量；2. 效率十分高（使用取樣的方式，加速訓練）；3. regularization 依賴於數據集，這樣抑制了在數據集中沒有代表性的詞，突出了數據集中區分度高的詞；4. 文檔向量是詞向量的均值，生成效率相當高；5. 試驗效果很好，在 IMDB 情感分析、詞向量分析、文檔分類等幾個試驗上，結果優於 Word2Vec, Word2Vec+IDF, Word2Vec + AVG, Doc2Vec 等方法，在語義關聯試驗上，也取得了相當不錯的結果。

代碼鏈接：

推薦人：羅玄，北京郵電大學（PaperWeekly arXiv 打卡小組）

#綜述#

A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques

一篇關於文本分類，聚類和抽取的綜述。

推薦人：大俊，PaperWeekly 首席客服

#NLG#

Controlling Linguistic Style Aspects in Neural Language Generation

本文研究的點在於控制文本生成時的 style，將多種風格定義為參數進行訓練和學習，從實驗結果來看生成的內容比較流暢。這裡的 style 可能包括是否專業，是否主觀，是否滿足一定長度等。本文的二作是 Yoav Goldberg。

推薦人：大俊，PaperWeekly 首席客服

#code2doc#

#doc2code#

A parallel corpus of Python functions and documentation strings for automated code documentation and code generation

兩個有趣的任務 code2doc 和 doc2code，本文給出了一個平行數據集和一個數據預處理函數。baseline 是基本的 NMT 框架。

代碼和數據地址：

推薦人：大俊，PaperWeekly 首席客服

「本周值得讀」欄目的內容來自 PaperWeekly arXiv 志願者小組推薦，如果您也是 arXiv 愛好者，願意一起來豐富 PaperWeekly 的推薦內容，並且培養良好的閱讀習慣，就請加入我們吧。請添加下面的微信號，並註明「志願者+學校+碩士生/博士生+研究方向」，一起來為 AI 領域學術的發展貢獻自己的一份力量。

關於PaperWeekly

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 PaperWeekly 的精彩文章:

※「嗨，我叫汪仔，今年三歲了」-論如何為聊天機器人定義一個固定的人格
※arXiv上最近有哪些值得讀的論文？
※SIGIR2017 满分论文：IRGAN
※缺少靈感？你一定需要這8篇論文

TAG:PaperWeekly |

您可能感興趣

※此文全篇只有4句話88字，卻成就古典文學最早的駁論文
※寫好一篇高質量的科技小論文必備要素
※做1000台手術不如發1篇論文？你花高價排的專家可能是靠論文造假上位的
※做1000台手術不如發1篇論文? 你花高價排的專家可能是靠論文造假上位的
※在英開學必備！50個全球免費電子資料庫，助你寫出高質量論文！
※CCS 2018論文解讀：使用少量樣本破解文本驗證碼
※大學生不會寫論文？88%受訪者認為大學應開設論文寫作課程
※學術論文寫作訓練—從寫「反饋論文」學起
※18歲天才少年發表論文，「打臉」量子優勢驗證方法
※寫了一篇假論文
※論文的質量、類型及撰寫，這篇文章說透了！
※寫論文、引文獻必備！5個超好用的文獻管理軟體
※論文發表＆文章寫作之文獻閱讀技巧
※高質量科技論文數量：中國激增日本下滑
※科學小論文之論文修改——《零秒思維寫作》
※怎樣寫出高水平 SCI 論文
※哈佛緣何要求撤銷31篇論文？
※翟天臨論文查重達40%引熱議原文作者:要我打假?
※垃圾論文有什麼價值？大學生畢業論文存廢之爭
※如何高效讀論文？