當前位置:
首頁 > 最新 > 8篇高質量論文已為你打包完畢

8篇高質量論文已為你打包完畢

「本周值得讀」是 PaperWeekly 的優質文章集合地。在這裡,來自 NLP、CV、DL 等方向的學習達人,各自用精鍊妙語推薦當下最新的高質量文章。

這是第41篇「本周值得讀」

#ACL2017#

A Deep Network with Visual Text Composition Behavior

本文提出 Attention Gated Transformation (AGT) network,網路核心是多層轉換層,每一層由 Attention layer(控制從原始文本中獲取信息)、Transform Gate(由Attention 控制底層信息和原始文本信息如何流向高層)組成。

每一層的結果:f(W, concat(last_layer, current_layer_attention)) * T + last_layer* (1 - T),其中 T 是 Transform Gate 輸出。通過試驗,整體效果不錯。

本文分析了 attention 每一層的值、選中詞長度(文中視 attention 值 0.95 以上為選中)等的分布,展示了 AGT 獲取信息、處理信息的過程。

推薦人:羅玄,北京郵電大學(PaperWeekly arXiv 打卡小組)

#Text Classification#

#ACL2017#

Learning to Skim Text

RNN(Recurrent Neural Network)在多個自然語言處理的任務中取得了最好的結果,例如文本分類(document classification),機器翻譯(machine translation),問答系統(question answering)。然而,絕大多數 RNN 必須一字一句地閱讀整個文本,使它在處理長文本的時候會很慢。例如,使用 RNN 閱讀整本書然後回答有關的問題是極其困難的。

這篇論文提出了一種閱讀模型可以跳過不相關的文本信息。底層模型使用一個 RNN 來根據已讀文本決定跳過多少個單詞。文章也使用了標準的策略梯度(policy gradient)訓練模型來得到離散的跳讀動作。在模型評價部分,這篇文章測試了 4 個不同的任務,包括數字預測(number prediction),情緒分析(sentiment analysis),新聞文章分類(news articles classification)和自動問答(automatic QA),比起標準順序 LSTM,LSTM with jumping 快了 6 倍,同時可以保持相同甚至更好的準確率。

這篇文章的想法很有趣,模仿人類的跳讀(skiping)和略讀(partial reading),因為跳讀距離的學習是一個離散的過程,所以文章使用了強化學習演算法(reinforce algorithm)來估計跳讀策略。

推薦人:

姚文林,Texas A&M University(PaperWeekly arXiv 打卡小組)

#Atrous Convolution#

Rethinking Atrous Convolution for Semantic Image Segmentation

本文是所謂的 DeepLab-v3,來自 Google DeepLab 團隊。從題目就能看出是繼續在 atrous convolution(或者 dilated convolution)上做文章。主要地,作者使用了兩種策略來試驗 multiple atrous rates:一種是「串聯的結構」(atrous convolution in cascade);另一種則是「並聯的結構」(atrous convolution in parallel),以此來 handle 語義分割中的 mutliple scale 問題。

其中並聯的結構主要是基於先前 DeepLab-v2 提出的 ASPP(Atrous Spatial Pyramid Pooling)結構,並且受 PSPNet 和 ParseNet 的啟發,進一步融合了 image-level global feature,提升了精度。文章以 ResNet 作為 base network,使用了 Batch Normalization 和諸多 trick,在沒有使用 CRF 後處理的情況下能在 PASCAL VOC2012 上拿到第二名的好成績。

另外一個值得稱道的地方是,文章作者分享了詳細的工程最佳實踐(best practice),讓人十分受益。比如說作者發現 Batch Normalization Layer 對於訓練很有必要(先前的 DeepLab-v2 沒有 BN layer),並且使用了 bootstrapping 的方法來著重訓練那些標註較少的樣本等。

推薦人:黃河,中國科學院大學(PaperWeekly arXiv 志願者)

#綜述#

Text Summarization Techniques: A Brief Survey

一篇關於文本摘要的綜述小文章。

推薦人:大俊,PaperWeekly 首席客服

#表示學習#

Efficient Vector Representation for Documents through Corruption

Doc2VecC 的主要優點是:1. 模型的複雜度與文檔集大小無關,只取決於詞的數量;2. 效率十分高(使用取樣的方式,加速訓練);3. regularization 依賴於數據集,這樣抑制了在數據集中沒有代表性的詞,突出了數據集中區分度高的詞;4. 文檔向量是詞向量的均值,生成效率相當高;5. 試驗效果很好,在 IMDB 情感分析、詞向量分析、文檔分類等幾個試驗上,結果優於 Word2Vec, Word2Vec+IDF, Word2Vec + AVG, Doc2Vec 等方法,在語義關聯試驗上,也取得了相當不錯的結果。

代碼鏈接:

推薦人:羅玄,北京郵電大學(PaperWeekly arXiv 打卡小組)

#綜述#

A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques

一篇關於文本分類,聚類和抽取的綜述。

推薦人:大俊,PaperWeekly 首席客服

#NLG#

Controlling Linguistic Style Aspects in Neural Language Generation

本文研究的點在於控制文本生成時的 style,將多種風格定義為參數進行訓練和學習,從實驗結果來看生成的內容比較流暢。這裡的 style 可能包括是否專業,是否主觀,是否滿足一定長度等。本文的二作是 Yoav Goldberg。

推薦人:大俊,PaperWeekly 首席客服

#code2doc#

#doc2code#

A parallel corpus of Python functions and documentation strings for automated code documentation and code generation

兩個有趣的任務 code2doc 和 doc2code,本文給出了一個平行數據集和一個數據預處理函數。baseline 是基本的 NMT 框架。

代碼和數據地址:

推薦人:大俊,PaperWeekly 首席客服

「本周值得讀」欄目的內容來自 PaperWeekly arXiv 志願者小組推薦,如果您也是 arXiv 愛好者,願意一起來豐富 PaperWeekly 的推薦內容,並且培養良好的閱讀習慣,就請加入我們吧。請添加下面的微信號,並註明「志願者+學校+碩士生/博士生+研究方向」,一起來為 AI 領域學術的發展貢獻自己的一份力量。

關於PaperWeekly

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 PaperWeekly 的精彩文章:

「嗨,我叫汪仔,今年三歲了」-論如何為聊天機器人定義一個固定的人格
arXiv上最近有哪些值得讀的論文?
SIGIR2017 满分论文:IRGAN
缺少靈感?你一定需要這8篇論文

TAG:PaperWeekly |

您可能感興趣

此文全篇只有4句話88字,卻成就古典文學最早的駁論文
寫好一篇高質量的科技小論文必備要素
做1000台手術不如發1篇論文?你花高價排的專家可能是靠論文造假上位的
做1000台手術不如發1篇論文? 你花高價排的專家可能是靠論文造假上位的
在英開學必備!50個全球免費電子資料庫,助你寫出高質量論文!
CCS 2018論文解讀:使用少量樣本破解文本驗證碼
大學生不會寫論文?88%受訪者認為大學應開設論文寫作課程
學術論文寫作訓練—從寫「反饋論文」學起
18歲天才少年發表論文,「打臉」量子優勢驗證方法
寫了一篇假論文
論文的質量、類型及撰寫,這篇文章說透了!
寫論文、引文獻必備!5個超好用的文獻管理軟體
論文發表&文章寫作之文獻閱讀技巧
高質量科技論文數量:中國激增 日本下滑
科學小論文之論文修改——《零秒思維寫作》
怎樣寫出高水平 SCI 論文
哈佛緣何要求撤銷31篇論文?
翟天臨論文查重達40%引熱議 原文作者:要我打假?
垃圾論文有什麼價值?大學生畢業論文存廢之爭
如何高效讀論文?