8篇高質量論文已為你打包完畢
「本周值得讀」是 PaperWeekly 的優質文章集合地。在這裡,來自 NLP、CV、DL 等方向的學習達人,各自用精鍊妙語推薦當下最新的高質量文章。
這是第41篇「本周值得讀」
#ACL2017#
A Deep Network with Visual Text Composition Behavior
本文提出 Attention Gated Transformation (AGT) network,網路核心是多層轉換層,每一層由 Attention layer(控制從原始文本中獲取信息)、Transform Gate(由Attention 控制底層信息和原始文本信息如何流向高層)組成。
每一層的結果:f(W, concat(last_layer, current_layer_attention)) * T + last_layer* (1 - T),其中 T 是 Transform Gate 輸出。通過試驗,整體效果不錯。
本文分析了 attention 每一層的值、選中詞長度(文中視 attention 值 0.95 以上為選中)等的分布,展示了 AGT 獲取信息、處理信息的過程。
推薦人:羅玄,北京郵電大學(PaperWeekly arXiv 打卡小組)
#Text Classification#
#ACL2017#
Learning to Skim Text
RNN(Recurrent Neural Network)在多個自然語言處理的任務中取得了最好的結果,例如文本分類(document classification),機器翻譯(machine translation),問答系統(question answering)。然而,絕大多數 RNN 必須一字一句地閱讀整個文本,使它在處理長文本的時候會很慢。例如,使用 RNN 閱讀整本書然後回答有關的問題是極其困難的。
這篇論文提出了一種閱讀模型可以跳過不相關的文本信息。底層模型使用一個 RNN 來根據已讀文本決定跳過多少個單詞。文章也使用了標準的策略梯度(policy gradient)訓練模型來得到離散的跳讀動作。在模型評價部分,這篇文章測試了 4 個不同的任務,包括數字預測(number prediction),情緒分析(sentiment analysis),新聞文章分類(news articles classification)和自動問答(automatic QA),比起標準順序 LSTM,LSTM with jumping 快了 6 倍,同時可以保持相同甚至更好的準確率。
這篇文章的想法很有趣,模仿人類的跳讀(skiping)和略讀(partial reading),因為跳讀距離的學習是一個離散的過程,所以文章使用了強化學習演算法(reinforce algorithm)來估計跳讀策略。
推薦人:
姚文林,Texas A&M University(PaperWeekly arXiv 打卡小組)
#Atrous Convolution#
Rethinking Atrous Convolution for Semantic Image Segmentation
本文是所謂的 DeepLab-v3,來自 Google DeepLab 團隊。從題目就能看出是繼續在 atrous convolution(或者 dilated convolution)上做文章。主要地,作者使用了兩種策略來試驗 multiple atrous rates:一種是「串聯的結構」(atrous convolution in cascade);另一種則是「並聯的結構」(atrous convolution in parallel),以此來 handle 語義分割中的 mutliple scale 問題。
其中並聯的結構主要是基於先前 DeepLab-v2 提出的 ASPP(Atrous Spatial Pyramid Pooling)結構,並且受 PSPNet 和 ParseNet 的啟發,進一步融合了 image-level global feature,提升了精度。文章以 ResNet 作為 base network,使用了 Batch Normalization 和諸多 trick,在沒有使用 CRF 後處理的情況下能在 PASCAL VOC2012 上拿到第二名的好成績。
另外一個值得稱道的地方是,文章作者分享了詳細的工程最佳實踐(best practice),讓人十分受益。比如說作者發現 Batch Normalization Layer 對於訓練很有必要(先前的 DeepLab-v2 沒有 BN layer),並且使用了 bootstrapping 的方法來著重訓練那些標註較少的樣本等。
推薦人:黃河,中國科學院大學(PaperWeekly arXiv 志願者)
#綜述#
Text Summarization Techniques: A Brief Survey
一篇關於文本摘要的綜述小文章。
推薦人:大俊,PaperWeekly 首席客服
#表示學習#
Efficient Vector Representation for Documents through Corruption
Doc2VecC 的主要優點是:1. 模型的複雜度與文檔集大小無關,只取決於詞的數量;2. 效率十分高(使用取樣的方式,加速訓練);3. regularization 依賴於數據集,這樣抑制了在數據集中沒有代表性的詞,突出了數據集中區分度高的詞;4. 文檔向量是詞向量的均值,生成效率相當高;5. 試驗效果很好,在 IMDB 情感分析、詞向量分析、文檔分類等幾個試驗上,結果優於 Word2Vec, Word2Vec+IDF, Word2Vec + AVG, Doc2Vec 等方法,在語義關聯試驗上,也取得了相當不錯的結果。
代碼鏈接:
推薦人:羅玄,北京郵電大學(PaperWeekly arXiv 打卡小組)
#綜述#
A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques
一篇關於文本分類,聚類和抽取的綜述。
推薦人:大俊,PaperWeekly 首席客服
#NLG#
Controlling Linguistic Style Aspects in Neural Language Generation
本文研究的點在於控制文本生成時的 style,將多種風格定義為參數進行訓練和學習,從實驗結果來看生成的內容比較流暢。這裡的 style 可能包括是否專業,是否主觀,是否滿足一定長度等。本文的二作是 Yoav Goldberg。
推薦人:大俊,PaperWeekly 首席客服
#code2doc#
#doc2code#
A parallel corpus of Python functions and documentation strings for automated code documentation and code generation
兩個有趣的任務 code2doc 和 doc2code,本文給出了一個平行數據集和一個數據預處理函數。baseline 是基本的 NMT 框架。
代碼和數據地址:
推薦人:大俊,PaperWeekly 首席客服
「本周值得讀」欄目的內容來自 PaperWeekly arXiv 志願者小組推薦,如果您也是 arXiv 愛好者,願意一起來豐富 PaperWeekly 的推薦內容,並且培養良好的閱讀習慣,就請加入我們吧。請添加下面的微信號,並註明「志願者+學校+碩士生/博士生+研究方向」,一起來為 AI 領域學術的發展貢獻自己的一份力量。
關於PaperWeekly
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
※「嗨,我叫汪仔,今年三歲了」-論如何為聊天機器人定義一個固定的人格
※arXiv上最近有哪些值得讀的論文?
※SIGIR2017 满分论文:IRGAN
※缺少靈感?你一定需要這8篇論文
TAG:PaperWeekly |
※此文全篇只有4句話88字,卻成就古典文學最早的駁論文
※寫好一篇高質量的科技小論文必備要素
※做1000台手術不如發1篇論文?你花高價排的專家可能是靠論文造假上位的
※做1000台手術不如發1篇論文? 你花高價排的專家可能是靠論文造假上位的
※在英開學必備!50個全球免費電子資料庫,助你寫出高質量論文!
※CCS 2018論文解讀:使用少量樣本破解文本驗證碼
※大學生不會寫論文?88%受訪者認為大學應開設論文寫作課程
※學術論文寫作訓練—從寫「反饋論文」學起
※18歲天才少年發表論文,「打臉」量子優勢驗證方法
※寫了一篇假論文
※論文的質量、類型及撰寫,這篇文章說透了!
※寫論文、引文獻必備!5個超好用的文獻管理軟體
※論文發表&文章寫作之文獻閱讀技巧
※高質量科技論文數量:中國激增 日本下滑
※科學小論文之論文修改——《零秒思維寫作》
※怎樣寫出高水平 SCI 論文
※哈佛緣何要求撤銷31篇論文?
※翟天臨論文查重達40%引熱議 原文作者:要我打假?
※垃圾論文有什麼價值?大學生畢業論文存廢之爭
※如何高效讀論文?