資源：自然語言處理數據集、語料庫和論文集合

新聞 04-18

機器之心報道

問答系統

MS MARCO：人工生成的機器閱讀理解數據集，來自微軟，2016。

論文：https://arxiv.org/abs/1611.09268

數據：http://www.msmarco.org/

NewsQA：Maluuba 的機器理解數據集，2016。

論文：https://arxiv.org/abs/1611.09830

數據：https://github.com/Maluuba/newsqa

SQuAD：超過 100,000 個問題和其機器理解文本的數據集，由斯坦福大學推出，2016。

論文：https://arxiv.org/abs/1606.05250

數據：https://rajpurkar.github.io/SQuAD-explorer/

GraphQuestions：一個特徵豐富的事實性問題回答數據集，來自 EMNLP 16 論文《On Generating Characteristic-rich Question Sets for QA Evaluation》，2016。

論文：http://suo.im/4u7oFE

數據：https://github.com/ysu1989/GraphQuestions

Story Cloze：一個常見故事的語料庫和有關故事的總結性語句，來自美國羅切斯特大學，2016。

論文：https://arxiv.org/abs/1604.01696

數據：http://cs.rochester.edu/nlp/rocstories/

Children"s Book Test：金髮女孩原則（當給定樣品的一些屬性可以從一個極端到另一個極端（例如從極冷至極熱）的尺度分布時，一些數據將落在這些極端之間）: 以內存顯式方式表示的兒童圖書，2015。

論文：https://arxiv.org/abs/1511.02301

數據：http://cs.rochester.edu/nlp/rocstories/

SimpleQuestions：大量使用記憶網路的簡單問答數據，2015。

論文：https://arxiv.org/pdf/1506.02075v1.pdf

數據：http://suo.im/2eiX0O。

WikiQA：一個開放問題與回答的挑戰數據集，由微軟推出，2015。

論文：http://suo.im/1bqPMh

數據：http://suo.im/3aJVyp

CNN-DailyMail：用於訓練機器進行閱讀理解任務的數據集，2015。

論文：https://arxiv.org/abs/1506.03340

代碼：https://github.com/deepmind/rc-data

數據：http://cs.nyu.edu/~kcho/DMQA/。

QuizBowl：一個神經網路，用於長段回答事實問題，來自馬里蘭大學，2014。

論文：http://suo.im/2xcBDv

數據：http://suo.im/3O37SP

MCTest：一個用於開放問題機器理解文本的數據集，來自微軟，2013。

論文：http://suo.im/VLBOk

數據：http://suo.im/gZDhk

QASent：Jeopardy 模型？一個用於機器問答的准同步語法數據集，2007。

論文：http://suo.im/3mxr3C

數據：http://suo.im/4mrv9H

對話系統

Ubuntu Dialogue Corpus：一個用於非結構化多迴路對話系統研究的大型數據集，2015。

論文：https://arxiv.org/abs/1506.08909

數據：http://suo.im/2pbKCC

面向目標的對話系統

Frames：用於向面向目標的對話系統加入記憶的語料庫，Maluuba，2016。

論文：http://suo.im/36jcl2

數據：http://datasets.maluuba.com/Frames

DSTC 2 & 3：對話狀態跟蹤挑戰（Dialog State Tracking Challenge）2 和 3，2013。

論文：http://suo.im/2PzSZc

數據：http://camdial.org/~mh521/dstc/

自然語言處理論文

[1] Antoine Bordes, et al. 開放文本語義分析的詞和意義表徵的聯合學習（Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing.）
[2] Mikolov, et al. 詞和短語及其組合性的分布式表徵（Distributed representations of words and phrases and their compositionality.） (word2vec)
[3] Sutskever, et al. 運用神經網路的序列到序列學習（Sequence to sequence learning with neural networks.）
[4] Ankit Kumar, et al. 問我一切：動態記憶網路用於自然語言處理（Ask Me Anything: Dynamic Memory Networks for Natural Language Processing.）
[5] Yoon Kim, et al. 角色意識的神經語言模型（Character-Aware Neural Language Models.）
[6] Jason Weston, et al. 走向人工智慧-完成問題回答：一組前提玩具任務（Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks.） (bAbI 任務)
[7] Karl Moritz Hermann, et al. 教機器閱讀和理解（Teaching Machines to Read and Comprehend.）(CNN/每日郵件完形風格問題)

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※DeepMind的強化學習：從無監督輔助到情境控制
※Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換
※大腦的啟發，從高性能低功耗人工突觸到擬動物大腦實現連續學習
※深度學習在NLP領域成績斐然，計算語言學家該不該驚慌？
※專訪｜IBM提出商業人工智慧，看好中國機遇

TAG:機器之心 |

您可能感興趣

※資源｜谷歌發布用於有監督詞義消歧的大型語料庫
※乾貨 | 情感分析語料庫
※漢譯佛經梵漢對比分析語料庫
※國內可用免費語料庫
※SSCI期刊《語言與文學》主編McIntyre在2017年第九屆國際語料庫語言學大會的主旨發言「語料庫文體學」
※機器學習問答數據集：這是保險領域首個開放的QA語料庫
※從 500 萬條的微博語料對鹿晗、關曉彤微博的熱門評論進行情感分析
※怎樣利用COCA語料庫提升用詞水平？
※IBM PowerAI編程大賽Q2場來襲！探秘金融語料大數據識別