當前位置:
首頁 > 新聞 > 資源:自然語言處理數據集、語料庫和論文集合

資源:自然語言處理數據集、語料庫和論文集合

機器之心報道



資源:自然語言處理數據集、語料庫和論文集合

問答系統

MS MARCO:人工生成的機器閱讀理解數據集,來自微軟,2016。

論文:https://arxiv.org/abs/1611.09268

數據:http://www.msmarco.org/

NewsQA:Maluuba 的機器理解數據集,2016。

論文:https://arxiv.org/abs/1611.09830

數據:https://github.com/Maluuba/newsqa

SQuAD:超過 100,000 個問題和其機器理解文本的數據集,由斯坦福大學推出,2016。

論文:https://arxiv.org/abs/1606.05250

數據:https://rajpurkar.github.io/SQuAD-explorer/

GraphQuestions:一個特徵豐富的事實性問題回答數據集,來自 EMNLP 16 論文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016。

論文:http://suo.im/4u7oFE

數據:https://github.com/ysu1989/GraphQuestions

Story Cloze:一個常見故事的語料庫和有關故事的總結性語句,來自美國羅切斯特大學,2016。

論文:https://arxiv.org/abs/1604.01696

數據:http://cs.rochester.edu/nlp/rocstories/

Children"s Book Test:金髮女孩原則(當給定樣品的一些屬性可以從一個極端到另一個極端(例如從極冷至極熱)的尺度分布時,一些數據將落在這些極端之間): 以內存顯式方式表示的兒童圖書,2015。

論文:https://arxiv.org/abs/1511.02301

數據:http://cs.rochester.edu/nlp/rocstories/

SimpleQuestions:大量使用記憶網路的簡單問答數據,2015。

論文:https://arxiv.org/pdf/1506.02075v1.pdf

數據:http://suo.im/2eiX0O。

WikiQA:一個開放問題與回答的挑戰數據集,由微軟推出,2015。

論文:http://suo.im/1bqPMh

數據:http://suo.im/3aJVyp

CNN-DailyMail:用於訓練機器進行閱讀理解任務的數據集,2015。

論文:https://arxiv.org/abs/1506.03340

代碼:https://github.com/deepmind/rc-data

數據:http://cs.nyu.edu/~kcho/DMQA/。

QuizBowl:一個神經網路,用於長段回答事實問題,來自馬里蘭大學,2014。

論文:http://suo.im/2xcBDv

數據:http://suo.im/3O37SP

MCTest:一個用於開放問題機器理解文本的數據集,來自微軟,2013。

論文:http://suo.im/VLBOk

數據:http://suo.im/gZDhk

QASent:Jeopardy 模型?一個用於機器問答的准同步語法數據集,2007。

論文:http://suo.im/3mxr3C

數據:http://suo.im/4mrv9H



對話系統

Ubuntu Dialogue Corpus:一個用於非結構化多迴路對話系統研究的大型數據集,2015。

論文:https://arxiv.org/abs/1506.08909

數據:http://suo.im/2pbKCC



面向目標的對話系統

Frames:用於向面向目標的對話系統加入記憶的語料庫,Maluuba,2016。

論文:http://suo.im/36jcl2

數據:http://datasets.maluuba.com/Frames



DSTC 2 & 3:對話狀態跟蹤挑戰(Dialog State Tracking Challenge)2 和 3,2013。

論文:http://suo.im/2PzSZc

數據:http://camdial.org/~mh521/dstc/



自然語言處理論文

  • [1] Antoine Bordes, et al. 開放文本語義分析的詞和意義表徵的聯合學習(Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing.)

  • [2] Mikolov, et al. 詞和短語及其組合性的分布式表徵(Distributed representations of words and phrases and their compositionality.) (word2vec)

  • [3] Sutskever, et al. 運用神經網路的序列到序列學習(Sequence to sequence learning with neural networks.)

  • [4] Ankit Kumar, et al. 問我一切:動態記憶網路用於自然語言處理(Ask Me Anything: Dynamic Memory Networks for Natural Language Processing.)

  • [5] Yoon Kim, et al. 角色意識的神經語言模型(Character-Aware Neural Language Models.)

  • [6] Jason Weston, et al. 走向人工智慧-完成問題回答:一組前提玩具任務(Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks.) (bAbI 任務)

  • [7] Karl Moritz Hermann, et al. 教機器閱讀和理解(Teaching Machines to Read and Comprehend.)(CNN/每日郵件完形風格問題)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

DeepMind的強化學習:從無監督輔助到情境控制
Adobe圖像處理論文:開源iGAN到深度摳圖和風格轉換
大腦的啟發,從高性能低功耗人工突觸到擬動物大腦實現連續學習
深度學習在NLP領域成績斐然,計算語言學家該不該驚慌?
專訪|IBM提出商業人工智慧,看好中國機遇

TAG:機器之心 |

您可能感興趣

資源|谷歌發布用於有監督詞義消歧的大型語料庫
乾貨 | 情感分析語料庫
漢譯佛經梵漢對比分析語料庫
國內可用免費語料庫
SSCI期刊《語言與文學》主編McIntyre在2017年第九屆國際語料庫語言學大會的主旨發言「語料庫文體學」
機器學習問答數據集:這是保險領域首個開放的QA語料庫
從 500 萬條的微博語料對鹿晗、關曉彤微博的熱門評論進行情感分析
怎樣利用COCA語料庫提升用詞水平?
IBM PowerAI編程大賽Q2場來襲!探秘金融語料大數據識別