資源:自然語言處理數據集、語料庫和論文集合
機器之心報道
問答系統
MS MARCO:人工生成的機器閱讀理解數據集,來自微軟,2016。
論文:https://arxiv.org/abs/1611.09268
數據:http://www.msmarco.org/
NewsQA:Maluuba 的機器理解數據集,2016。
論文:https://arxiv.org/abs/1611.09830
數據:https://github.com/Maluuba/newsqa
SQuAD:超過 100,000 個問題和其機器理解文本的數據集,由斯坦福大學推出,2016。
論文:https://arxiv.org/abs/1606.05250
數據:https://rajpurkar.github.io/SQuAD-explorer/
GraphQuestions:一個特徵豐富的事實性問題回答數據集,來自 EMNLP 16 論文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016。
論文:http://suo.im/4u7oFE
數據:https://github.com/ysu1989/GraphQuestions
Story Cloze:一個常見故事的語料庫和有關故事的總結性語句,來自美國羅切斯特大學,2016。
論文:https://arxiv.org/abs/1604.01696
數據:http://cs.rochester.edu/nlp/rocstories/
Children"s Book Test:金髮女孩原則(當給定樣品的一些屬性可以從一個極端到另一個極端(例如從極冷至極熱)的尺度分布時,一些數據將落在這些極端之間): 以內存顯式方式表示的兒童圖書,2015。
論文:https://arxiv.org/abs/1511.02301
數據:http://cs.rochester.edu/nlp/rocstories/
SimpleQuestions:大量使用記憶網路的簡單問答數據,2015。
論文:https://arxiv.org/pdf/1506.02075v1.pdf
數據:http://suo.im/2eiX0O。
WikiQA:一個開放問題與回答的挑戰數據集,由微軟推出,2015。
論文:http://suo.im/1bqPMh
數據:http://suo.im/3aJVyp
CNN-DailyMail:用於訓練機器進行閱讀理解任務的數據集,2015。
論文:https://arxiv.org/abs/1506.03340
代碼:https://github.com/deepmind/rc-data
數據:http://cs.nyu.edu/~kcho/DMQA/。
QuizBowl:一個神經網路,用於長段回答事實問題,來自馬里蘭大學,2014。
論文:http://suo.im/2xcBDv
數據:http://suo.im/3O37SP
MCTest:一個用於開放問題機器理解文本的數據集,來自微軟,2013。
論文:http://suo.im/VLBOk
數據:http://suo.im/gZDhk
QASent:Jeopardy 模型?一個用於機器問答的准同步語法數據集,2007。
論文:http://suo.im/3mxr3C
數據:http://suo.im/4mrv9H
對話系統
Ubuntu Dialogue Corpus:一個用於非結構化多迴路對話系統研究的大型數據集,2015。
論文:https://arxiv.org/abs/1506.08909
數據:http://suo.im/2pbKCC
面向目標的對話系統
Frames:用於向面向目標的對話系統加入記憶的語料庫,Maluuba,2016。
論文:http://suo.im/36jcl2
數據:http://datasets.maluuba.com/Frames
DSTC 2 & 3:對話狀態跟蹤挑戰(Dialog State Tracking Challenge)2 和 3,2013。
論文:http://suo.im/2PzSZc
數據:http://camdial.org/~mh521/dstc/
自然語言處理論文
[1] Antoine Bordes, et al. 開放文本語義分析的詞和意義表徵的聯合學習(Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing.)
[2] Mikolov, et al. 詞和短語及其組合性的分布式表徵(Distributed representations of words and phrases and their compositionality.) (word2vec)
[3] Sutskever, et al. 運用神經網路的序列到序列學習(Sequence to sequence learning with neural networks.)
[4] Ankit Kumar, et al. 問我一切:動態記憶網路用於自然語言處理(Ask Me Anything: Dynamic Memory Networks for Natural Language Processing.)
[5] Yoon Kim, et al. 角色意識的神經語言模型(Character-Aware Neural Language Models.)
[6] Jason Weston, et al. 走向人工智慧-完成問題回答:一組前提玩具任務(Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks.) (bAbI 任務)
[7] Karl Moritz Hermann, et al. 教機器閱讀和理解(Teaching Machines to Read and Comprehend.)(CNN/每日郵件完形風格問題)
※DeepMind的強化學習:從無監督輔助到情境控制
※Adobe圖像處理論文:開源iGAN到深度摳圖和風格轉換
※大腦的啟發,從高性能低功耗人工突觸到擬動物大腦實現連續學習
※深度學習在NLP領域成績斐然,計算語言學家該不該驚慌?
※專訪|IBM提出商業人工智慧,看好中國機遇
TAG:機器之心 |
※資源|谷歌發布用於有監督詞義消歧的大型語料庫
※乾貨 | 情感分析語料庫
※漢譯佛經梵漢對比分析語料庫
※國內可用免費語料庫
※SSCI期刊《語言與文學》主編McIntyre在2017年第九屆國際語料庫語言學大會的主旨發言「語料庫文體學」
※機器學習問答數據集:這是保險領域首個開放的QA語料庫
※從 500 萬條的微博語料對鹿晗、關曉彤微博的熱門評論進行情感分析
※怎樣利用COCA語料庫提升用詞水平?
※IBM PowerAI編程大賽Q2場來襲!探秘金融語料大數據識別