自然語言處理數據集免費資源開放
作者:Jason Brownlee
翻譯:梁傅淇
本文長度為1500字,建議閱讀3分鐘
在你剛開始入手自然語言處理任務時,你需要數據集來練習。
最好是使用小型數據集,這樣你可以快速下載,也不用花費很長的時間來調試模型。同時,使用被廣泛使用和了解的標準數據集也是有所幫助的,你可以用你的結果來做比較,看一下是否有所進步。
在這篇博文中,你會找到一系列標準數據集來開始你的深度學習之旅。
總覽
這篇博文被分成七個部分,它們是:
1. 文本分類(Text Classification)
2. 語言模型(Language Modeling)
3. 圖像字幕(Image Captioning)
4. 機器翻譯(Machine Translation)
5. 問答系統(Question Answering)
6. 語音識別(Speech Recognition)
7. 自動文摘(Document Summarization)
我已經嘗試提供一系列被廣泛使用於學術論文且規模適中的數據集。
幾乎所有的數據集都是公開免費下載的。
如果你最喜歡的數據集沒有被列出來,又或者你認為你所了解的更好的數據集應該被列出來的話,請在評論里告訴我。
我們開始吧。
1. 文本分類(Text Classification)
文本分類指的是標記句子或者文檔,比如說垃圾郵件分類和情感分析。
以下是一些對於新手而言非常棒的文本分類數據集:
Reuters Newswire Topic Classification(Reuters-21578)(http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)。
一系列1987年在路透上發布的按分類索引的文檔。同樣可以看RCV1,RCV2,以及TRC2
(http://trec.nist.gov/data/reuters/reuters.html)。
IMDB Movie Review Sentiment Classification (Stanford)(http://ai.stanford.edu/~amaas/data/sentiment/c)。
一系列從網站imdb.com上摘取的電影評論以及他們的積極或消極的情感。
News Group Movie Review Sentiment Classification (cornell)(http://www.cs.cornell.edu/people/pabo/movie-review-data/)。
更多的信息,可以從這篇博文中獲取:Datasets for single-label text categorization
2. 語言模型(Language Modeling)
語言模型涉及建設一個統計模型來根據給定的信息,預測一個句子中的下一個單詞,或者一個單詞中的下一個字母。這是語音識別或者機器翻譯等任務的前置任務。
下面是一些對於新手來說非常棒的語言模型數據集:
Project Gutenberg
(https://www.gutenberg.org/)。
以下是一些更正式的語料集:
Brown University Standard Corpus of Present-Day American English
(https://en.wikipedia.org/wiki/Brown_Corpus)。
大型英語單詞示例。
Google 1 Billion Word Corpus
(https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。
3. 圖像字幕(Image Captioning)
圖像字幕是為給定圖像生成文字描述的任務。
以下是對新手非常有幫助的圖像字幕數據集:
Common Objects in Context (COCO)(http://mscoco.org/dataset/#overview)。
超過120,000張帶描述的圖片集合。
Flickr 8K(http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html)。
從flickr.com收集的超過8000帶描述的圖片集合。
Flickr 30K(http://shannon.cs.illinois.edu/DenotationGraph/)。
從flickr.com收集的超過30000帶描述的圖片集合。
要獲得更多的資訊,可以看這篇博客:Exploring Image Captioning Datasets, 2016
(http://sidgan.me/technical/2016/01/09/Exploring-Datasets)。
4. 機器翻譯(Machine Translation)
機器翻譯即將一種語言翻譯成另一種語言的任務。
以下是對新手而言很棒的機器翻譯數據集:
Aligned Hansards of the 36th Parliament of Canada
(https://www.isi.edu/natural-language/download/hansard/)。
英法對應的句子。
European Parliament Proceedings Parallel Corpus 1996-2011
(http://www.statmt.org/europarl/)。
一系列歐洲語言的成對句子。
被用於機器翻譯的標準數據集還有很多:
5. 問答系統(Question Answering)
以下是對新手而言很棒的問答系統數據集:
Stanford Question Answering Dataset (SQuAD)(https://rajpurkar.github.io/SQuAD-explorer/)。
關於維基百科文章的問答。
Deepmind Question Answering Corpus
(https://github.com/deepmind/rc-data)。
有關Daily Mail的新聞問答。
Amazon question/answer data
(http://jmcauley.ucsd.edu/data/amazon/qa/)。
關於亞馬遜產品的問答。
更多信息,參見:
Datasets: How can I get corpus of a question-answering website like Quora or Yahoo Answers or Stack Overflow for analyzing answer quality?
(https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality)
6. 語音識別(Speech Recognition)
語音識別就是將口語語言的錄音轉換成人類可讀的文本。
以下是對新手而言很棒的語音識別數據集:
TIMIT Acoustic-Phonetic Continuous Speech Corpus
(https://catalog.ldc.upenn.edu/LDC93S1)。
付費,這裡列出是因為它被廣泛使用。美語口語以及相關轉寫。
VoxForge(http://voxforge.org/)。
為語音識別而建設開源資料庫的項目。
LibriSpeech ASR corpus
(http://www.openslr.org/12/)。
從LibriVox(https://librivox.org/)獲取的英語有聲書大型集合。
7. 自動文摘(Document Summarization)
自動文摘即產生對大型文檔的一個短小而有意義的描述。
以下是對新手而言很棒的自動文摘數據集:
Legal Case Reports Data Set
(https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports)。
4000法律案例以及摘要的集合。
TIPSTER Text Summarization Evaluation Conference Corpus
(http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html)。
將近200個文檔以及摘要的集合。
The AQUAINT Corpus of English News Text
(https://catalog.ldc.upenn.edu/LDC2002T31)。
並非免費,但卻被廣泛使用。新聞文章的語料庫。
更多信息,參見:
Document Understanding Conference (DUC) Tasks
(http://www-nlpir.nist.gov/projects/duc/data.html)
Where can I find good data sets for text summarization?
(https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization)
※手把手教你由TensorFlow上手PyTorch
※Michael I.Jordan最新清華授課筆記!
※數據蔣堂 有序遍歷語法
TAG:數據派THU |