自然語言處理數據集免費資源開放

最新 10-02

作者：Jason Brownlee

翻譯：梁傅淇

本文長度為1500字，建議閱讀3分鐘

在你剛開始入手自然語言處理任務時，你需要數據集來練習。

最好是使用小型數據集，這樣你可以快速下載，也不用花費很長的時間來調試模型。同時，使用被廣泛使用和了解的標準數據集也是有所幫助的，你可以用你的結果來做比較，看一下是否有所進步。

在這篇博文中，你會找到一系列標準數據集來開始你的深度學習之旅。

總覽

這篇博文被分成七個部分，它們是：

1. 文本分類（Text Classification）

2. 語言模型（Language Modeling）

3. 圖像字幕（Image Captioning）

4. 機器翻譯（Machine Translation）

5. 問答系統（Question Answering）

6. 語音識別（Speech Recognition）

7. 自動文摘（Document Summarization）

我已經嘗試提供一系列被廣泛使用於學術論文且規模適中的數據集。

幾乎所有的數據集都是公開免費下載的。

如果你最喜歡的數據集沒有被列出來，又或者你認為你所了解的更好的數據集應該被列出來的話，請在評論里告訴我。

我們開始吧。

1. 文本分類（Text Classification）

文本分類指的是標記句子或者文檔，比如說垃圾郵件分類和情感分析。

以下是一些對於新手而言非常棒的文本分類數據集：

Reuters Newswire Topic Classification(Reuters-21578)（http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html）。

一系列1987年在路透上發布的按分類索引的文檔。同樣可以看RCV1，RCV2，以及TRC2

（http://trec.nist.gov/data/reuters/reuters.html）。

IMDB Movie Review Sentiment Classification (Stanford)（http://ai.stanford.edu/~amaas/data/sentiment/c）。

一系列從網站imdb.com上摘取的電影評論以及他們的積極或消極的情感。

News Group Movie Review Sentiment Classification (cornell)（http://www.cs.cornell.edu/people/pabo/movie-review-data/）。

更多的信息，可以從這篇博文中獲取：Datasets for single-label text categorization

2. 語言模型（Language Modeling）

語言模型涉及建設一個統計模型來根據給定的信息，預測一個句子中的下一個單詞，或者一個單詞中的下一個字母。這是語音識別或者機器翻譯等任務的前置任務。

下面是一些對於新手來說非常棒的語言模型數據集：

Project Gutenberg

（https://www.gutenberg.org/）。

以下是一些更正式的語料集：

Brown University Standard Corpus of Present-Day American English

（https://en.wikipedia.org/wiki/Brown_Corpus）。

大型英語單詞示例。

Google 1 Billion Word Corpus

（https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark）。

3. 圖像字幕（Image Captioning）

圖像字幕是為給定圖像生成文字描述的任務。

以下是對新手非常有幫助的圖像字幕數據集：

Common Objects in Context (COCO)（http://mscoco.org/dataset/#overview）。

超過120，000張帶描述的圖片集合。

Flickr 8K（http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html）。

從flickr.com收集的超過8000帶描述的圖片集合。

Flickr 30K（http://shannon.cs.illinois.edu/DenotationGraph/）。

從flickr.com收集的超過30000帶描述的圖片集合。

要獲得更多的資訊，可以看這篇博客：Exploring Image Captioning Datasets, 2016

（http://sidgan.me/technical/2016/01/09/Exploring-Datasets）。

4. 機器翻譯（Machine Translation）

機器翻譯即將一種語言翻譯成另一種語言的任務。

以下是對新手而言很棒的機器翻譯數據集：

Aligned Hansards of the 36th Parliament of Canada

（https://www.isi.edu/natural-language/download/hansard/）。

英法對應的句子。

European Parliament Proceedings Parallel Corpus 1996-2011

（http://www.statmt.org/europarl/)。

一系列歐洲語言的成對句子。

被用於機器翻譯的標準數據集還有很多：

5. 問答系統（Question Answering）

以下是對新手而言很棒的問答系統數據集：

Stanford Question Answering Dataset (SQuAD)(https://rajpurkar.github.io/SQuAD-explorer/）。

關於維基百科文章的問答。

Deepmind Question Answering Corpus

（https://github.com/deepmind/rc-data）。

有關Daily Mail的新聞問答。

Amazon question/answer data

（http://jmcauley.ucsd.edu/data/amazon/qa/）。

關於亞馬遜產品的問答。

更多信息，參見：

Datasets: How can I get corpus of a question-answering website like Quora or Yahoo Answers or Stack Overflow for analyzing answer quality?

（https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality）

6. 語音識別（Speech Recognition）

語音識別就是將口語語言的錄音轉換成人類可讀的文本。

以下是對新手而言很棒的語音識別數據集：

TIMIT Acoustic-Phonetic Continuous Speech Corpus

（https://catalog.ldc.upenn.edu/LDC93S1）。

付費，這裡列出是因為它被廣泛使用。美語口語以及相關轉寫。

VoxForge（http://voxforge.org/）。

為語音識別而建設開源資料庫的項目。

LibriSpeech ASR corpus

（http://www.openslr.org/12/）。

從LibriVox（https://librivox.org/）獲取的英語有聲書大型集合。

7. 自動文摘（Document Summarization）

自動文摘即產生對大型文檔的一個短小而有意義的描述。

以下是對新手而言很棒的自動文摘數據集：

Legal Case Reports Data Set

（https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports）。

4000法律案例以及摘要的集合。

TIPSTER Text Summarization Evaluation Conference Corpus

（http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html）。

將近200個文檔以及摘要的集合。

The AQUAINT Corpus of English News Text

（https://catalog.ldc.upenn.edu/LDC2002T31）。

並非免費，但卻被廣泛使用。新聞文章的語料庫。

更多信息，參見：

Document Understanding Conference (DUC) Tasks

（http://www-nlpir.nist.gov/projects/duc/data.html）

Where can I find good data sets for text summarization?

（https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 數據派THU 的精彩文章:

※手把手教你由TensorFlow上手PyTorch
※Michael I.Jordan最新清華授課筆記！
※數據蔣堂有序遍歷語法

TAG:數據派THU |