當前位置:
首頁 > 最新 > 自然語言處理數據集免費資源開放

自然語言處理數據集免費資源開放

作者:Jason Brownlee

翻譯:梁傅淇

本文長度為1500字,建議閱讀3分鐘

在你剛開始入手自然語言處理任務時,你需要數據集來練習。

最好是使用小型數據集,這樣你可以快速下載,也不用花費很長的時間來調試模型。同時,使用被廣泛使用和了解的標準數據集也是有所幫助的,你可以用你的結果來做比較,看一下是否有所進步。

在這篇博文中,你會找到一系列標準數據集來開始你的深度學習之旅。

總覽

這篇博文被分成七個部分,它們是:

1. 文本分類(Text Classification)

2. 語言模型(Language Modeling)

3. 圖像字幕(Image Captioning)

4. 機器翻譯(Machine Translation)

5. 問答系統(Question Answering)

6. 語音識別(Speech Recognition)

7. 自動文摘(Document Summarization)

我已經嘗試提供一系列被廣泛使用於學術論文且規模適中的數據集。

幾乎所有的數據集都是公開免費下載的。

如果你最喜歡的數據集沒有被列出來,又或者你認為你所了解的更好的數據集應該被列出來的話,請在評論里告訴我。

我們開始吧。

1. 文本分類(Text Classification)

文本分類指的是標記句子或者文檔,比如說垃圾郵件分類和情感分析。

以下是一些對於新手而言非常棒的文本分類數據集:

Reuters Newswire Topic Classification(Reuters-21578)(http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)。

一系列1987年在路透上發布的按分類索引的文檔。同樣可以看RCV1,RCV2,以及TRC2

(http://trec.nist.gov/data/reuters/reuters.html)。

IMDB Movie Review Sentiment Classification (Stanford)(http://ai.stanford.edu/~amaas/data/sentiment/c)。

一系列從網站imdb.com上摘取的電影評論以及他們的積極或消極的情感。

News Group Movie Review Sentiment Classification (cornell)(http://www.cs.cornell.edu/people/pabo/movie-review-data/)。

更多的信息,可以從這篇博文中獲取:Datasets for single-label text categorization

2. 語言模型(Language Modeling)

語言模型涉及建設一個統計模型來根據給定的信息,預測一個句子中的下一個單詞,或者一個單詞中的下一個字母。這是語音識別或者機器翻譯等任務的前置任務。

下面是一些對於新手來說非常棒的語言模型數據集:

Project Gutenberg

(https://www.gutenberg.org/)。

以下是一些更正式的語料集:

Brown University Standard Corpus of Present-Day American English

(https://en.wikipedia.org/wiki/Brown_Corpus)。

大型英語單詞示例。

Google 1 Billion Word Corpus

(https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。

3. 圖像字幕(Image Captioning)

圖像字幕是為給定圖像生成文字描述的任務。

以下是對新手非常有幫助的圖像字幕數據集:

Common Objects in Context (COCO)(http://mscoco.org/dataset/#overview)。

超過120,000張帶描述的圖片集合。

Flickr 8K(http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html)。

從flickr.com收集的超過8000帶描述的圖片集合。

Flickr 30K(http://shannon.cs.illinois.edu/DenotationGraph/)。

從flickr.com收集的超過30000帶描述的圖片集合。

要獲得更多的資訊,可以看這篇博客:Exploring Image Captioning Datasets, 2016

(http://sidgan.me/technical/2016/01/09/Exploring-Datasets)。

4. 機器翻譯(Machine Translation)

機器翻譯即將一種語言翻譯成另一種語言的任務。

以下是對新手而言很棒的機器翻譯數據集:

Aligned Hansards of the 36th Parliament of Canada

(https://www.isi.edu/natural-language/download/hansard/)。

英法對應的句子。

European Parliament Proceedings Parallel Corpus 1996-2011

(http://www.statmt.org/europarl/)。

一系列歐洲語言的成對句子。

被用於機器翻譯的標準數據集還有很多:

5. 問答系統(Question Answering)

以下是對新手而言很棒的問答系統數據集:

Stanford Question Answering Dataset (SQuAD)(https://rajpurkar.github.io/SQuAD-explorer/)。

關於維基百科文章的問答。

Deepmind Question Answering Corpus

(https://github.com/deepmind/rc-data)。

有關Daily Mail的新聞問答。

Amazon question/answer data

(http://jmcauley.ucsd.edu/data/amazon/qa/)。

關於亞馬遜產品的問答。

更多信息,參見:

Datasets: How can I get corpus of a question-answering website like Quora or Yahoo Answers or Stack Overflow for analyzing answer quality?

(https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality)

6. 語音識別(Speech Recognition)

語音識別就是將口語語言的錄音轉換成人類可讀的文本。

以下是對新手而言很棒的語音識別數據集:

TIMIT Acoustic-Phonetic Continuous Speech Corpus

(https://catalog.ldc.upenn.edu/LDC93S1)。

付費,這裡列出是因為它被廣泛使用。美語口語以及相關轉寫。

VoxForge(http://voxforge.org/)。

為語音識別而建設開源資料庫的項目。

LibriSpeech ASR corpus

(http://www.openslr.org/12/)。

從LibriVox(https://librivox.org/)獲取的英語有聲書大型集合。

7. 自動文摘(Document Summarization)

自動文摘即產生對大型文檔的一個短小而有意義的描述。

以下是對新手而言很棒的自動文摘數據集:

Legal Case Reports Data Set

(https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports)。

4000法律案例以及摘要的集合。

TIPSTER Text Summarization Evaluation Conference Corpus

(http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html)。

將近200個文檔以及摘要的集合。

The AQUAINT Corpus of English News Text

(https://catalog.ldc.upenn.edu/LDC2002T31)。

並非免費,但卻被廣泛使用。新聞文章的語料庫。

更多信息,參見:

Document Understanding Conference (DUC) Tasks

(http://www-nlpir.nist.gov/projects/duc/data.html)

Where can I find good data sets for text summarization?

(https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization)


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數據派THU 的精彩文章:

手把手教你由TensorFlow上手PyTorch
Michael I.Jordan最新清華授課筆記!
數據蔣堂 有序遍歷語法

TAG:數據派THU |