當前位置:
首頁 > 知識 > 包含文本數據的免費/公共領域的 NLP 數據集

包含文本數據的免費/公共領域的 NLP 數據集

本庫是 NLP 中使用的包含了文本數據的免費/公共域數據集,這些數據集已經按字母順序排好。這裡的大多數數據只是原始的非結構化文本數據,如果你需要尋找注釋的語料庫或 Treebanks,請參閱底部的源代碼。

Apache Software Foundation Public Mail Archives:截至 2011 年 7 月 11 日的所有公開可用的 Apache Software Foundation 郵件存檔(200 GB) (200 GB)

http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

Blog Authorship Corpus:2004 年 8 月從 blogger.com 收集的 19,320 位博主收集的帖子組成。共 681,288 個帖子和超過 1.4 億字。 (298 MB)

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

Amazon Fine Food Reviews [Kaggle]:亞馬遜用戶在 2012 年 10 月前留下的 568,454 條食評(240 MB)。

https://www.kaggle.com/snap/amazon-fine-food-reviews

Amazon Reviews:斯坦福收集的 3500 萬條亞馬遜評論(11 GB)。

https://snap.stanford.edu/data/web-Amazon.html

ArXiv:所有關於歸檔的論文全文(270 GB)+ 源文件(190 GB)。

http://arxiv.org/help/bulk_data_s3

ASAP Automated Essay Scoring [Kaggle]:本次比賽有八篇文集,每一組文章都是由一個提示生成的。選擇的論文回答的平均長度從 150 到 550 個字不等。一些論文依賴於源信息,而其他論文則不是。所有回復都是由 7 年級到 10 年級的學生撰寫的。所有的論文都是手工評分,並進行了雙重評分。 (100 MB)

https://www.kaggle.com/c/asap-aes/data

ASAP Short Answer Scoring [Kaggle]:每個數據集都是由單個提示生成的,選定的回復每個回復的平均長度為 50 個字。一些論文依賴於源信息,而其他論文則不是。所有回復均由 10 年紀的學生主要在1寫成。所有回復均為手動分級並進行雙重評分 (35 MB)。

https://www.kaggle.com/c/asap-sas/data

Classification of political social media:來自政客的社交媒體消息內容 (4 MB)。

https://www.crowdflower.com/data-for-everyone/

CLiPS Stylometry Investigation (CSI) Corpus:每年擴展兩種類型的學生文章語料庫:散文和評論。這個語料庫的目的主要在於測圖研究,但也可以作其他用途。

http://www.clips.uantwerpen.be/datasets/csi-corpus

ClueWeb09 FACC:帶有 Freebase 注釋的 ClueWeb09 (72 GB)

http://lemurproject.org/clueweb09/FACC1/

ClueWeb11 FACC:帶有 Freebase 注釋的 ClueWeb11 (92 GB)

http://lemurproject.org/clueweb12/FACC1/

Common Crawl Corpus:由超過 50 億個網頁組成的爬蟲數據 (541 TB)。

http://aws.amazon.com/de/datasets/common-crawl-corpus/

Cornell Movie Dialog Corpus:大量電影對白集合,來自 10,292 對電影角色間的 220,579 條對話,囊括 617 部電影(9.5 MB)。

http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

Crosswikis:英語短語相關維基百科文章資料庫(11 GB)。

http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/

更多 NLP 數據集請訪問以下 Github 頁面:

https://github.com/niderhoff/nlp-datasets/blob/master/README.md

4 月 AI 求職季

8 大明星企業

10 場分享盛宴

20 小時獨門秘籍

4.10-4.19,我們準時相約!

新人福利

關注 AI 研習社(okweiwu),回復1領取

【超過 1000G 神經網路 / AI / 大數據資料】

新加坡國立大學霍華德:NLP 都有哪些有意思的事兒?

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

都說 AllenNLP 好用,我們跑一遍看看究竟多好用
Kaggle 惡意評論分類 top 1 %方案

TAG:AI研習社 |