包含文本數據的免費/公共領域的 NLP 數據集
本庫是 NLP 中使用的包含了文本數據的免費/公共域數據集,這些數據集已經按字母順序排好。這裡的大多數數據只是原始的非結構化文本數據,如果你需要尋找注釋的語料庫或 Treebanks,請參閱底部的源代碼。
Apache Software Foundation Public Mail Archives:截至 2011 年 7 月 11 日的所有公開可用的 Apache Software Foundation 郵件存檔(200 GB) (200 GB)
http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
Blog Authorship Corpus:2004 年 8 月從 blogger.com 收集的 19,320 位博主收集的帖子組成。共 681,288 個帖子和超過 1.4 億字。 (298 MB)
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
Amazon Fine Food Reviews [Kaggle]:亞馬遜用戶在 2012 年 10 月前留下的 568,454 條食評(240 MB)。
https://www.kaggle.com/snap/amazon-fine-food-reviews
Amazon Reviews:斯坦福收集的 3500 萬條亞馬遜評論(11 GB)。
https://snap.stanford.edu/data/web-Amazon.html
ArXiv:所有關於歸檔的論文全文(270 GB)+ 源文件(190 GB)。
http://arxiv.org/help/bulk_data_s3
ASAP Automated Essay Scoring [Kaggle]:本次比賽有八篇文集,每一組文章都是由一個提示生成的。選擇的論文回答的平均長度從 150 到 550 個字不等。一些論文依賴於源信息,而其他論文則不是。所有回復都是由 7 年級到 10 年級的學生撰寫的。所有的論文都是手工評分,並進行了雙重評分。 (100 MB)
https://www.kaggle.com/c/asap-aes/data
ASAP Short Answer Scoring [Kaggle]:每個數據集都是由單個提示生成的,選定的回復每個回復的平均長度為 50 個字。一些論文依賴於源信息,而其他論文則不是。所有回復均由 10 年紀的學生主要在1寫成。所有回復均為手動分級並進行雙重評分 (35 MB)。
https://www.kaggle.com/c/asap-sas/data
Classification of political social media:來自政客的社交媒體消息內容 (4 MB)。
https://www.crowdflower.com/data-for-everyone/
CLiPS Stylometry Investigation (CSI) Corpus:每年擴展兩種類型的學生文章語料庫:散文和評論。這個語料庫的目的主要在於測圖研究,但也可以作其他用途。
http://www.clips.uantwerpen.be/datasets/csi-corpus
ClueWeb09 FACC:帶有 Freebase 注釋的 ClueWeb09 (72 GB)
http://lemurproject.org/clueweb09/FACC1/
ClueWeb11 FACC:帶有 Freebase 注釋的 ClueWeb11 (92 GB)
http://lemurproject.org/clueweb12/FACC1/
Common Crawl Corpus:由超過 50 億個網頁組成的爬蟲數據 (541 TB)。
http://aws.amazon.com/de/datasets/common-crawl-corpus/
Cornell Movie Dialog Corpus:大量電影對白集合,來自 10,292 對電影角色間的 220,579 條對話,囊括 617 部電影(9.5 MB)。
http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
Crosswikis:英語短語相關維基百科文章資料庫(11 GB)。
http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
更多 NLP 數據集請訪問以下 Github 頁面:
https://github.com/niderhoff/nlp-datasets/blob/master/README.md
4 月 AI 求職季
8 大明星企業
10 場分享盛宴
20 小時獨門秘籍
4.10-4.19,我們準時相約!
新人福利
關注 AI 研習社(okweiwu),回復1領取
【超過 1000G 神經網路 / AI / 大數據資料】
新加坡國立大學霍華德:NLP 都有哪些有意思的事兒?


※都說 AllenNLP 好用,我們跑一遍看看究竟多好用
※Kaggle 惡意評論分類 top 1 %方案
TAG:AI研習社 |