在線新聞評論分析數據集——SOCC
SOCC 是一個用於分析在線新聞評論的語料庫,該語料庫里包含了大量的新聞及相關的新聞評論。庫中搜集的文章都是評論文章,不是純的新聞資訊,它比當前任何可用的新聞評論語料庫都大,並且保留了評論回答的結構和其他的元數據。除了原始的預料庫,SOCC 還提供了四種標註形式:有建設性的、惡意的、否定的和評估的語料。
原始數據
該庫包含 10339 條評論文章,加拿大日報英文版 303665 條評論主題的 663173 條評論,時間跨度從 2012 年的 1 月到 2016 年的 12 月。我們將語料庫分成三個子語料庫:文章語料庫,評論語料庫和評論線索語料庫,分為三個 CSV 文件:gnm_articles.csv,gnm_comments.csv和gnm_comment_threads.csv。
注釋語料庫
注釋語料庫儲存的是建設性的和惡意的語料,該庫為一個 CSV 文件,其中包含 1,043 條注釋評論,涉及科技、移民、恐怖主義、社會問題、宗教等多個領域的 10 篇文章。我們用 CrowdFlower 作為眾包注釋平台注釋了建設性的評論,我們要求標註者先閱讀文章,然後告訴我們顯示的評論是否有建設性。
SFU 否定語料庫
否定注釋用 WebAnno 來執行,您可以在的 GitHub 頁面(https://github.com/sfu-discourse-lab/WebAnno)上看到 WebAnno 伺服器安裝說明。指南目錄包含注釋指南的完整描述,注釋可以從 WebAnno 的 .tsv 文件中作為項目使用。 這些文件是使用 WebAnno v.3 格式導出的。
SFU評估語料庫
評估注釋同樣使用 WebAnno 來執行,結構與否定語料庫的結構相同,但 .tsv文件略有不同。 指南目錄中提供了評估注釋指南。
論文:
The SFU Opinion and Comments Corpus: A corpus for the analysis of online news comments
http://www.sfu.ca/~mtaboada/docs/publications/Kolhatkar_etal_SOCC.pdf
Using New York Times Picks to identify constructive comments.
https://aclanthology.info/pdf/W/W17/W17-4218.pdf
Proceedings of the Workshop Natural Language Processing Meets Journalism
http://nlpj2017.fbk.eu/
Constructive language in news comments.
http://aclweb.org/anthology/W17-3002
Proceedings of the 1st Abusive Language Online Workshop
https://sites.google.com/site/abusivelanguageworkshop2017
項目鏈接:
https://github.com/sfu-discourse-lab/SOCC
春節 AI 學習狂歡,精品課程 豪華特輯
優惠折上折,福利搶不停!


※用真知灼見創造未來,AI學術大牛20萬字觀點精選
※43位頂級學術IP演講全收錄,最值得收藏的30萬字「全文+PPT」精華
TAG:AI研習社 |