當前位置:
首頁 > 知識 > 在線新聞評論分析數據集——SOCC

在線新聞評論分析數據集——SOCC

SOCC 是一個用於分析在線新聞評論的語料庫,該語料庫里包含了大量的新聞及相關的新聞評論。庫中搜集的文章都是評論文章,不是純的新聞資訊,它比當前任何可用的新聞評論語料庫都大,並且保留了評論回答的結構和其他的元數據。除了原始的預料庫,SOCC 還提供了四種標註形式:有建設性的、惡意的、否定的和評估的語料。


原始數據

該庫包含 10339 條評論文章,加拿大日報英文版 303665 條評論主題的 663173 條評論,時間跨度從 2012 年的 1 月到 2016 年的 12 月。我們將語料庫分成三個子語料庫:文章語料庫,評論語料庫和評論線索語料庫,分為三個 CSV 文件:gnm_articles.csv,gnm_comments.csv和gnm_comment_threads.csv。


注釋語料庫

注釋語料庫儲存的是建設性的和惡意的語料,該庫為一個 CSV 文件,其中包含 1,043 條注釋評論,涉及科技、移民、恐怖主義、社會問題、宗教等多個領域的 10 篇文章。我們用 CrowdFlower 作為眾包注釋平台注釋了建設性的評論,我們要求標註者先閱讀文章,然後告訴我們顯示的評論是否有建設性。

SFU 否定語料庫

否定注釋用 WebAnno 來執行,您可以在的 GitHub 頁面(https://github.com/sfu-discourse-lab/WebAnno)上看到 WebAnno 伺服器安裝說明。指南目錄包含注釋指南的完整描述,注釋可以從 WebAnno 的 .tsv 文件中作為項目使用。 這些文件是使用 WebAnno v.3 格式導出的。


SFU評估語料庫

評估注釋同樣使用 WebAnno 來執行,結構與否定語料庫的結構相同,但 .tsv文件略有不同。 指南目錄中提供了評估注釋指南。


論文:

The SFU Opinion and Comments Corpus: A corpus for the analysis of online news comments

http://www.sfu.ca/~mtaboada/docs/publications/Kolhatkar_etal_SOCC.pdf

Using New York Times Picks to identify constructive comments.

https://aclanthology.info/pdf/W/W17/W17-4218.pdf

Proceedings of the Workshop Natural Language Processing Meets Journalism

http://nlpj2017.fbk.eu/

Constructive language in news comments.

http://aclweb.org/anthology/W17-3002

Proceedings of the 1st Abusive Language Online Workshop

https://sites.google.com/site/abusivelanguageworkshop2017


項目鏈接:

https://github.com/sfu-discourse-lab/SOCC

春節 AI 學習狂歡,精品課程 豪華特輯

優惠折上折,福利搶不停!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

用真知灼見創造未來,AI學術大牛20萬字觀點精選
43位頂級學術IP演講全收錄,最值得收藏的30萬字「全文+PPT」精華

TAG:AI研習社 |