當前位置:
首頁 > 知識 > 中文突發事件語料庫

中文突發事件語料庫

Github 鏈接:

https://github.com/shijiebei2009/CEC-Corpus

中文突發事件語料庫是由上海大學(語義智能實驗室)所構建。根據國務院頒布的《國家突發公共事件總體應急預案》的分類體系,從互聯網上收集了5類(地震、火災、交通事故、恐怖襲擊和食物中毒)突發事件的新聞報道作為生語料,然後再對生語料進行文本預處理、文本分析、事件標註以及一致性檢查等處理,最後將標註結果保存到語料庫中,CEC合計332篇。

CEC 採用了 XML 語言作為標註格式,其中包含了六個最重要的數據結構(標記):Event、Denoter、Time、Location、Participant 和 Object。Event用於描述事件;Denoter、Time、Location、Participant 和 Object用於描述事件的指示詞和要素。此外,我們還為每一個標記定義了與之相關的屬性。與ACE和TimeBank語料庫相比,CEC語料庫的規模雖然偏小,但是對事件和事件要素的標註卻最為全面。

具體內容可參見上海大學公開發表的相關碩士博士論文,以及期刊會議論文等。

在此感謝上海大學語義智能實驗室為CEC的標註工作作出貢獻的各位碩士、博士研究生。

研究論文:

[1] 劉煒, 王東, 劉宗田, 劉菲京. 基於事件本體的文本事件要素抽取方法. 中文信息學報(已錄用)

[2] 付劍鋒, 劉宗田, 劉煒, 周文. 基於層疊條件隨機場的事件因果關係抽取[J]. 模式識別與人工智慧, 2011, 24(4):567-573.

[3] 朱莎莎, 劉宗田, 付劍鋒, 朱芳. 基於條件隨機場的中文時間短語識別[J]. 計算機工程, 2011, 37(15):164-167.

[4] 付劍鋒, 劉宗田, 劉煒, 基於特徵加權的事件要素識別[J], 計算機科學,2010年03期

[5] 劉宗田, 黃美麗等,面向事件的本體研究[J],計算機科學,2009年11期

[6] 劉煒, 王旭, 張雨嘉, 等. 一種面向突發事件的文本語料自動標註方法[J]. 中文信息學報, 2017, 31(2): 76-85.

[7] Xu-jie Zhang, Zong-tian Liu, Wei Liu, Jian-feng Fu. Research on event-based semantic annotation of Chinese[C]. Computer Science and Network Technology (ICCSNT), 2012 2nd International Conference on: 1883-1888.

[8] Fang Zhu, Zongtian Liu, Juanli Yang, Ping Zhu. Chinese event place phrase recognition of emergency event using Maximum Entropy[C]. Cloud Computing and Intelligence Systems (CCIS), 2011 IEEE International Conference on: 614-618.

[9] Jian-feng Fu, Wei Liu, Zong-tian Liu, Sha-sha Zhu. A Study of Chinese Event Taggability[C]. Communication Software and Networks, 2010. ICCSN "10. Second International Conference on: 400-404.

[10] Jianfeng Fu, Zongtian Liu, Wei Liu. Using dual-layer CRFs for event causal relation extraction. IEICE Electronics Express. 2011, Vol.8, No.5, 306–310. (2011,第三作者)

[11] Xujie Zhang, Zongtian Liu, Wei Liu, Junhui Yang, Shengnan Fei, Chinese Event Classification for Event Ontology Construction, Journal of Computational Information Systems , JCIS. 9: 9 (2013) 3511–3519

博士論文:

[1] 付劍鋒. 面向事件的知識處理研究[D]. 上海:上海大學, 2010.

[2] 單建芳. 面向事件的文本表示研究[D]. 上海:上海大學, 2011.

[3] 仲兆滿. 事件本體及其在查詢擴展中的應用. 上海:上海大學, 2011.

[4] 張旭潔. 事件本體構建中幾個關鍵問題的研究[D]. 上海:上海大學, 2012.

碩士論文:

[1] 費勝男. 意念事件研究[D]. 上海:上海大學, 2013.

[2] 朱莎莎.面向突發事件領域的事件時間要素抽取與推理研究[D]. 上海:上海大學, 2011.

Chinese Emergency Corpus (CEC)

Chinese Emergency Corpus (CEC) is built by Data Semantic Laboratory in Shanghai University. This corpus is divided into 5 categories – earthquake, fire, traffic accident, terrorist attack and intoxication of food. There are totally 332 texts in CEC, which are derived from Internet and processed by several steps.

CEC utilizes XML as a formation, including 6 tags -Denoter, Time, Location, Participant, Mean and Object- which describe the elements of event (Event). Furthermore, these tags have their own properties. Compared with ACE Corpus and TimeBank Corpus, the scale of CEC is not so large, but CEC has the all-sided annotation of event and event elements.

If you want to know more about CEC, you can refer to the related dissertations and papers, such as

Research on Event-Oriented Knowledge Processing written by Jianfeng Fu

a Study of Several Key Problems in Construction of Event Ontology written by Xujie Zhang.

Thank you, all of the postgraduates and PhDs in Data Semantic Laboratory in Shanghai University, for making a contribution to CEC.

從Python入門-如何成為AI工程師

BAT資深演算法工程師獨家研發課程

最貼近生活與工作的好玩實操項目

班級管理助學搭配專業的助教答疑

學以致用拿offer,學完即推薦就業

新人福利

關注 AI 研習社(okweiwu),回復1領取

【超過 1000G 神經網路 / AI / 大數據資料】

一周 Github Trending 熱門項目,最全中華古詩詞資料庫

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

定了!Python 團隊將於 2020年1月1 日停止支持 Python 2.7
阿里資深演算法大牛的求職分享

TAG:AI研習社 |