當前位置:
首頁 > 新聞 > SMP2018之第二屆中文人機對話技術評測

SMP2018之第二屆中文人機對話技術評測

評測主頁及具體的評測方案,請參見SMP 2018大會主頁。

「第七屆全國社會媒體處理大會(The Seventh China National Conference on Social Media Processing)」將於2018年8月2日—4日在哈爾濱召開。

全國社會媒體處理大會專註於以社會媒體處理為主題的科學研究與工程開發,為傳播社會媒體處理最新的學術研究與技術成果提供廣泛的交流平台,旨在構建社會媒體處理領域的產學研生態圈,成為中國乃至世界社會媒體處理的風向標,會議將以社交網路的形式改變傳統的學術會議交流體驗。

全國社會媒體處理大會每年舉辦一次,現已成為社會媒體處理的重要學術活動。第七屆全國社會媒體處理大會(SMP 2018)由中國中文信息學會社會媒體處理專委會主辦,哈爾濱工業大學社會計算與信息檢索研究中心承辦。

本屆SMP會議計劃舉辦第二屆中文人機對話技術評測(ECDT)。近年來,人機對話技術受到了學術界和產業界的廣泛關注。學術上,人機對話是人機交互最自然的方式之一,其發展影響及推動著語音識別與合成、自然語言理解、對話管理以及自然語言生成等研究的進展;產業上,眾多產業界巨頭相繼推出了人機對話技術相關產品,如個人事務助理、虛擬情感陪護機器人、娛樂型聊天機器人等等,並將人機對話技術作為其公司的重點研發方向。以上極大地推動了人機對話技術在學術界和產業界的發展。

本屆中文人機對話技術評測由中國中文信息學會社會媒體處理專委會主辦,哈爾濱工業大學、科大訊飛股份有限公司承辦,訊飛公司提供數據,華為公司提供獎金。旨在促進中文人機對話系統相關研究的發展,為人機對話技術相關的學術研究人員和產業界從業人員提供一個良好的溝通平台。在此,評測會務組誠邀各個單位參加本次人機對話技術評測活動!

評測內容


評測任務概述

本屆人機對話技術評測主要包括兩個任務,參賽者可以選擇參加任意一個任務或全部任務。

任務1:用戶意圖領域分類

在人機對話系統的應用過程中,用戶可能會有多種意圖,相應地會觸發人機對話系統中的多個領域(domain) ,其中包括任務型垂直領域(如查詢機票、酒店、公交車等)、知識型問答以及閑聊等。因而,人機對話系統的一個關鍵任務就是正確地將用戶的輸入分類到相應的領域(domain)中,從而返回正確的回復結果。

【用戶意圖領域分類示例】

【評測說明】

評測任務1包含閑聊和垂類兩大類,其中垂類又細分為30個垂直領域。本次評測任務1中,僅考慮針對單輪對話用戶意圖的領域分類,多輪對話整體意圖的領域分類不在此次評測範圍之內。

【評測方式】

開放式評測:

參賽者可以開放地獲取除主辦方提供的數據之外的訓練及開發數據。評測時,主辦方給定測試集,並運行參賽系統,在測試集上面得出評測結果。

【評價指標】

準確率(P)、召回率(R)及F值。

任務2:特定域任務型人機對話在線評測

針對特定域的任務型人機對話系統,人工實時在線對話交互及評價能夠反映系統對於用戶意圖響應的性能以及用戶真實的滿意度。因此,本次評測任務2為面向特定領域的任務型人機對話在線評測。

【評測說明】

本次評測任務2的特定領域包括:機票類、火車票類、酒店類3個垂直領域,系統通過與測試人員實時在線對話完成相應的預定或查詢任務,滿足測試人員的需求。

【注】針對2018年ECDT任務二參評單位的評測情況,給出以下建議:

1.認真考慮一句意圖存在連續的若干意圖,如"幫我預定一張從北京出發到重慶的4月18號的機票,再預定重慶到成都的火車票一張,再預定成都的向日葵酒店公寓一晚。"此類意圖在評分過程中佔有更大的分數比例。

2.認真考慮資源庫外的屬性、屬性值的判定情況,例如,假設資源庫中沒有的屬性WI-FI,但測試人員詢問"有沒有wifi提供?";假設資源庫只覆蓋未來10天的機票信息,但測試人員訂一個月以後的票。

3.測試人員在測試過程中,會根據"好的,已經幫您預訂XXX"等類似的字樣判斷對話結束,故建議所有參賽者在搜索返回最終結果時,都要加上 明顯的標示結束、跳轉的語句,幫助測試人員作出明確的判斷。

【特定域任務型人機對話示例】:其中U表示用戶,R表示對話系統。

任務型對話示例1:

用戶完整意圖:預定下周四(2018年4月12日)從北京去上海的上午或者中午出發,價格低於8折的便宜機票。

任務型對話示例2:

用戶完整意圖:預定明天(2018年4月10日),麗江古城區附近的一家酒店,價格不超過200元每晚。

任務型對話示例3:

用戶完整意圖:查詢明天(2018年4月10日)從哈爾濱到北京的晚間軟卧火車票信息,上下鋪均可。

任務型對話示例4:

用戶完整意圖:預定2018年4月10日從哈爾濱到北京的上午的航班或火車,價格低於500元,同時預定2018年4月10日五道口附近300-400元的快捷酒店一晚。

【評測方式】

任務2採用人工評價的方式,對於每個參賽系統,主辦方提供給測試人員完整的用戶意圖描述,對於任意相同的用戶意圖描述,對不同的參賽系統均給定相同的首輪對話輸入,啟動在線評測,評測過程中評測員根據給定的完整意圖描述與參賽系統進行交互,直至對話結束。對話結束的條件為系統返回所有任務(單任務或多任務)的執行結果(出於對模擬終端設備顯示區域大小限制的考慮,單任務的多條結果只顯示相關性最高的前5條),或超過50個對話輪數之後仍未返回測試員所需的結果,測試員手動結束對話測試。

【數據】

【評價指標】

舉例來說,如果當前只支持查詢十日航班,那麼當查到十日之外信息時,是否能友好引導。

【注】:除"對話輪數"之外,以上指標均由人工給出評分。


獎項設置

本次評測對於上述兩個任務分別比賽及排名,並根據每個任務的最終評測結果分別取前三名進行獎勵,總獎勵金額5萬元人民幣。

任務1:第一名8000元,第二名5000元,第三名4000元。

任務2:第一名15000元,第二名10000元,第三名8000元。

【注】由SMP2018主辦方中國中文信息學會社會媒體處理專業委員會(CIPS-SMP)為參評隊伍提供成績證書認證

重要時間點

以下所有時間點為北京時間(GMT+8)11:59 PM。

(除報名時間以外,其他時間點可能會有變動,請註冊參加者密切關注評測網站以及郵件通知。)


相關信息

註冊報名:有意向參加的單位機構請點擊「註冊報名」,填寫報名表後提交即可。

評測委員會

主席: 張偉男(哈爾濱工業大學)

委員: 陳志剛(科大訊飛股份有限公司)、車萬翔(哈爾濱工業大學)、芮祥麟(華為公司)

主辦方:中國中文信息學會社會媒體處理專業委員會(CIPS-SMP)

承辦方:哈爾濱工業大學社會計算與信息檢索研究中心(哈工大SCIR)、科大訊飛股份有限公司(iFLYTEK)

贊助方:華為公司

聯繫方式:如果有任何與本次評測相關的問題,請隨時聯繫會務組。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

指紋識別慘遭『橘子皮』破解,指靜脈識別或成救局之道
比亞迪「變臉」,你還會覺得它平庸嗎?

TAG:雷鋒網 |