國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

新聞 09-25

雷鋒網AI科技評論按：近年來，人機對話技術受到了學術界和產業界的廣泛關注。學術上，人機對話是人機交互最自然的方式之一，其發展影響及推動著語音識別與合成、自然語言理解、對話管理以及自然語言生成等研究的進展；產業上，眾多產業界巨頭相繼推出了人機對話技術相關產品，如小冰、siri、度秘等，並將人機對話技術作為其公司的重點研發方向。

基於人機對話技術在學、產兩界中的重要地位，在第六屆全國社會媒體處理大會（SMP 2017）上，由中國中文信息學會社會媒體處理專委會主辦，哈爾濱工業大學和科大訊飛股份有限公司承辦舉行了國內首次「中文人機對話技術評測」（ECDT），為人機對話技術相關的研發人員提供了一個良好的溝通平台。

這次人機對話技術評測主要包括兩個任務，分別為用戶意圖領域分類（根據數據集來源又分為封閉式和開放式兩個任務）和特定域任務型人機對話在線評測。簡單來說，任務一是判斷用戶的意圖屬於哪個領域（例如閑聊、訂機票還是訂酒店等），任務二是在特定領域中通過人機多輪對話完成用戶的意圖任務。詳細內容請參考：中文對話技術評測官網

經過近五個月的籌備和角逐，共有7支隊伍獲得了獎項，其中華南農業大學口語對話系統研究室（scau_SIGSDS）團隊獲得了任務一封閉式和開放式兩項的第一名，深思考人工智慧（iDeepWise）獲得任務二的第一名。

任務一：用戶意圖領域分類

1、封閉式評測

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

2、開放式評測

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

任務二：特定域任務型人機對話在線評測

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

在上周六的SMP 2017大會現場，7支隊伍分別就他們的技術作了分享報告。雷鋒網記者在現場聽錄了7個獲獎團隊的技術報告，並隨後聯繫了華南農業大學技術團隊（任務一第一名）和深思考人工智慧機器人（任務二第一名），在徵得兩支團隊的許可下，分享其技術報告內容如下。

任務一：用戶意圖領域分類任務評測團隊：華南農業大學一、任務背景

口語語言理解（spoken language understanding, SLU）是SDS中的重要環節，而話語領域分類（domain classification）則是SLU的關鍵任務之一。話語領域分類的任務是把話語劃分到定義好的不同領域標籤，進而將話語正確地分進不同的SLU子系統。如用戶提出「幫我寫一封郵件」，系統則應該將其劃分到「郵件」領域之中，對該話語進行專門針對「郵件」領域的語言理解。

由於口語對話具有長度短小的特點，領域分類通常會被看作是短文本分類。早期的領域分類多採用較為複雜的人工特徵，如語法信息、韻律信息、辭彙信息等，分類模型採用傳統的統計學習模型，如隨機森林、隱馬爾科夫、條件隨機場等。

深度學習流行以來，許多研究者開始用深度學習方法解決自然語言處理（natural language processing, NLP）任務，許多任務得到了長足的發展，也包括了領域分類。代表性的模型包括了深度置信網路（deep belief network, DBN）、卷積神經網路（convolutional neural networks, CNN）和長短期記憶網路（long and short-term memory, LSTM）等。

二、用戶意圖領域分類任務

用戶意圖領域分類比賽數據集包含31個話語類別，包括聊天類（chat）和垂類（30個垂直領域）。任務很明確，就是正確地將用戶的輸入話語分類到相應的領域中，如：

【用戶意圖領域分類示例】

1）你好啊，很高興見到你！ — 閑聊類
2）我想訂一張去北京的機票。 — 任務型垂類（訂機票）
3）我想找一家五道口附近便宜乾淨的快捷酒店 — 任務型垂類（訂酒店）

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

主辦方根據是否僅允許使用其提供的評測數據進行訓練和開發分為封閉式和開放式兩項評測。

三、技術架構

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

說明：

基於關鍵詞1的領域識別：對於封閉式，採用了基於數據的領域關鍵詞提取，得到足夠支持率和置信度的領域關鍵詞，用於領域識別。

人工擴展：對於開放式，則進一步結合人工知識增加領域關鍵詞表

31分類器：對於封閉式和開放式，都通過模型和參數優化，選擇了進行31分類的多分類器。在開發階段，採用的是訓練集進行k折交叉驗證；而用於測試模型，則是通過訓練集加上開發集一起通過交叉驗證訓練得到。

s分類器：在開放式測試中，對於在前面步驟中被判定為若干個候選領域，而在31分類器中沒有被正確歸類的樣例，則進一步通過訓練得到的s分類器進行再次分類。s分類器可以有多個。

基於知識的領域識別：對若干個合適的領域構建了領域知識表，如疾病列表，將話語直接識別到對應的領域，或者判定為有限的幾個候選領域。

四、方案1、基於領域關鍵詞的領域識別

我們採用了基於數據的領域關鍵詞提取演算法，通過對訓練集和開發集進行統計，抽取足夠置信度和支持率的2和3字「詞」構成了領域關鍵詞表。本系統採用的是置信度=0.95，支持率閾值根據領域類別樣本數量分了0.10、0.15和0.18三個等級。並根據包含關係精簡了領域關鍵詞列表。例如，「七樂」和「七樂彩」都在抽取的到的另一關鍵詞集時，保留了「七樂」。這樣做可預期具有更好的識別能力，也在一定程度上提高了誤判的風險。對於開放式評測，我們進一步結合人工知識擴展了領域關鍵詞表。

2、基於LSTM的領域分類

相比於CNN，循環神經網路(Recurrent Neural Networks, RNN)有利於學習到句子中字詞間的長距離依賴關係，但存在梯度消失/發散問題。目前常用的是RNN的一些變體，如LSTM、GRU(Gated Recurrent Unit)等，他們通過門控機制很大程度上緩解了RNN的梯度消失問題，並防止梯度發散。

我們在給定數據集上驗證了不同RNN變體的領域分類效果，包括普通的LSTM、GRU以及帶隱層的LSTM。

3、基於領域知識表的領域識別

通過分析領域話語特點，我們針對4個領域（health、radio、epg和tvchannel），結合外部信息構建了3個領域知識表（health、radio和tv）。其中tv知識表用於識別為候選的epg或tvchannel領域，需要進一步結合epg-tvchannel二分類器進行識別。

由於時間所限，我們僅對直覺上較為有效果的幾個領域做了嘗試。許多領域也值得進一步研究如何收集和整理外部信息構建有效的領域知識表輔助話語的領域識別。

五、開發與評測1、驗證

為了方便驗證和開發採用了正確率的評價指標。我們先用訓練集（Train）10折交叉驗證（調節學習率、層數、節點數、卷積核大小、dropout係數等超參數）進行分類模型和詞向量的選擇。

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

我們進一步用訓練集（Train）10折交叉驗證對不同的RNN變體進行選擇，結果如下所示。選擇了帶隱層的LSTM模型。

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

2、開發

我們用開發集（Dev）進行預測方式的選擇，以及領域關鍵詞和領域知識表的檢驗。

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

3、評測

在最後的評測測試中，我們採用訓練集和開發集，重新構建領域關鍵詞表，並採用10折交叉驗證訓練了LSTM分類器。評測結果中單項（封閉式和開放式）前三名的參賽系統以及前十名平均值評測結果如下表所示：

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

我們的系統取得了封閉式和開放式兩項第一名，比Top10平均值的領域分類性能高了4.4%和4.7%。

六、總結

比賽結果表明了深度學習方法能較好地應用於中文話語的領域分類任務
基於知識的方法對進一步提升領域分類效果有幫助。
由於比賽時間有限，開放式版本中，我們僅僅針對少數領域進行了優化，性能提升不夠明顯。
隨著領域語料的進一步擴展，將有利於進一步提升話語領域分類性能。同時，也有機會揭示出更多的技術挑戰。

任務二：特定域任務型人機對話在線評測技術團隊：深思考人工智慧機器人一、任務背景

圖靈測試（The Turing test）由艾倫·麥席森·圖靈提出，指測試者與被測試者（一個人和一台機器）隔開的情況下，通過一些裝置（如鍵盤）向被測試者提問，進行多次測試。一般提問者在5分鐘提問後，如果不足70%的人判對（也就是超過30%的裁判誤以為在和自己說話的是人而非計算機），那麼這台機器就通過了測試。圖靈測試的核心就是人機多輪交互。

早在人工智慧開始時，人們就開始了這方面的探索。雖然不斷有新的技術湧現，人機交互的智能化程度也越來越高。但現階段的人機交互技術還沒有達到一個真正人類智能的水平，所以廣泛領域的人工交互還是很難達到實用的水平。而中文的人機交互，像其他自然語言處理技術一樣，受中文的特性所限，相對英文的人機交互難度更大，技術上也稍微有所差距。所以，現階段要使人機交互達到人們實用的基本滿意程度，就需要有所限制。通常，在閑聊以及特定的任務型限定領域，人機交互會有比較滿意的表現。在這些領域，由於人們的交互意圖基本圍繞在某個任務目的的範圍內，所以對人類思維話術的處理是現階段自然語言處理技術所能做到。

本屆中文人機對話技術評測的任務二就是針對酒店預訂、火車票預訂、機票預訂這三個應用領域的多輪對話測試。酒店、火車票、機票預訂這三個應用領域往往是在一問一答單輪的交互中無法完成的，需要進行多輪的交互。而在多輪交互的時候，又可能出現領域的調轉，一句話中包含多領域的轉接或需求。為了實現多輪人機交互，深思考人工智慧ideepwise團隊研發了語料預處理、意圖分類、上下文處理及決策、意圖理解及處理等模塊，綜合運用了多項人工智慧深度學習技術（如圖-2）。

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

圖-2人機多輪交互系統總體框架

二、語料預處理

在中文的多輪人機交互系統中，首先需要對用戶輸入的話進行糾錯，補全、指代消解、分詞、詞性標註、實體識別。由於用戶的習慣、語言水平等各種原因，有時用戶的輸入會有錯誤的情況。而在集成了語音識別的人機交互系統中，還有語音識別錯誤、環境噪音、錯誤停頓等造成問題。在實際的應用中這種語音識別的錯誤有時是非常嚴重的，甚至會導致整個交互無法繼續。同時，由於是多輪交互，人們會對上文已有的一些信息進行省略和指代。所以為了能更準確的理解用戶的意圖，需要對語音識別錯誤或用戶的錯誤用詞進行糾錯，對省略和指代的信息根據上下文進行補全和指代消解的處理。然後進行分詞、詞性標註。最後還要對時間、地點以及一些領域的實體進行實體識別。

三、意圖分類

在多領域的人機交互系統中，當用戶說了一句話時，首先要知道這句話是哪個領域的問題，才能交給這個領域的業務處理模塊進行處理。所以首先要對用戶的問題或輸入進行按業務領域進行分類。這個問題類似普通的分類問題，但又稍有不同。

如果特定業務領域的數據積累足夠，通常基於深度學習CNN演算法來進行意圖分類可以取得不錯的效果，但若很難得到大量的這種標註好的分類訓練語料，在中文方面，這個問題更加突出，一向處理分類問題效果比較好的深度學習方法，就比較難以使用。這種情況若只依賴問題字元串來進行意圖分類是肯定不行的，因為所能提供的信息太少，所以在這裡就需要結合問題域擴充數據特徵維度，採用層次集成演算法進行意圖分類。

三、上下文處理及決策

由於多輪交互時，有很多信息在交互的上文中已經出現，用戶不會再在當前的問題中進行重複，所以需要一個上下文的記憶模塊。在上下文的記憶方面，長短期記憶網路（LSTM NetWorks）要比標準遞歸神經網路（RNNs）出色許多，它解決了RNNs模型梯度彌散的問題。

哪句上文匹配哪句下文由一個決策器來做決策，決策器中採用了深度強化學習 Deep Reinforcement Learning中的Deep Q Learning演算法來訓練一個最佳上下文匹配模型。以最終能夠完成該特定領域任務為目標，如果最終能夠完成該任務為正反饋，最終沒有完成該任務為負反饋，不斷用多輪對話語料去交互獲得各種反饋。一次多輪對話可以被定義為一個馬爾可夫決策過程 (MDPs), 反覆在會話中間節點狀態S, 會話話術行為A，回報R, 狀態S ... 之間輪換直到一次多輪對話結束，最終獲得最佳回報即能夠正確完成任務的Q network模型，該模型來確定最佳匹配的上下文。

四、意圖理解及處理

當上下文處理及決策將當前會話交給某個領域業務處理模塊進行處理時，該模塊就需要對這句話中用戶的意圖進行理解，然後進行處理。雖然在這些特定的任務型領域，用戶的意圖相對比較確定，但人們的語言卻是無法限定的，所以即使同一個意圖的表達，不同的人不同的場景不同的時間，所用的文字話術多少會有些不同。

建立一個用戶意圖話術的FAQ。然後使用基於深度學習的句子相似度的演算法來計算當前會話與FAQ中話術的相似程度。在計算句子相似度時，利用的詞向量、同義詞、關鍵詞的擴展，進行語義的計算，利用詞性、關鍵詞等信息為不同的賦予不同的貢獻權重。同時針對一些特殊的詞性和領域詞，進行了特殊的語義相似度的處理。當明白當前會話的用戶意圖後，還需要對會話中的一些信息進行抽取解析。這些信息包括常見的時間、地點，也包括一些領域需要的始發地、目的地、機場、航班號、酒店名、價格等等。

五、應用與意義

基於上述技術研發的深思考ideepwise機器人可以在特定領域場景下達到近似於人一樣流暢的交流，如圖-3用戶問到：「上海明天的天氣怎麼樣？」機器人給出天氣回復，用戶再提出請求：「給我訂一個那邊的酒店」，機器人會引導用戶詢問用戶對價格的要求，用戶只需要回答價格的區間，機器人就會流暢的給出綜合答案。

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

圖-3

又例如圖-4：交互流程中間被打斷，機器人還能像人一樣記得上一個流程，例如：可以在訂票過程中，如果用戶詢問天氣預報，則自動將用戶意圖分類為天氣，然後繼續訂票流程。

國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？｜SMP 2017

圖-4

人機多輪上下文理解與交互技術的突破的意義在於更進一步的提高智能客服、AI醫療問診，車載人機交互等人機交互的場景下的交互有效性、任務完成率和體驗，使得人機交互可以更像兩個人之間的對話，人與人之間是習慣於有上下文的，往往「基於上文，下文是說不全的」，比如傳統的智能客服是：

user：「我家機器壞了！」
robot：抱歉由於無法知道機器的型號，暫時無法回復您，請轉人工客服。

能夠理解上下文的技術突破後，則對話更流暢了，機器人可以真的像人一樣完成某一個特定任務，下面是另一番場景：

user：「我家機器壞了！」
robot：請問您家的機器具體是什麼機器啊？
user：我家電飯鍋壞了
robot：請問您家電飯鍋是什麼型號的啊？

user：P10
robot：P10型號的電飯鍋建議您去距離中關村最近的***售後維修點維修

人機對話是人與機器交互最自然的方式，實現像人與人之間自然流暢的對話是人工智慧的最終目標之一。如果人機多輪對話可以在某些應用領域實現突破，那麼人工智慧技術在應用領域也就實現了一次飛躍，這遠比AlphaGo戰勝人類棋手的現實意義更為重大。

雷鋒網註：以上內容由華南農業大學口語對話系統研究室scau_SIGSDS團隊和深思考人工智慧機器人公司(iDeepWise)提供。

scau_SIGSDS團隊為華南農業大學數學與信息學院口語對話系統研究室碩士生唐傑聰和6名本科生梁泳詩、閆江月、李楊輝、凌大未、曾真、杜澤峰組成，由黃沛傑副教授指導。

iDeepWise深思考人工智慧ideepwise是一家專註於「類腦人工智慧與深度學習」核心科技的高科技公司，他們在「ideepwise宮頸癌閱片篩查機器人『大腦』這一產品也有了突破性的進展，在Herlev 數據集上測試結果：細胞類別分類精度99.3%（比美國國立衛生研究院NIH 高1%，2017.6)、特異性高出1%、敏感性高出1.5%，是國內目前唯一能夠識別腺細胞異常的宮頸癌篩查的AI產品，目前已在多家三甲醫院和第三方檢驗機構落地使用。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※效果超過SGD和Adam，谷歌大腦的「神經網路優化器搜索」自動找到更好的訓練優化器
※65%英國企業使用Fintech，每年節省46億英鎊
※國內首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節？
※刷臉支付已經來了，語音對話購物還會遠嗎？

TAG:雷鋒網 |