深思考：實現人機多輪交互突破是攻克圖靈測試的核心

最新 09-24

機器之心專欄

作者：楊志明、王泳、毛金濤

本文作者是中科院 NLP 博士，深思考人工智慧機器人科技 ideepwise 的首席架構師/CEO 楊志明博士，首席機器學習科學家王泳博士，NLP 演算法科學家毛金濤博士。2017 年 9 月 16 日，深思考人工智慧團隊取得了 SMP2017-ECDT（人機對話技術評測）特定域任務型人機對話評測（特定垂直領域多輪人機交互）全國第一名。本文由深思考人工智慧核心團隊揭秘如何實現人機多輪交互技術的突破以及對應用的意義。

圖靈測試（The Turing test）由艾倫·麥席森·圖靈提出，指測試者與被測試者（一個人和一台機器）隔開的情況下，通過一些裝置（如鍵盤）向被測試者提問，進行多次測試。一般提問者在 5 分鐘提問後，如果不足 70% 的人判對（也就是超過 30% 的裁判誤以為在和自己說話的是人而非計算機），那麼這台機器就通過了測試。圖靈測試的核心就是人機多輪交互。

圖-1 圖靈測試

早在人工智慧開始時，人們就開始了這方面的探索。雖然不斷有新的技術湧現，人機交互的智能化程度也越來越高。但現階段的人機交互技術還沒有達到一個真正人類智能的水平，所以廣泛領域的人工交互還是很難達到實用的水平。而中文的人機交互，像其他自然語言處理技術一樣，受中文的特性所限，相對英文的人機交互難度更大，技術上也稍微有所差距。所以，現階段要使人機交互達到人們實用的基本滿意程度，就需要有所限制。通常，在閑聊以及特定的任務型限定領域，人機交互會有比較滿意的表現。在這些領域，由於人們的交互意圖基本圍繞在某個任務目的的範圍內，所以對人類思維話術的處理是現階段自然語言處理技術所能做到。

近期召開的第六屆全國社會媒體處理大會（The Sixth China National Conference on Social Media Processing, SMP）針對中文人機對話技術進行了評測（The Evaluation of Chinese Human-Computer Dialogue Technology，SMP2017-ECDT），考評了國內學術界和企業界在該領域所能取得的最好成績，國內學術機構與技術公司共 300 多家團隊參與評測。本屆中文人機對話技術評測由中國中文信息學會社會媒體處理專委會主辦，評測內容包含兩類任務，任務一——用戶意圖領域分類（包括封閉式評測和開放式評測），任務二——特定域任務型人機對話在線評測。其中任務二就是針對酒店預訂、火車票預訂、機票預訂這三個應用領域的多輪對話測試。酒店、火車票、機票預訂這三個應用領域往往是在一問一答單輪的交互中無法完成的，就需要進行多輪的交互。而在多輪交互的時候，又可能出現領域的調轉，一句話中包含多領域的轉接或需求。為了實現多輪人機交互，深思考人工智慧 ideepwise 團隊研發了語料預處理、意圖分類、上下文處理及決策、意圖理解及處理等模塊，綜合運用了多項人工智慧深度學習技術（如圖-2）。

圖-2 人機多輪交互系統總體框架

一、語料預處理

在中文的多輪人機交互系統中，首先需要對用戶輸入的話進行糾錯，補全、指代消解、分詞、詞性標註、實體識別。由於用戶的習慣、語言水平等各種原因，有時用戶的輸入會有錯誤的情況。而在集成了語音識別的人機交互系統中，還有語音識別錯誤、環境噪音、錯誤停頓等造成問題。在實際的應用中這種語音識別的錯誤有時是非常嚴重的，甚至會導致整個交互無法繼續。同時，由於是多輪交互，人們會對上文已有的一些信息進行省略和指代。所以為了能更準確的理解用戶的意圖，需要對語音識別錯誤或用戶的錯誤用詞進行糾錯，對省略和指代的信息根據上下文進行補全和指代消解的處理。然後進行分詞、詞性標註。最後還要對時間、地點以及一些領域的實體進行實體識別。

二、意圖分類

在多領域的人機交互系統中，當用戶說了一句話時，首先要知道這句話是哪個領域的問題，才能交給這個領域的業務處理模塊進行處理。所以首先要對用戶的問題或輸入進行按業務領域進行分類。這個問題類似普通的分類問題，但又稍有不同。

如果特定業務領域的數據積累足夠，通常基於深度學習 CNN 演算法來進行意圖分類可以取得不錯的效果，但若很難得到大量的這種標註好的分類訓練語料，在中文方面，這個問題更加突出，一向處理分類問題效果比較好的深度學習方法，就比較難以使用。這種情況若只依賴問題字元串來進行意圖分類是肯定不行的，因為所能提供的信息太少，所以在這裡就需要結合問題域擴充數據特徵維度，採用層次集成演算法進行意圖分類。

三、上下文處理及決策

由於多輪交互時，有很多信息在交互的上文中已經出現，用戶不會再在當前的問題中進行重複，所以需要一個上下文的記憶模塊。在上下文的記憶方面，長短期記憶網路（LSTM NetWorks）要比標準遞歸神經網路（RNNs）出色許多，它解決了 RNNs 模型梯度彌散的問題。

哪句上文匹配哪句下文由一個決策器來做決策，決策器中採用了深度強化學習 Deep Reinforcement Learning 中的 Deep Q Learning 演算法來訓練一個最佳上下文匹配模型。以最終能夠完成該特定領域任務為目標，如果最終能夠完成該任務為正反饋，最終沒有完成該任務為負反饋，不斷用多輪對話語料去交互獲得各種反饋。一次多輪對話可以被定義為一個馬爾可夫決策過程 (MDPs), 反覆在會話中間節點狀態 S, 會話話術行為 A，回報 R, 狀態 S ... 之間輪換直到一次多輪對話結束，最終獲得最佳回報即能夠正確完成任務的 Q network 模型，該模型來確定最佳匹配的上下文。

四、意圖理解及處理

當上下文處理及決策將當前會話交給某個領域業務處理模塊進行處理時，該模塊就需要對這句話中用戶的意圖進行理解，然後進行處理。雖然在這些特定的任務型領域，用戶的意圖相對比較確定，但人們的語言卻是無法限定的，所以即使同一個意圖的表達，不同的人不同的場景不同的時間，所用的文字話術多少會有些不同。

建立一個用戶意圖話術的 FAQ。然後使用基於深度學習的句子相似度的演算法來計算當前會話與 FAQ 中話術的相似程度。在計算句子相似度時，利用的詞向量、同義詞、關鍵詞的擴展，進行語義的計算，利用詞性、關鍵詞等信息為不同的賦予不同的貢獻權重。同時針對一些特殊的詞性和領域詞，進行了特殊的語義相似度的處理。當明白當前會話的用戶意圖後，還需要對會話中的一些信息進行抽取解析。這些信息包括常見的時間、地點，也包括一些領域需要的始發地、目的地、機場、航班號、酒店名、價格等等。

五、應用與意義

基於上述技術研發的深思考 ideepwise 機器人可以在特定領域場景下達到近似於人一樣流暢的交流，如圖-3 用戶問到：「上海明天的天氣怎麼樣？」機器人給出天氣回復，用戶再提出請求：「給我訂一個那邊的酒店」，機器人會引導用戶詢問用戶對價格的要求，用戶只需要回答價格的區間，機器人就會流暢的給出綜合答案。

圖-3

又例如圖-4：交互流程中間被打斷，機器人還能像人一樣記得上一個流程，例如：可以在訂票過程中，如果用戶詢問天氣預報，則自動將用戶意圖分類為天氣，然後繼續訂票流程。

圖-4

人機多輪上下文理解與交互技術的突破的意義在於更進一步的提高智能客服、AI 醫療問診，車載人機交互等人機交互的場景下的交互有效性、任務完成率和體驗，使得人機交互可以更像兩個人之間的對話，人與人之間是習慣於有上下文的，往往「基於上文，下文是說不全的」，比如傳統的智能客服是：

user：「我家機器壞了！」

robot：抱歉由於無法知道機器的型號，暫時無法回復您，請轉人工客服。

能夠理解上下文的技術突破後，則對話更流暢了，機器人可以真的像人一樣完成某一個特定任務，下面是另一番場景：

user：「我家機器壞了！」

robot：請問您家的機器具體是什麼機器啊？

user：我家電飯鍋壞了

robot：請問您家電飯鍋是什麼型號的啊？

user：P10

robot：P10 型號的電飯鍋建議您去距離中關村最近的***售後維修點維修

人機對話是人與機器交互最自然的方式，實現像人與人之間自然流暢的對話是人工智慧的最終目標之一。如果人機多輪對話可以在某些應用領域實現突破，那麼人工智慧技術在應用領域也就實現了一次飛躍，這遠比 AlphaGo 戰勝人類棋手的現實意義更為重大。

公司簡介：

iDeepWise 深思考人工智慧 ideepwise 是一家專註於「類腦人工智慧與深度學習」核心科技的高科技公司。SMP2017-ECDT（人機對話技術評測）由中國中文信息學會社會媒體處理專委會主辦，哈爾濱工業大學、科大訊飛股份有限公司承辦，華為公司贊助。旨在通過評測來驗證學術界和產業界在人機對話交互上最新的進展和成果。

另外 ideepwise 深思考人工智慧在「ideepwise 宮頸癌閱片篩查機器人『大腦』這一產品也有了突破性的進展，在 Herlev 數據集上測試結果：細胞類別分類精度 99.3%（比美國國立衛生研究院 NIH 高 1%，2017.6)、特異性高出 1%、敏感性高出 1.5%，是國內目前唯一能夠識別腺細胞異常的宮頸癌篩查的 AI 產品，目前已在多家三甲醫院和第三方檢驗機構落地使用。

附錄：SMP2017-ECDT 任務二——特定域任務型人機對話在線評測結果

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※我已經沒有了成長的能力，這是一家 AI 創業公司的離場告白
※復現深度強化學習結果所面臨的挑戰與建議
※重寫微軟「代碼」的那個人，叫納德拉
※TechCrunch舊金山大會上，谷歌、Udacity都在談些什麼

TAG:機器之心 |