清華大學黃民烈博士：如何讓聊天機器人理解人類情感？

新聞 09-23

雷鋒網 AI 科技評論按：以微軟小冰為代表的聊天機器人已經滲透到我們的日常生活中，雖然小冰會賣萌懂幽默，但距離真正的共情、理解人類的情緒還是有一定的距離。清華大學計算機系朱小燕、黃民烈老師團隊今年的一項研究工作希望讓聊天機器人具備這樣的能力。

在這個名為 ECM（Emotional Chatting Machine：情緒化聊天機器人）、基於深度學習的情感對話模型中，團隊首次將情感因素引入了基於深度學習的生成模型中。

相關論文可查看《Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory》，作者周昊、黃民烈、張天揚、朱小燕、劉兵。

9 月份，黃民烈博士也帶領清華的兩位學生，聯合搜狗搜索團隊一舉獲得了全球唯一開放域對話評測比賽 NTCIR-STC2 的冠軍。雷鋒網 AI 科技評論與黃民烈博士取得聯繫，與他交流了近期的一些研究工作，並探討了聊天機器人的情緒機制設計。

清華大學黃民烈博士：如何讓聊天機器人理解人類情感？

黃民烈，清華大學計算機系副教授。研究興趣主要集中在深度學習、機器學習方法與應用，自然語言處理如自動問答、人機對話系統、情感分析等。已超過 40 篇 CCF A/B 類論文發表在 ACL、IJCAI、AAAI、EMNLP、KDD 等國際主流會議及 ACM TOIS、Bioinformatics 等期刊上，SCI 他引超過 300 次。曾擔任多個國際會議的領域主席或高級程序委員，如 IJCAI 2017高級程序委員， ACL 2016、EMNLP 2014/2011、IJCNLP 2017 等國際會議領域主席，擔任多個國際頂級期刊的審稿人。

目前對話系統有兩種主要模式，一種基於信息檢索，即在資料庫或語料庫中找尋相近內容的答覆作為返回答覆，現在有很多工作及實際應用也採用的是這種方法。而隨著深度學習的發展，另一種方法——基於深度學習的生成式對話系統也受到了越來越多的關注。從去年開始，NTCIR-STC2 在基於檢索的任務上又新增了一項基於生成的任務評測，其重要程度可見一斑。

黃民烈博士告訴雷鋒網 AI 科技評論，有不少生成式對話系統的工作都將關注點集中於提升生成語句的語言質量，但往往忽略了對人類情感的理解。因此，團隊著手研究如何讓計算機通過文字方式表達情緒，也是希望能在人機對話系統中加入感知情緒的成分，能從語言和情感兩個維度上生成恰當的回復。

根據論文的介紹，ECM 在傳統的 Sequence to Sequence 模型的基礎上，採用靜態的情感向量嵌入表示，動態的情感狀態記憶網路和情感詞外部記憶的機制，讓 ECM 得以根據用戶的輸入，並基於指定的情感分類（包括快樂、傷感、憤怒、厭煩、好感等五種情緒）輸出相應的回復。

在這項研究中，ECM 首次將情感因素與深度學習方法相融合。儘管自然語言處理領域本身早在深度學習快速發展前就已經能順利做出商業化的產品，但在 ACL 2017 上，雷鋒網 AI 科技評論也非常明顯地感受到深度學習的滲透。不可否認的是，深度學習對自然語言處理的影響力不可小覷。在黃民烈老師的理解中，語言本身的複雜性有很多方面，比如情緒、風格、結構等等，而且語言經過高度抽象後往往隻字之差意義去相去甚遠，這種符號上表達的含義很難用模型進行表述和定義。而深度學習更擅長的是做概率性的一些推理。「對於語言來說，深度學習目前還是比較難以解決包括符號、知識及推理層面的問題的。」

ECM 的主要數據來源是新浪微博。但微博作為一個非常活躍的社交媒體，也有非常多涉及網路用語、反語、雙關的帖子或評論，目前有不少學者在做相關的研究，包括網路新詞、反語檢測、雙關檢測等，黃民烈博士自己也有相關的研究工作。比如在自然語言處理領域頂級會議 ACL 2014 上，黃民烈博士有一篇第一作者的收錄論文《情感分析中的新詞發現》（New Word Finding for Sentiment Analysis），基於微博數據提出了一種數據驅動、不依賴知識、非監督的新詞發現演算法。那麼在 ECM 中，是否也會對新詞進行發現並做情感分析，輔助進行生成式的回復呢？

對此，黃民烈博士告訴雷鋒網 AI 科技評論，在 ECM 的研究中，這類數據並沒有很多，也不影響研究者們基於數據獲取生成內容。他認為，這類工作在判斷輿情或是大眾觀點上會更受關注些，但其中最重要的是對背景知識的了解。「比如你諷刺一個什麼事情，其實人類是知道關於這個內容或這個事件的背景信息的，因此你很容易理解這是一個反諷，但現在計算機系統還不太能做到這一點。如果模型不能很好地利用這種背景知識和信息的話，確實會得到一個相反的結論。」

「ECM 的研究只是非常初步的一個嘗試，聊天機器人的回複目前是建立在給定情感分類的基礎上做出的，還沒有涉及到如何評判用戶情緒的研究。」黃民烈博士表示，後續可以通過設計共情機制，或是通過上下文、情境等信息判斷合適的回復，不過這非常複雜和具有挑戰性。

機器要擁有「情緒」，能夠更加智能，在黃民烈博士看來需要有兩個方面的內容。首先是語義理解，另一個則是身份設定。語義理解不難懂，現在有很多公司及研究機構都在做類似的工作。但身份設定，則是要在聊天進行的過程中嵌入機器人的身份和屬性。

「比如現在我們可以和小冰聊天，但很快你會意識到它不是一個『人』，除了語義理解的問題外，更多的是因為它缺少一個固定的人格和屬性。比如當你問小冰，它的性別是什麼時，這個回答是前後不一致的。」黃民烈博士表示，如何讓機器人具有特定的說話風格，實際上也是一個非常重要的問題，在未來，當我們設定機器人是一個三歲的小男孩，會彈鋼琴時，那麼結合這樣的屬性再去和它對話，它應該生成跟它自己身份、個性相符合的答覆。在這方面，黃民烈博士也進行了初步探索，詳見論文《Assigning personality/identity to a chatting machine for coherent conversation generation》。

黃民烈博士表示，一個符合情境的交談或對話需要符合多個因素。首先是交談的話題；其次，交談的對象是什麼，是在和誰說話；再者，雙方的情緒甚至心理活動狀態是怎樣的。除此之外，還需要考慮用戶的背景和對話中扮演的角色，甚至多方面綜合的感知信息如語音、語調、姿態和表情等。「目前我們所做的研究還只是從文字上來判斷。有時候我們在設計模型時並沒有辦法完全地考慮到這些變數，因此只能在研究的基礎上做大幅的簡化。」

除了身份設定的研究外，黃民烈博士也正在進行更多的關於「解決任務導向對話系統、聊天機器人、自動問答中最具挑戰性」的研究工作。現在的人機對話要實現像人一樣的自主交談依然具有很大難度，而其中涉及的最根本的便是理解的問題。「平時做一個相對容易的分類問題，（準確率）可能做到百分之七八十，而且這些結果也能夠用在實際的系統裡面。但人機對話實際上需要的是深層次的理解，所以現在的系統還存在很多邏輯上的問題。」黃民烈博士及其團隊雖然在近年也做出了不少嘗試，也取得了一定的進步，但他認為，實際上在開放領域及開放話題上的聊天依然有很多問題亟待解決，比如如何利用客觀世界的知識，或是背景信息，並結合記憶、聯想和推理，才能實現符合情境的交談與對話。

在黃民烈博士看來，在特定任務場景的生成式對話才更具有商業應用的前景。目前，黃民烈博士及團隊在商業化應用上也做了不少嘗試，比如和一家機器人公司合作研發了一款點餐機器人。從 Demo 上看，這款機器人能夠清楚地理解各種上下文的指代，如「這道菜」、「剛剛那個魚」等語句，且不會被臨時的其它提問所打斷。

「家用聊天機器人的語境要寬泛得多，因為我們並不知道對方會和你聊些什麼，因此目前開放式的聊天系統距離真正的實用還有一定距離。」儘管如此，黃民烈博士表示，語音交互作為一個新的入口，作為人機交流的一種範式，開放式聊天對於情感陪護而言依然是非常重要的互動環節。「從產品的角度來講，一方面它確實可以提供更好的用戶體驗，另一方面如果積累大量的實際對話數據，也可以進一步促進技術的發展。」

有著深厚研究成果的黃民烈博士，實際上在自然語言處理的研究經歷了跨專業、跨學科的歷程，「半路出家」的他原本就讀的是清華大學工程物理專業，關於數學、計算機的課程給他轉向自然語言處理研究打下了紮實的基礎，並憑藉出色的研究成果獲得了 2006 年清華大學優秀博士論文，被授予「清華大學優秀博士畢業生」，隨即留校任教。

回顧就學經歷，黃民烈博士告訴雷鋒網 AI 科技評論，他非常看重學生的基礎課程和知識是否紮實，也強調了打好基礎知識的重要性。他認為，「語言理解的難點在於，首先它經過了高度的抽象，其次需要綜合利用的信息非常多，要理解一句話需要充足的背景知識才能明白真正的含義。」而於他而言，自然語言處理最大的魅力就在於所具備的挑戰性，作為人類日常使用的交流方式，語言理解的很多問題依然非常困難。而目前，黃民烈博士及其團隊也正試圖從理解的角度出發，進行更多複雜問題回答、人機對話、情感理解方面的相關研究。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※離開 YY 三年，趙斌和他的聲網是如何做實時音視頻互動的？
※道破安防『玄機』，雲天勵飛如何利用AI「守擂」
※去年才成立的 Embark，能帶著自動駕駛卡車成功穿越美國嗎？
※第一家 IPO 的激光雷達公司？Quanergy 計劃在 2018 年上市
※大數據時代社會科學在發生巨變，六年來SMP如何基於興趣驅動促進學科發展？

TAG:雷鋒網 |