當前位置:
首頁 > 知識 > 三角獸首席科學家王寶勛:熱度之下的對話生成

三角獸首席科學家王寶勛:熱度之下的對話生成

機器之心原創

作者:邱陸陸

從 EMNLP 入選論文《Neural Response Generation via GAN with an Approximate Embedding Layer》出發,就自動對話領域的特點到發展方向和亟待解決的問題,我們與三角獸首席科學家王寶勛聊了聊。

三角獸首席科學家王寶勛

限於閑聊的、無信息需求的對話生成是自動對話領域一個比較前沿的學術方向。在應用方面,生成式聊天相比於前一代的基於信息檢索的(IR-based)架構也有一些天然的優勢:它不需要維護大規模問答庫,也不需要排序、篩選等子模塊,這種更加一體化的構架,在部署上也很有實際意義。

然而,生成式聊天也有自己的弱點:因為模型通常以相關性為核心構建損失函數,所以非常容易生成嚴重趨同的答案,這種現象被稱為「安全回答」問題(safe response)。一句「我也這麼認為。」確實可以回復許多問題,但是這樣「雞肋」的回答難免讓用戶失去繼續聊下去的興趣。因此,生成式對話系統在獲得大範圍應用前,一定要解決安全回答問題。

三角獸與哈工大合作的這篇論文(GAN-AEL)就旨在通過生成對抗網路解決這個問題,讓生成器考慮「相關性」問題,同時,引入具有對抗屬性的判別器,把「多樣性」也納入考量之中。實現這個思路的障礙來自生成對抗網路和自然語言本身的特性。生成對抗網路成功用於圖像領域有賴於圖像信號的連續特點,然而文本信號是離散的,離散意味著不可導、意味著判別器的信息無法順利通過反向傳播到達生成器。因此,作者提出了一種新的結構:近似嵌入層(Approximate Embedding Layer, AEL)來獲得判別器和生成器中間的連續性。

論文:數據需求特點與模型結構選擇

在數據需求方面,生成式對話系統相比於信息檢索式的對話系統,乃至於神經機器翻譯系統,有哪些不同呢?對此,王寶勛表示,首先相比於信息檢索式架構,生成模型在訓練階段對數據量有較高需求,然而一旦學習結束,在理想狀態下就可以直接端到端地生成答案,不需要再對數據進行維護。而相比於機器翻譯,雖然對話數據比翻譯常見,可以從論壇、貼吧等眾多途徑獲得,但是數據質量遠遠不如翻譯數據。以本文所提出的模型為例,相比於神經機器翻譯,在數據體量上要求較低而在質量上要求較高。數量上要求低,是因為對抗的過程在不停地生成數據,這一輪和下一輪生成的樣本可以被看成是不同的樣本。質量上要求高,是因為模型的目標是避免安全回答,因此從一開始就要對數據進行嚴格的預處理,避免數據集中出現安全回答。

在模型結構上,生成器選擇了基於 GRU 的編碼器-解碼器結構,判別器選擇了 CNN。GRU 雖然不像 LSTM 那麼明確地有不同門負責不同任務,但從實踐效果來看,兩個模型效果相差不多,因此最終選擇參數較少的 GRU。選擇 CNN 則和近似嵌入層(Approximate Embedding Layer, AEL)的引入有關。這一層在做句子表示時,雖說有近似,但還是以詞的嵌入(embedding)向量串聯的形式來表示一個句子。在這之上,可以做一些其他的表示,甚至可以直接加在一起。但是根據以往的經驗,分類器還是用一個不太深的 CNN 比較好。雖然沒有純理論的推導,但經驗上表明,對於對抗學習這種架構來說,判別器不能太強。如果判別器過強,一下子就把兩類樣本分開,說明生成的樣本對判別器來說沒什麼太大挑戰,判別器也無法給生成器提出什麼建議,導致誤差傳導、生成器底層更新的頻率和幅度都會小一些。因此生成器和判別器在學習速度上還是要相匹配的。

對話生成研究:一對多問題,缺失的評價標準和多輪的挑戰

「人機對話之前都是自然語言處理領域稍微小眾的一個方向,但是今年的 ACL 收錄了超過十篇做對話的論文,這個數字是前所未有的」。研究方向的熱度隨著人工智慧整體的熱度而急速攀升,即使是走在最前沿的研究者也對此感到驚訝。處在這樣的一個時間節點,王寶勛眼裡的對話生成領域是什麼樣子?研究的挑戰在何處,不同的處理方式的特點是什麼,又如何對成果進行客觀評價?

在開放域閑聊對話中,一個問題對應多個可能答案的情況很常見。王寶勛解釋道,一對多現象會對模型產生一些挑戰是因為它會引入語義上的不確定性。相比之下,機器翻譯雖然也存在一對多現象,但是多種翻譯在語義上基本上是平行的。在問答或者聊天任務上,沒有辦法保證每一個答案在語義上的一致性,這種語義上的漂移會對機器學習模型產生很大挑戰。

統一的評價標準的缺失也很讓研究者頭疼。機器翻譯中的 BLEU、迷惑度(perplexity),乃至文本摘要任務的評價標準都會被聊天系統借用。「引入一個行業通行的標準很有必要」,王寶勛肯定地說。但和問答、翻譯、文摘等幾個領域一樣,如何將主觀性的東西進行量化,始終是一個難題。如果強行引入太多標籤,則勢必形成不了上規模的應用。什麼樣的評價標準才是一個好的標準?GAN-AEL 在「相關性」之外引入了「多樣性」。除此之外,「延展性」也很重要。延展性評價一個回答能否引發更多輪數的對話,評價用戶看到回答之後是否有興趣繼續聊下去。當然了,延展性非常難直接衡量。一個「曲線救國」的辦法是在系統上線之後,看用戶的 cps(conversation per session)。王寶勛還補充道,比起評價標準缺失,或許更亟待解決的問題是高質量評測集和訓練集的缺乏,常用的幾個數據集在質量方面參差不齊。

最後,能讓用戶「多聊幾句」的回答才是好回答,而系統從「給用戶一個回復」到「多聊幾句」,存在一個指數級的難度提高。多輪對話要更多考慮情境、考慮和前文的關聯。它和前文哪句話關聯?多大範圍關聯?有潛在關聯怎麼辦?都是需要考慮的問題。然而,多輪對話始終是對話系統繞不開的一個題目。一方面,任務型對話通常都有多輪的需求,因為在一輪以內收集到完成任務所需的所有信息是非常困難的。例如,用戶說「我要訂飯店」,別的什麼都沒說,那機器人總要追問,「你要定在哪裡?幾點?多少人?」。主流的對話系統都會通過對話狀態跟蹤(dialog state tracking)模塊來記錄狀態的轉移,以配合策略(policy)模塊。而另一方面,王寶勛也看好聊天在多輪對話上的發展。「一段時間以後,我們也會看到一個相對讓人滿意的多輪聊天的機制。這個事情不會太遠,我對多輪對話相對比較樂觀」,他如是說。

對話生成應用:分類法與用戶教育

三角獸的對話系統,有「開放域聊天、任務驅動的多輪對話、智能問答」三個方向,這是否也是對話系統的常見類別呢?除此之外還有什麼分類法呢?王寶勛解釋道,三角獸的分法是按功能做的分類。以前,對話系統(dialog system)專門指代需要完成任務的問答。現在大家對這個問題重新認識了,認為對話系統除了完成指定任務之外,也可以有聊天功能。用戶在沒有特定需求的時候,也可以來和機器人聊聊天。除此之外,還有按領域做細分的方法。任務型聊天經常這樣分類,因為訂餐的系統和買飛機票的系統在對話邏輯上就有一些不同。聊天也是這樣,泛泛的開放域聊天是一種情況,就二次元動漫進行深入的對話又是另一種情況。

然而比起分類法,公眾其實更關注對話系統的表現形式:機器人。這種關注源自諸多誤解,也帶來了很多擔憂。例如,日前 Facebook 由於純文本多輪對話引擎 Bot Engine 的用戶體驗不好而選擇退出,結果被媒體解讀為「人工智慧失控,人類只能選擇拔電源」。業界人士應該如何向公眾解釋聊天機器人的能力與局限?王寶勛認同,公眾對人工智慧這個整體的了解存在一定偏差,而大眾對於聊天機器人這種新形式需要一個接受的過程、使用習慣的改變的過程。王寶勛將聊天機器人的功能定位為「可以在一些特定領域裡幫助人類完成一些比較常見的工作」。比如說,在開車的過程中不藉助手去觸控,而是通過與智能工具溝通完成啟動導航的操作;在做飯的時候,手在忙,那麼就可以通過智能音箱完成操作。同時,它可以完成一些情感上的溝通,在人們工作閑暇的時候,調侃它,甚至現在常說的「調戲」它,是一個很有趣打發時間的方式。王博士也希望大家可以少一些對機器人的擔心:「第一,它不會竊取你什麼,第二,語言的形成不是一個簡單的數學模型可以概括的,所以大可不必擔心它變得過於強大。」

深度學習:熱度依舊、思路紛紜、可解釋性「曲徑通幽」

去年年底,王博士受邀擔任了 ACL 2017 的審稿人。「深度學習依然那麼的火熱,然而深度學習本身的簡單應用已經不足以征服審稿人了。」他總結了入選論文一定要滿足的三點要求:第一,這個方向、問題本身是成立的、有用的,不能生造一個系統裡面用不到的問題。第二,作者本人對這個問題有足夠的理解,而不是簡單套用個模型。第三,模型本身,在結構或者思路上有足夠的創新點。總而言之,在深度學習方向上寫論文已經不像大家想像得那麼簡單了。

而對不同思路的探討也呈白熱化。同樣是對話生成,增強學習和生成對抗網路就有不同的側重點。增強學習的方法需要人為定義獎勵(reward),這個過程需要很多先驗的知識。而生成對抗網路的判別器是數據驅動的,什麼樣的回複比較好是通過數據定義的,過程中並沒有加入太多人的先驗知識,因此對數據的擬合可能更合理一些。有趣的是,也有通過強化學習來實現生成對抗網路判別器和生成器交互的方法。

「更多引入先驗知識」和「更多依賴數據驅動」似乎是兩種大相徑庭的思路。例如,在神經機器翻譯領域,一些學者(比如谷歌的一些論文)傾向於將儘可能多的數據交給神經網路,讓模型自己習得語法知識;同時有的學者傾向於盡可能多地人工引入語法和句法信息。然而王寶勛認為,這兩種思路都還在連接主義的框架內,只不過代表了兩種不同的思維習慣,或者說處理問題的習慣。比如谷歌從很多年以前就一直喜歡強數據驅動的辦法。而包括李航老師在內的諸多國內學者最近也在呼籲大家更多去考慮將符號學、符號主義引入大規模機器學習、深度學習或其他學習模式。王寶勛認為,如果有合理的引入或溝通方法,符號主義,包括規則、語法等等知識,其實是很有必要去和現在的機器學習做一些融合。「因為凡事不應過於絕對,再強調大數據的效果也應該看到它的局限性。之前幾十年的經驗如果能和深度學習模型合理融合在一起,甚至可以說是下一個階段的再實現一個跨越的基礎。」

雖然深度學習的火熱程度逐年遞增,其可解釋性差的問題、參數調整一直靠實踐倒推的現象一直存在,並且仍然缺乏理論解釋。王寶勛表示,相比於應用型的論文,理論方向的論文雖然很少,但也有優秀的工作出現。例如在調參方面,今年發表的 WGAN 的作者花了相當長的篇幅進行了數學證明,然後提出了 4 條調參的建議,經過驗證,都很有效。

最後,王寶勛也提出了一些關於給予神經網路以可解釋性的思考。「以自然語言處理任務為例,LSTM 就是通過對原始 RNN 添加各種門(gate)與記憶單元(memory cell)而獲得了對長距離依賴的較好描述能力。那麼這裡的原始 RNN 可以當成一個黑箱,而這些『門』是人們可以通過物理方法進行直觀理解的模塊。『對序列建模的基礎上,添加記憶單元,配合以幾個門,就可以捕捉長距離依賴信息』,這本身是不是就對神經網路做了一定的解釋呢?」

「如果我們在神經網路的基礎模塊之上添加一些額外的可解釋的模塊,模型的效果變好了,我們也從這個過程中獲得了一些可解釋性。雖然我們沒有拆開黑箱,但是通過把神經網路和可解釋模塊二者進行勾連從而獲得更好的效果這個事實,我們是不是對黑箱的『形狀』做出了一個描述呢?」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

吳恩達Deeplearning.ai課程學習全體驗:深度學習
滴滴KDD2017論文:基於組合優化的計程車分單模型
勃起的「丁丁」,能給機器人設計帶來靈感嗎?
斯坦福CS231n 2017春季課程開放全部視頻(附大綱)

TAG:機器之心 |

您可能感興趣

新的賣家秀與買家秀即將生成
第五人格:為了園丁新皮膚大家都去「賣腎」,醫生成人生贏家
三個月亮、三遍傳承、三生成佛!
大熊貓界的傳奇,一生成功「越獄」兩次,被稱為熊貓中的越獄之王
十二星座男生成為暖男的瞬間
清華大學矣曉沅:「九歌」——基於深度學習的中國古典詩歌自動生成系統
五臟生成篇第十(三)
容易跟男生成為鐵哥們的三大星座女
科學家判斷雙中子星劇烈合併事件可能生成了一顆小型黑洞
烏龍,黑色兩分鐘連進兩球,下一位世界足壇先生成第一個回家的人
哈爾濱:蕭紅國際化文學基因的生成之地
科學家判斷雙中子星劇烈合併事件可能生成了小型黑洞
五臟生成篇第十(二)
從首席大法官到喪家之犬,孔子的人生成就於一場修行
世界首張恐龍彩照寫真在大連生成
谷歌大腦發布GAN全景圖:看百家爭鳴的生成對抗網路
北京和睦家醫院:讓婦科醫生成為女性「全科醫生」
史上首次!索馬利亞亞丁灣生成「颱風」,沙漠中迎來罕見風雨
葉紅之《新月詩學生成論》
哈佛亞裔學生成首位獲羅茲獎學金夢想生 喜悅之餘他在害怕什麼