當前位置:
首頁 > 最新 > COLING 2018 上下文敏感的開放域對話回復生成

COLING 2018 上下文敏感的開放域對話回復生成

作者:哈工大SCIR 李凌志 張偉男

1 摘要

目前在單輪迴復生成任務中,研究人員提出了較多的方法,也帶來了一定程度的提升,但從回復連貫性角度考慮,人類的回復過程實際是一個上下文敏感的過程,受到現有工作的啟發,我們提出了應用於上下文敏感回復生成的動態和靜態注意力機制網路。在兩份公開數據集的實驗結果表明,我們提出的方法在客觀指標和主觀指標均優於現有方法。

2 論文介紹

近年來,訓練一個說話內容、方式與人類似的開放域對話系統,成為了學術研究的熱點和難點,之前的研究工作包括非監督聚類方法、短語統計機器翻譯方法或向量空間搜索方法等等,隨著深度學習的興起,目前這一任務多數建模成端到端的「編碼-解碼」過程,在單輪迴復生成任務中,現有的方法取得了一定的進步,但從人類對話過程中觀察,我們的回復過程實際上是一個上下文敏感的過程,如表格1所示,不同的上下文對回復內容影響很大。

表格1 不同上下文對人類回復產生不同影響舉例

2.1 研究現狀

目前採用「Seq2Seq」的對話生成模型一般包含「編碼器」和「解碼器」兩部分,「編碼器」將輸入信息編碼成一串語義向量,「解碼器」根據該語義向量和前面的隱層狀態向量逐詞生成回復。在包含上下文的回復生成模型中,「編碼器」通常編碼前幾輪對話歷史信息,因此,一個關鍵問題就是如何建模對話歷史信息。圖1介紹了目前在上下文敏感對話生成的兩種最好的編碼方式。

圖1 兩種目前最優的上下文敏感對話生成編碼方法

兩種方法均是先將上下文每句語句編碼成語句向量,然後層次化的建模出用於解碼過程的編碼向量「c」。以上兩種方法在語句表示和語句間建模上有所不同。

2.2 模型介紹

我們提出的方法同樣採用了「編碼-解碼」框架,為了更好地表示上下文信息,我們採用層次化表示的建模方法來編碼上下文,受到現有最優方法的啟發,在句內我們採用GRU建模語句表示,並提出用於建模句間表示的兩種注意力機制,分別是動態注意力機制和靜態注意力機制,模型建模過程如圖2。

圖2 動態、靜態注意力機制編碼上下文示意圖

2.2.1 靜態注意力機制解碼過程

如圖2所示,靜態注意力機制計算每一個輸入語句的重要性,從而根據權重計算出用於解碼的隱層狀態「c」,注意力計算過程如下:

其中hi和hs分別表示上文第i句和最後一句的隱層狀態,V、W和U是參數,每一句話的權重計算出來後,在解碼過程中都不會改變。解碼過程中,第t步隱層狀態st可以按如下計算:

其中yt-1是解碼的第t-1步輸出,是st-1解碼第t-1步的隱層狀態。

2.2.2 動態注意力機制解碼過程

靜態注意力解碼過程是在解碼之前固定每一句話的權重,而動態注意力解碼過程是維護一個權重矩陣,在解碼過程中動態的更新每一句話的權重。動態注意力計算過程如下:

其中V、W和U是獨立於靜態注意力機制的另外一套參數,ei,t和αi,t在解碼第t步計算出來,而第t步隱層狀態通過如下公式計算:

2.3 模型比較

該方法與之前提出的兩種現有研究方法的主要不同之處,在於獲取上下文表示的建模過程。之前的研究(Xing et al., 2017)採用層次化注意力網路來獲取對話上下文表示,而我們提出了兩種語句級別的注意力方法,來為上下文中每一句話分配權重,結構上更簡單,包含更少參數。同時與採用啟發式方法來進行編碼向量計算不同(Tian et al., 2017),我們提出的方法中,注意力機制的權重是從數據中學習而來,相比之下更靈活有效。

3 實驗結果

我們在回復生成相關的公開數據集Ubuntu和OpenSubtitles上進行了實驗,數據情況如表格2所示。

表格2 數據統計情況

為了實驗比較,我們設立了六個基線方法,其中四種(VHRED,CVAE,WSI和HRAN)均是目前在回復生成任務上最優的方法,具體可查閱參考文獻。

針對同一句話可以有不同但同樣優良的回答,所以,應用於機器翻譯的BLEU、應用於語言模型的困惑度評價等方法,均不完全適合於該任務的評價。目前在回復生成相關任務的評價上,一般同時採用客觀、主觀兩種評價方法。

3.1 客觀指標

我們採用了Serban提出的評價矩陣進行客觀指標驗證,該方法側重計算生成語句與答案之間的語義相似度,從Average、Greedy和Extrema三個角度進行衡量,具體計算過程可參考引用文獻。

表格3 客觀指標實驗結果

實驗結果如表格3所示,其中單向和雙向箭頭表示使用單向/雙向GRU單元,最優的靜態單向實驗結果經過了p

從實驗結果可以看出,我們提出的使用靜態注意力機制的上下文敏感回復生成模型在兩個數據集上優於其他所有基線模型,它驗證了句子級注意力機制在回復生成的上下文建模過程中的有效性。比較靜態和動態注意力實驗結果,我們發現,動態估計每個語句的重要性的效果要稍遜於靜態方法,原因可能在於動態注意力模型的上下文編碼向量在每步解碼過程中都是變化的,導致解碼出了連貫性稍差的回復。

3.2 主觀指標

在主觀指標上,我們設立了連貫度、自然度和多樣性三個指標,如表格4所示。連貫性指標側重於評價生成語句與上文之間的連貫程度,設置0,1,2,分別代表上下文和生成回復的不連貫、中立、連貫三個評價等級;自然度用於評價生成語句是否與人類回復相似,設置0,1兩個評價等級;多樣性指標表示生成回復中不同的詞語佔全部對話內容的比例,數值越高代表生成的回復越多樣。

表格4 主觀指標實驗結果

我們從Ubuntu和OpenSubtitles數據集中各隨機採樣500組測試樣例,由三名打分人員對全部模型的實驗結果進行打分,最終每個模型的分數為三個打分人員所打分數的平均值。從實驗結果可以看出,我們提出的靜態注意力機制模型在Ubuntu數據集的連貫性上優於其他模型。在多樣性方面,動態注意力機制模型在Ubuntu數據集上同樣優於其他模型。而在自然度上,靜態注意力機制模型在兩個數據集上均取得了最優效果。

3.3 上下文長度分析

為了驗證不同上下文長度對於提出模型的影響,我們使用不同的上下文長度重新訓練模型,圖3展示了實驗結果,可以看出,我們提出的方法對於上下文處于敏感狀態,受到編碼上文語句數量的影響。

圖3 上下文長度2~9對於生成語句客觀指標的影響曲線

圖4展示了從靜態注意力機制模型測試結果中取樣的兩個對話樣例,可以從注意力模型的分數權重上看出,我們的方法能夠有效的為上文語句劃分重要程度,並側重於依賴重要語句來生成相關性、連貫性較高的回復。

圖4 靜態注意力網路測試樣例

4 總結

本文提出了新的開放域對話回復生成的上下文敏感建模方法,該模型從靜態、動態注意力兩個角度學習上下文信息和句間表示。實驗結果表明,提出的方法在客觀、主觀的大多數指標上均超過了目前幾種最好的方法。本文同時驗證了不同上下文長度對於提出模型生成效果的影響。未來的工作中,我們會繼續探索聯合建模靜態、動態注意力機制用於解碼的方法,提升現有方法論的效果。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 哈工大SCIR 的精彩文章:

ACL 2018使用知識蒸餾提高基於搜索的結構預測

TAG:哈工大SCIR |