當前位置:
首頁 > 科技 > seq2seq強化學習中Human Bandit反饋的可靠性

seq2seq強化學習中Human Bandit反饋的可靠性

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

讀芯術讀者論文交流群,請加小編微信號:zhizhizhuji。等你。

這是讀芯術解讀的第116篇論文

ACL 2018 Long Papers

Sequence-to-Sequence強化學習中Human Bandit反饋的可靠性和可學習性

Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning

海德堡大學

Heidelberg University

本文是德國海德堡大學發表於 ACL 2018 的工作,文章以bandit神經機器翻譯(NMT)的任務為例,提出了一種基於Human Bandit反饋的Sequence-to-Sequence(seq2seq)的強化學習(RL),研究了human bandit反饋的可靠性,分析了可靠性對reward估計量學習能力的影響,以及reward估計質量對整個RL任務的影響,證明了其可用性以及在更大規模應用中的潛力。

引言

最近的研究成功地將強化學習(RL)擴展到大規模動作空間遊戲中,達到人類水平甚至是超人的表現,受到了高度關注。RL在監督學習中可以繞過數據注釋瓶頸,這使得人們重新關注RL在指數輸出空間上的seq2seq學習問題。一種典型的方法是將強化與基於深度seq2seq學習的策略相結合,例如在機器翻譯、語義解析或文本摘要中。這些RL方法的重點是通過模擬reward信號,通過評估指標如BLEU、F1-score或ROUGE,來提高自動評估的性能。儘管RL來自不同的應用領域,但在遊戲和seq2seq學習中,RL首先共享一個明確規定的reward函數的存在,例如,通過贏或輸遊戲來定義,或者通過計算一個自動的序列級評價指標來定義。第二,兩個RL應用程序都依賴於對動作空間的充分探索,例如,通過對相同遊戲狀態下的多個遊戲移動進行評估,或者對相同輸入進行不同的序列預測。

本文的目標是推進seq2seq的RL的發展,以神經機器翻譯的bandit學習為例。我們的目的是證明從模擬bandit反饋中成功的學習,實際上可以從實際的human bandit反饋中學習。bandit NMT的承諾是,翻譯質量的人工反饋比人工參考更容易獲得,從而通過其數量補償信號的較弱性質。然而,人為因素與上述所描繪的RL模擬場景存在一些差異。首先,人類的reward不是明確的功能,而是複雜和不一致的信號。例如,一般來說,每一個輸入句都有許多正確的翻譯,根據很多語境和個人因素,每一種翻譯都可能有不同的判斷。第二,在現實場景中,對可能的翻譯空間的探索受到限制,在這種場景中,用戶判斷一個顯示的翻譯,但不能期望對另一個翻譯進行評分,更不用說對大量的備選翻譯進行評分。

本文證明了儘管人類反饋在本質上是模糊和片面的,但從人類強化學習成功的催化劑是反饋信號的可靠性。Bandit NMT在電子商務翻譯場景中的首次部署推測,由於缺乏用戶判斷的可靠性,當從148K個用戶那裡學習時,結果令人失望,因為大約有70K個產品標題翻譯獲得了5星級評分。因此,我們提出了這樣一個問題:如何以最可靠的方式收集人的反饋,以及可靠性在下游任務中將產生什麼影響。為了回答這些問題,我們測量了Bandit NMT的兩個反饋任務的注釋內和注釋間一致性,分別使用16個和14個人工評分者進行的800個翻譯的基數反饋(5分制)和順序反饋(成對偏好)。或許令人驚訝的是,雖然人們通常認為相對反饋更容易提供,但我們的調查表明,對於這兩項任務,內部和內部評分機構協議的α-可靠性是相似的,標準化5點評分的內部評分機構可靠性最高。

在下一步中,我們將討論人類reward的機器可學習性問題。我們使用深度學習模型,通過回歸和序數反饋擬合Bradley-Terry模型來訓練reward估計量。可學習性被理解為機器學習概念中可學習性的一種輕微誤用,它的問題是,對reward的估計能在多大程度上近似於人類的reward。我們的實驗表明,對於接受標準化基數reward訓練的回歸模型,與接受配對偏好訓練的Bradley-Terry模型相比,reward估計與人類參考的等級相關性更高。這強調了人的反饋信號的可靠性對從中學習到的reward估計質量的影響。

最後,我們研究了整個NMT任務的機器可學習性,Green等人提出了一個問題,即在後期編輯時如何調整一個MT系統。我們使用RL方法進行調優,在調優中,我們的工作與之前的RL在人類reward的關鍵區別在於,我們的RL場景不是互動式的,而是在離線日誌中收集reward。然後,RL可以通過使用記錄的單次人工reward進行離線學習,也可以通過使用估計的reward進行學習。然後,RL可以通過直接使用記錄的single-shot人類reward進行離線學習,或者使用估計的reward進行學習。估計reward的一個預期優勢是,首先解決一個簡單的問題——學習reward estimator而不是完整的RL任務來改進NMT——然後從離線RL的reward estimator中部署無限反饋。我們的結果表明,通過從估計的和記錄的人類reward中訓練NMT,可以實現顯著的改進,並且將基於回歸的reward estimator集成到RL中的效果最好。這就完成了高可靠性影響reward估計質量的論證,進而影響了整個NMT任務的質量。由於我們的訓練數據的大小在機器翻譯比例上很小,這一結果表明,從人的反饋來看,RL在更大規模的應用方面具有巨大的潛力。

人工MT評分任務

我們用一個通用域和一個適應域的NMT模型來翻譯TED語料庫的一個子集,然後對翻譯進行後處理(替換特殊字元,恢復大寫),並過濾出域外和域內的完全相同的翻譯。為了組成一個均勻的數據集,我們首先選擇長度為20到40的翻譯,然後根據字元n-gram F-score(chrF,β=3)和長度的差異對翻譯對進行排序,挑選出chrf差異最大,長度差異最小的前400對翻譯。這就產生了長度相似但質量不同的翻譯對。

這些對被視為800個獨立的翻譯,進行5點評分。從最初的400個翻譯對中,隨機選擇100對(或200個獨立翻譯)進行重複。這一共產生了1000個獨立的翻譯,其中600個發生一次,200個發生兩次。翻譯被分為五個部分,每部分200個翻譯,其中120個來自未重複的庫,80個來自重複的庫,確保每個部分不會出現一次以上的翻譯。對於成對的任務,從原來的400對翻譯對中重複同樣的100對。這總共產生了500對翻譯對。翻譯也被分為五個部分,每個部分有100個翻譯對,其中60個來自未重複庫的翻譯對,40個來自重複庫的翻譯對。每一組都沒有重複。

我們招募了14名參與者參與配對評分任務,16名參與者參與5點評分任務。參與者是具有流利或母語德語和英語能力的大學生。評分界面如下圖所示。

請注意,由於目標是為bandit學習模擬現實場景,因此沒有提供參考翻譯。

如下表所示,評分者間的可靠性指標在5點和成對任務之間存在細微差別。

5點任務(α=0.2308)的評分者間可靠性與配對任務(α=0.2385)的評分者間可靠性大致相同。然而,每名參與者的評分標準化(通過標準化到z分),顯示出5分任務(α=0.2820)的總體評分者間可靠性顯著提高。這些分數表明,無論參與者是否被要求提供cardinal或順序評分,人類評分之間的總體一致性大致相同。通過參與者級別的標準化提高了評分者的可靠性,這表明參與者可能確實對5點等級的某些區域存在個體偏見,標準化過程糾正了這種偏見。

在評分者內部的可靠性方面,配對任務(α=0.5085)的參與者與5點任務(α=0.4014)的參與者之間觀察到更好的平均值。這表明,平均而言,人工評分者在比較兩個翻譯與單獨對單個翻譯進行評分時,會提供更為一致的評分。然而,在當前樣本量下,5點和成對評分內部可靠性之間的Welch雙樣本t測試顯示兩個任務之間沒有顯著差異(t(26.92)=1.4362,p=0.1625)。因此,很難推斷一項任務在獲得更一致的響應方面是否明顯優於另一項任務。

接下來的分析基於兩個假設:第一,人工評分者的差異在於他們對翻譯質量的判斷不盡相同;第二,評分項目的差異在於某些翻譯可能比其他翻譯更難判斷。這允許通過消融分析來研究評估者差異和項目差異對評估者之間的可靠性的影響,在消融分析中,低質量的判斷和困難的翻譯被過濾掉。

下圖顯示了一個過濾過程,在分析過程中,α分數低於移動閾值的人被從分析中刪除。

當可靠性閾值從0增加到1時,測量整個評分者之間的可靠性。

下圖顯示了使用翻譯分數中的方差實現的類似過濾過程。

項目差異按從0到1的比例進行規格化,從1減去以生成項目差異閾值。

完成評分任務後,我們要求參與者主觀判斷難度,從1分(非常困難)到10分(非常容易)。他們還必須說明他們覺得困難的任務的哪些方面:對5分的評分來說,最大的挑戰似乎是對不同錯誤類型的權衡,以及對很少但有必要錯誤的長句子的評分。

比較不同評分者之間的高一致性和低一致性,可以得出關於客觀難度的結論。我們假設高評分者間一致性表示容易判斷,而低一致性表示難以判斷。

從MT評分中學習reward estimator

與用於標準NMT培訓的數以百萬計的句子相比,在合理的時間內直接從人類評分員處獲得的評分數量非常少。通過學習一個關於人類評分集合的reward estimator,我們試圖歸納出一些不可見的翻譯。

從cardinal反饋中學習。reward估計模型的輸入是源x及其翻譯y。給定這些輸入的cardinal判斷,對參數ψ的回歸模型進行訓練,使一組n個預測rewardr^和判斷r的均方誤差(MSE)最小化:

從配對偏好反饋中學習。當給出成對偏好而不是cardinal判斷時,Bradley-Terry 模型允許我們訓練r的估計量。

根據Christiano等人,令

為reward estimator對任意翻譯y1優先於任何其他翻譯y2的概率:

是黃金標準下,翻譯y1比翻譯y2更受歡迎的概率。例如,人工評分與參考翻譯比較:

對於模擬實驗——我們缺乏對偏好的真正監督,我們計算Q比較兩種翻譯的sBLEU分數,即翻譯偏好根據其在sBLEU中的差異進行建模:

我們為reward estimation選擇以下神經結構:輸入是填充的源和目標子詞嵌入,每個都用 biLSTM處理。它的優點是不需要任何特徵提取,但仍然在抽象層次上對n-gram特徵建模。

評估方法:reward estimation模型的質量通過測量Spearman的具有ter的ρ來測試的,該測試集由1314個翻譯組成,遵循SQE評估中的標準。超參數在另外的1200個TED翻譯中被調優。

結果:下表報告了對模擬和人類reward進行培訓的reward estimation的結果。

當從cardinalreward中訓練時,模擬分數模型的表現略好於人類評分模型。

MT中Direct和Estimated Rewards的強化學習

監督學習:最常見的是,在源序列和目標序列的平行語料庫上使用最大似然估計(MLE)對NMT模型進行訓練

從estimated或simulated direct rewards加強學習。在強化學習場景中部署NMT,目標是最大化對所有源和目標序列的rewardr的期望,從而實現以下強化目標:

rewardR可以來自reward estimation模型(estimated reward),也可以根據模擬設置(模擬direct reward)中的參考來計算。

Direct Rewards中的離線學習。當不能從學習系統中獲得樣本的reward,而是為靜態確定性系統(例如在生產環境中)收集時,我們處於離線學習場景中。挑戰是要改進機器翻譯系統,使其從reward翻譯的日誌

開始。遵循Lawrence等,我們定義了以下離線學習(opl)目標,以從記錄的獎勵中學習:

評估方法:對訓練後的BLEU、METEOR模型進行評估,使用MULTEVAL和BEER覆蓋一套不同的翻譯質量自動測量方法。我們用近似隨機法檢驗統計顯著性。

域外模型在WMT中用MLE訓練。下表比較了域外基線與以完全監督方式在TED上進一步培訓的域適應性模型。

模擬reward的RL結果。首先,我們通過將示例翻譯與使用GLEU表示RL的參考文獻進行比較,以及使用smooth的sBLEU表示估計reward和OPL,來模擬「完全的」和確定性的reward。下表列出了第2-5行中的模擬實驗結果。

總結

在這項工作中,我們試圖解釋cardinal反饋和ordinal反饋在NMT的RL訓練的可靠性、可學習性和有效性方面有何不同,目的是通過human bandit來改善NMT。我們的評分研究,通過比較5點評分和偏好評分,發現它們的可靠性是可以比較的,而cardinal評分更容易學習和歸納,也更適合本文實驗中的RL。

本文工作報告了NMT的改進,利用了RL的實際human bandit反饋。實驗表明,通過從一個比例很小的機器翻譯數據集學習,可以實現超過1個BLEU的改進。由於這種反饋與post-edits和references相比,從非專業人士那裡得到的更快速且廉價,因此我們的結果在未來大規模應用中具有巨大的潛力。

論文下載鏈接:

http://aclweb.org/anthology/P18-1165

留言 點贊 發個朋友圈

我們一起分享AI學習與發展的乾貨

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

數據科學淘金熱:如何獲取那些頂尖工作?
想提高預測精度?7步教你微調機器學習模型

TAG:讀芯術 |