當前位置:
首頁 > 科技 > 學界 | FAIR新一代無監督機器翻譯:模型更簡潔,性能更優

學界 | FAIR新一代無監督機器翻譯:模型更簡潔,性能更優


選自arXiv


作者:Guillaume Lample等

機器之心編譯


參與:張倩、路





近日,FAIR 研究人員提出兩種機器翻譯模型的變體,一種是神經模型,另一種是基於短語的模型。研究者結合了近期提出的兩種無監督方法,並簡化了結構和損失函數,得出的新模型性能更優,且易於訓練和調參。




論文:

Phrase-Based & Neural Unsupervised Machine Translation






論文鏈接:https://arxiv.org/pdf/1804.07755.pdf




摘要:

機器翻譯系統在某些語言上取得了接近人類水平的性能,但其有效性在很大程度上依賴大量雙語文本,這降低了機器翻譯系統在大多數語言對中的適用性。本研究探討了如何在只有大型單語語料庫的情況下進行機器翻譯。 這兩個模型都利用回譯自動生成平行語料,回譯藉助相反方向運行的反向模型和在目標語言端訓練的語言模型的去噪效果來實現。這些模型明顯優於文獻中的方法,同時更簡單、具有更少的超參數。在廣泛使用的 WMT"14 英法和 WMT"16 德英基準測試中,我們的模型在不使用平行語句的情況下分別獲得 27.1 和 23.6 的 BLEU 值,比當前最優技術高 11 個 BLEU 點。




機器翻譯(MT)是近年來自然語言處理領域成功的典範。其實際應用和作為序列轉導演算法測試平台的功能重新激發了人們對這一課題的興趣。



儘管最新進展表明,使用神經網路方法的幾種語言對的翻譯表現已經接近人類水平(Wu et al., 2016; Hassan et al., 2018),但其他研究也顯露出一些公開的難題(Koehn and Knowles, 2017; Isabelle et al., 2017; Sennrich, 2017)。現有學習演算法對大型平行語料庫的依賴就是其中之一。不幸的是,絕大多數語言對的平行語料很少:學習演算法需要更好地利用單語數據,以擴大 MT 的應用範圍。




大量文獻研究了在有限的監督下使用單語數據來提升翻譯性能的問題。這種有限的監督通常是以下形式:一小組平行句子(Sennrich et al., 2015a; Gulcehre et al., 2015; He et al., 2016; Gu et al., 2018; Wang et al., 2018)、使用其他相關語言的一大組平行句子(Firat et al., 2016; Johnson et al., 2016; Chen et al., 2017; Zheng et al., 2017)、雙語詞典(Klementiev et al., 2012; Irvine and Callison-Burch, 2014, 2016),或可比語料庫(Munteanu et al., 2004; Irvine and Callison-Burch, 2013)。




相比之下,最近研究者提出了兩種完全無監督的方法(Lample et al., 2018; Artetxe et al., 2018),僅依賴於每種語言的單語語料庫,如 Ravi 和 Knight(2011)的開創性研究。



雖然這兩項研究存在細微的技術差異,但我們發現了它們成功的幾個共同因素。首先,它們使用推斷的雙語詞典仔細完成模型的初始化。其次,它們利用強大的語言模型,通過訓練序列到序列的系統(Sutskever et al., 2014; Bahdanau et al., 2015)作為去噪自編碼器(Vincent et al., 2008)。第三,通過回譯自動生成句對,將無監督問題轉化為監督問題(Sennrich et al., 2015a)。回譯過程的關鍵是維護兩個模型,一個將源語翻譯成目標語,另一個則相反。前者生成數據,用於訓練後者,反之亦然。最後一個共同特性是,這些模型限制編碼器產生的、在兩種語言之間共享的潛在表徵。將這些片段放在一起,無論輸入語言是什麼,編碼器都會產生類似的表徵。解碼器既作為語言模型又作為雜訊輸入的翻譯器進行訓練,它學習與後向模型(從目標語到源語的操作)一起產生越來越好的譯文。這種迭代過程在完全無監督的環境中取得了良好的結果,例如,它在 WMT"14 英法基準測試中的 BLEU 值達到了~15。




本論文提出了一種將這兩種神經網路方法相結合的模型,在遵循上述原理的前提下,簡化了結構和損失函數。得到的模型優於以前的方法,並且更易於訓練和調整。然後,我們將相同的思路和方法應用到傳統的基於短語的統計機器翻譯(PBSMT)系統中(Koehn et al., 2003)。眾所周知,當標註數據稀缺時,PBSMT 模型的性能優於神經模型,因為它們僅計算出現次數,而神經模型通常擬合上億個參數來學習分散式表徵,這在數據豐富時可以更好地泛化,但在數據稀缺時容易過擬合。我們改進後的 PBSMT 模型簡單、易於解釋、訓練速度快,往往取得與 NMT 模型類似或更好的結果。我們的 NMT 模型在廣泛使用的基準測試中獲得了 BLEU 值增長約 10 個點的提升,PBSMT 模型獲得了 BLEU 值增長約 12 個點的提升。這顯著提升了無監督環境中的當前最優水平。





圖 1:無監督 MT 三原則的圖示。




A)兩個單語數據集。標記對應於句子(詳細信息請參見圖例)。B)原則一:初始化。比如,這兩個分布通過使用推斷的雙語詞典執行逐詞翻譯而大致對齊。C)原則二:語言建模。在每個域中獨立地學習語言模型,以推斷數據中的結構(下面的連續曲線);它在對句子進行去噪/糾正之前充當數據驅動(如圖所示,藉助彈簧將曲線外的句子拉回)。D)原則三:回譯。從觀察到的源語句(紅色實心圓)開始,我們使用當前的源語→目標語模型進行翻譯(虛線箭頭),從而產生可能不正確的翻譯(空心圓附近的藍色十字)。從這次(反向)翻譯開始,我們使用目標語→源語模型(連續箭頭)來重建初始語言中的句子。重建結果與初始語句的差異為訓練目標語→源語模型參數提供了誤差信號。在相反的方向上應用相同的步驟來訓練源語→目標語模型。





演算法 1:無監督機器翻譯





演算法 2:無監督 PBSMT





表 1:無監督短語表。一元分詞和二元分詞的法語到英語翻譯示例,以及它們相應的條件似然度 P(s|t) 和 P(s|t)。





圖 2:WMT"14 英法基準測試中有監督和無監督方法的對比,我們改變了有監督方法的平行句子數量。





本文為機器之心編譯,

轉載請聯繫本公眾號獲得授權



?------------------------------------------------


加入機器之心(全職記者/實習生):hr@jiqizhixin.com


投稿或尋求報道:editor@jiqizhixin.com


廣告&商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

人人都能用的深度學習:當前三大自動化深度學習平台簡介
簡述表徵句子的3種無監督深度學習方法

TAG:機器之心 |