翻譯們又要失業?Facebook最新無監督機器翻譯成果,BLEU提升10個點!
作者 | 琥珀
出品 | AI科技大本營(公眾號ID:rgznai100)
神經機器翻譯(NMT)關注的是通過 AI 在不同人類語言之間進行翻譯的過程。2015 年,蒙特利爾學習演算法研究所的研究人員開發出了一項新的演算法模型,最終讓機器給出了對應的翻譯。一夜之間,像谷歌翻譯這樣的翻譯軟體質量得到了大幅度提升。
儘管此次改進非常顯著,但它仍需要兩種語言的句子對,例如:「I like to eat」和「me gusta comer」分別為英語和法語中的「我想要吃」。對於從烏爾都語到英語等沒有句子對的語言翻譯而言,翻譯系統則顯得無能為力。從那時起,研究人員就開始構建無需句子對也能翻譯的系統,無監督神經機器翻譯(UNMT)就是其一。
去年 10 月末,來自西班牙聖塞巴斯蒂安巴斯克大學(UPV)和互聯網科技公司 Facebook 人工智慧研究院(FAIR)的兩支團隊,向2018ICLR分別遞交了各自的最新研究成果——無監督神經網路翻譯模型。
當時,兩篇論文共同表明,神經網路可以在沒有平行文本的情況下學習翻譯。
(鏈接:https://arxiv.org/abs/1710.11041;https://arxiv.org/abs/1711.00043)
這意味著該模型將突破原有的神經機器翻譯(NMT)需要足夠大的平行語料庫的限制,創造了一種可以使用單語語料庫進行訓練的翻譯模型,並克服了平行語料庫不足的問題。 從社會學的角度講,這將有助於我們翻譯一些語言已經丟失了的文字,或者讓機器去實時翻譯一些稀有語言,如斯瓦西里語和白俄羅斯語。
過去一年間,不斷有研究人員試圖通過無監督學慣用大量無標記數據訓練以進一步提高系統的翻譯能力。Facebook、紐約大學、巴斯克大學、索邦大學的研究團隊成果顯著,成功讓機器在不知道「house」的西班牙對應詞是「casa」的情況下翻譯出來。
近日,Facebook 人工智慧實驗室再次公布了有關無監督神經網路翻譯的最新模型,相當於用 10 萬個參考譯文訓練過的監督模型。「在機器翻譯領域,這是一個重大的發現,儘管世界上有超過 6500 種語言,但可利用的翻譯訓練資源池要麼不存在、要麼就是太小不足以運用在現有系統中。」
為了證明這一進步的價值,研究人員給出了以下陳述:「 1 個 BLEU 點(判斷機器翻譯準確度的常用指標)的進步被視為該領域一項了不起的成就。我們的方法相當於有 10 個 BLEU 點的進步。」 實際上,該項研究使得很多沒有平行文本的語言翻譯變得更為容易,如從烏爾都語到英語的翻譯。
▌研究原理
1、位元組對編碼:不像此前為系統提供完整單詞的方式,只給系統提供單詞的一部分。例如,單詞「hello」可拆分為四部分,分別是「he」「l」「l」「o」。這意味系統可以學習「he」的譯詞,儘管系統此前從來沒有見過該詞。
2、語言模型:訓練神經網路學習生成在語言中「聽起來不錯」的句子。例如,這個神經網路可能會將句子「您好嘛」改為「您好嗎」。
3、反向翻譯:這是神經網路學習向後翻譯的另一個技巧。例如,如果想將西班牙語翻譯稱英語,就需要先教會神經網路從英語翻譯成西班牙語,然後用它來生成合成數據,從而增加已有的數據量。
▌逐字翻譯
讓系統學習雙語詞典,將一個單詞與其他語言的合理翻譯聯繫起來,即系統學習每種語言中的單詞嵌入。
訓練嵌入詞以預測跟給定上下文中單詞近似的單詞,可以發現很多有趣的語義結構。例如,「kitty」的近義詞是「cat」,而「kitty」的嵌入詞與「animal」相近,卻與「rocket」相差很遠。
此外,不同語言的嵌入詞有相似的領域結構,這在於世界各地的人都擁有相同的物理環境。例如,英語中的單詞「cat」和「furry」之間的關係類似於它們在西班牙語中的相應翻譯(「gato」和「peludo」),因為這些單詞的頻率和其上下文是相似的。
鑒於這些相似之處,研究人員建議使用對抗訓練,以推導出一個相當準確的雙語詞典,無需訪問任何平行文本,便可實現逐字翻譯。
▌句子修正
不過,研究人員還是建議無監督的方式進行逐字翻譯,也有可能造成單詞丟失,或無序甚至是錯誤。所以,接下來,需要在已知大量單詞數據的基礎上進行編輯,對不流暢或不符合語法結構的句子進行修正。
另外,研究人員還給出以下兩種方法,一個是基於神經網路的系統(NMT),一個是基於短語的系統(PBSMT)。雖然任何一種方法都可以提高翻譯質量,但二者並用將產生更新的顯著效果。
據了解,PBSMT(Facebook統計機器翻譯)是 FAIR 此前的研究成果。該系統學習每種語言中短語的概率分布,並教會另一個系統旋轉第二組的數據點以匹配第一組的數據點。
以一個比較形象的方式展示:假設有兩個圖像,一個是杯子與蓋子彼此相鄰,另一個是蓋子在杯子上。該系統將學習如何在沒有蓋子的情況下,在圖像周圍移動像素以生成有蓋子的圖像。
目前,Facebook 人工智慧實驗室將免費開放代碼,方便開發者獲取搭建系統。
▌寫在最後
要知道,多數現有的 AI 模型是通過「監督學習」訓練而成的,這也意味著必須耗費大量的人力對樣本數據進行標記與分類。儘管強化學習與生成式對抗網路的出現從一定程度上解決了這一問題,但數據標記仍是目前阻礙 AI 系統發展的最大障礙。
參考鏈接:
https://code.fb.com/ai-research/unsupervised-machine-translation-a-novel-approach-to-provide-fast-accurate-translations-for-more-languages/
——完——
AI科技大本營在線公開課第15期
機器學習專場
時間:9月6日 20:00-21:00
形式:線上直播+社群答疑
邀你加入課程交流群,即有機會獲得定製T恤或者技術書籍


※如此精心整理的深度學習資源只在這裡,值得你擁有!
※AI潰敗,Dota2人機大戰首場終結;阿里公布第一財季財報,凈利76.50億元
TAG:AI科技大本營 |