谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的

科技 06-07

據國外媒體報道，谷歌表示，它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。在一篇即將正式發表的博客文章中，該公司詳細介紹了助力提升谷歌翻譯（Google Translate）所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。

谷歌翻譯服務平均每天翻譯1500億個單詞。

自谷歌翻譯首次亮相以來的13年里，神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進，助力該平台的翻譯準確性取得不小的飛躍。但直到近年，即便是最先進的翻譯支持演算法也一直落後於人類的表現。谷歌以外的努力充分說明了這個問題的嚴重性——旨在使得非洲大陸的數千種語言可自動翻譯的Masakhane項目，至今還沒有走出數據收集和轉錄階段。Mozilla致力於建立一個開源的語音轉錄數據收集平台Common Voice，自2017年6月推出以來也只審查了40種語音。

谷歌稱，它在翻譯領域所取得的突破並不是由單一技術驅動的，而是針對低資源語言、高資源語言、總體質量、延遲和整體推理速度的多項技術共同作用產生的。在2019年5月到2020年5月之間，根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準)，谷歌翻譯在所有語言中平均提高了5分以上，在50種語料資源最少的語言中平均提高了7分以上。

混合模型和數據挖掘器

這些技術中的第一個是轉換模型架構——一種混合架構，包括一個Transformer編碼器和一個用Lingvo實現的遞歸神經網路(RNN)解碼器，後者是一個用於序列建模的TensorFlow框架。

在機器翻譯中，編碼器通常將單詞和短語編碼為內部表示形式，然後由解碼器生成目標語言的文本。基於Transformer的模型是谷歌研究人員在2017年首次提出的，在這一點上它比RNN更有效，但谷歌表示，它的研究表明，翻譯質量的提高主要來自Transformer的一個部件:編碼器。這可能是因為雖然RNN和Transformer都是為處理有序的數據序列而設計的，但後者並不要求按順序處理數據序列。換句話說，如果涉及的數據是自然語言，Transformer不必先處理好句子的開頭才處理句子的結尾。

然而，RNN解碼器在推理時間上仍然比Transformer中的解碼器要「快得多」。谷歌翻譯團隊認識到這一點，於是在將RNN解碼器與Transformer編碼器耦合之前，對RNN解碼器進行了優化，以創建低延遲、質量及穩定性均比此前所使用的RNN神經機器翻譯模型更勝一籌的混合模型。原來使用的RNN神經機器翻譯模型已有4年歷史。

2006 年上線不久以來，谷歌翻譯模型各種語言的 BLEU 得分提升趨勢

除了打造新穎的混合模型架構之外，谷歌還升級了一個有幾十年歷史的爬蟲程序。該程序用來從文章、書籍、文檔和網路搜索結果等內容中的數百萬條示例翻譯中編製訓練語料。該新數據挖掘器基於支持14個語言對的嵌入模式，而非基於詞典模式，也就是說它是使用實數向量來表示單詞和短語,更多地聚焦於精確性(檢索數據中的相關數據部分)，而非檢索（實際檢索的相關數據總量）。產出效果方面，谷歌說這使得該數據挖掘器提取到的句子數量平均增加了29%。

雜訊數據和遷移學習

翻譯性能提升的另一來源是一種建模方法，它能更好地處理訓練數據中的雜訊。據觀察，雜訊數據(含有大量無法正確理解或解釋的信息的數據)會損害語料數據豐富的語言的翻譯質量。所以，谷歌翻譯團隊部署系統來給使用雜訊數據訓練的模型的示例打分，進而篩選出「純凈」的數據。實際上，這些模型一開始基於所有的數據進行訓練，然後逐漸基於更小、更純凈的數據子集進行訓練，這種方法在人工智慧研究領域被稱為課程學習。

對於資源較少的語言，谷歌在谷歌翻譯中採用了一個回譯機制，來強化並行訓練數據，即語言中的每個句子都與其譯文相配對。(機器翻譯傳統上依賴於源語言和目標語言成對句子的語料庫的統計。)在該機制中，訓練數據與合成的並行數據自動對齊，目標文本為自然語言，而源文本則由神經翻譯模型生成。結果是，谷歌翻譯充分利用更豐富的單語文本數據來訓練模型，谷歌稱這對提高翻譯流暢性特別有幫助。

谷歌地圖自帶的翻譯功能

谷歌翻譯現在還採用M4建模方法，即用一個單一的巨型模型——M4——來在多種語言和英語之間進行翻譯。(M4最初是在去年的一篇論文中提出的，該論文證明，在基於來自100多種語言的250億對句子進行訓練後，M4提高了30多種低資源語言的翻譯質量。)M4建模讓谷歌翻譯中的遷移學習成為可能，因此，通過基於法語、德語、西班牙語等高資源語言?(它們有數十億條並行示例語料)的訓練獲得的見解，可以應用於低資源語言的翻譯，如約魯巴語、信德語和夏威夷語(它們只有數萬條示例)。

展望未來

谷歌稱，自2010年以來，按照BLEU標準（滿分100分，谷歌翻譯水平每年至少提高1分，但自動化機器翻譯的問題並沒有得到解決。谷歌承認，即使是它的增強模型，也會出現各種錯誤，如合併一種語言的不同方言，產生明顯的字面翻譯，以及在特定主題內容和非正式語言或口語上表現糟糕等等。

這家科技巨頭正想方設法來解決這一挑戰，包括藉助它的谷歌翻譯社區。該遊戲化項目招募志願者來翻譯單詞和短語或者檢查翻譯是否正確，藉助他們來提高低資源語言的翻譯質量。就在今年2月，結合新興的機器學習技術，該項目為谷歌翻譯增加了對總共7500萬人使用的五種語言的支持，包括基尼亞盧安達語、奧里雅語、韃靼語、土庫曼語和維吾爾語。

谷歌並不是唯一一家追求真正通用的翻譯工具的公司。2018年8月，Facebook公布了一種人工智慧模型，該模型結合使用逐字翻譯、語言模型和回譯來超越語言配對系統。最近，麻省理工學院計算機科學和人工智慧實驗室的研究人員也提出了一種無監督學習模型——一種從沒有明確標記或分類的測試數據中學習的模型——它可以在沒有直接的雙語翻譯數據的情況下在兩種語言的文本之間進行翻譯。

谷歌在一份聲明中表示，它「非常感謝」學術界和產業界在機器翻譯領域的研究成果，其中一些研究為谷歌自身的項目帶來了啟發。?「通過結合利用和拓展近期的各種技術進步，我們完成了谷歌翻譯最近的改進。」?該公司說，「經過此次升級，我們很自豪能夠提供相對連貫的自動翻譯，哪怕是所支持的108種語言中語料資源最少的一種語言。」（樂邦）

【來源：網易科技報道】

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 太平洋電腦網 的精彩文章:

※Firefox Reality首個正式版上架：支持HoloLens 2
※順豐無人機亮相：超流線造型能飛120公里