媲美人類有何不可？深度解讀微軟新 AI 翻譯系統四大秘技

新聞 03-16

雷鋒網 AI 科技評論按：3 月 15 日的文章《機器翻譯新突破，微軟中英新聞翻譯達人類水平》中，我們介紹了微軟亞洲研究院與雷德蒙研究院共同研發的新的機器翻譯系統，微軟稱它在 newstest2017 的中-英測試集上達到了與人工翻譯媲美的水平。

這則消息不僅引起了我們的好奇，讓我們的編輯記者們感嘆「人工智慧這麼快就又下一城」，同時也引起了一些讀者的疑問。畢竟，我們時常見到新模型在公開測試中刷榜，能夠和人類拿到同樣的分數，但不一定換一個數據集就還能和人類媲美，尤其是對於靈活多變的人類語言而言；另一面，谷歌、搜狗、百度等互聯網巨頭都有自己神經網路翻譯系統，大家都或多或少體驗過，即便最新的模型都普遍使用了注意力機制，但翻譯質量不盡如人意的地方仍時常出現，繼續做出大跨步式的突破又談何容易呢？

微軟官方博客中提到，新的翻譯系統中用到了四大技術：對偶學習、聯合訓練、推敲網路和一致性正則化，對應的論文也已經公開。雷鋒網 AI 科技評論下面根據論文，結合以往的相關研究詳細講講用在新翻譯系統中的這四大技術到底是怎麼回事，品味品味當這四項技術同時使用的時候，能夠達到人類水準到底能不能算是「合情合理」。文末我們也會貼出一些微軟提供的中文到英文翻譯結果，不知道能否徹底打消可能的疑惑。

一，對偶學習 Dual Learning

深度學習模型的訓練需要大量數據，這不僅是領域內的常識，也是限制在更多場景下使用深度學習的一大障礙。對偶學習的提出就主要是為了減少對數據的依賴。相比標籤傳播（Label Propagation）、多任務學習（Multi-task Learning）、遷移學習（Transfer Learning）這樣利用數據相似性的解決方法，對偶學習（Dual Learning）利用的是 AI 任務中自然出現的對稱性。比如：

機器翻譯，有英翻中和中翻英的對稱；
語音處理，需要語音轉文字（語音識別），也有文本轉語音（語音合成）的任務；
圖像理解，圖像描述（image captioning）與圖像生成（image generation）是一個對稱的過程；
對話任務，問題回答（Question answering）與問題生成（Question generation）；

按照傳統的監督學習範式，這些對稱的任務都需要分別訓練，每個方向都需要大量有標籤數據。那麼考慮到任務的對稱性，如果一個英文句子被翻譯成英文，再從中文翻譯成英文，還能跟一開始的句子非常相近的話，就可以認為「英翻中」和「中翻英」兩個翻譯器都表現很好。這也符合人們的常識。

微軟亞研主管研究員秦濤博士就曾帶領團隊分別在 NIPS 2016 和 ICML 2017 發表「對偶學習」（https://arxiv.org/abs/1611.00179）和「對偶監督學習」（https://arxiv.org/abs/1707.00415）兩篇論文，介紹了對偶學習在無監督學習和監督學習兩種模式下的形式及表現。雷鋒網硬創公開課也曾邀請到秦濤博士給大家做了前一篇 NIPS 論文的詳細分享。

對偶學習

媲美人類有何不可？深度解讀微軟新 AI 翻譯系統四大秘技

NIPS 2016 對偶學習論文的範式示意圖

如圖，對於對偶學習，主任務 f 把無標註英文句子 x 翻譯為中文 y，對偶任務 g 把中文 y 翻譯回英文 x"。模型從過程中得到兩個反饋，一個部分反饋是來自懂中文的智能體，評價中文 y 的翻譯質量如何；另一個反饋是來自懂英文的智能體，比較 x 和 x" 獲得反饋。這樣，一個流程結束以後，模型就可以獲得完整反饋。

有了反饋，就可以把強化學習的一些方法直接用於訓練更新模型 f 和 g 。論文中所用的方法為策略梯度 policy gradient，增加主任務 f 和對偶任務 g 中好的行為出現的概率，降低不好的行為出現的概率。另一方面，由於只有單一輸入，由兩個智能體自己產生反饋，不需要把翻譯結果與輸入對應的標籤對比，所以這是一種無監督學習方法。

學習效果上，在使用了1200萬個雙語標註句的英法翻譯實驗中，相比於 2016 年時效果最好的基於深度神經網路的機器翻譯演算法（NMT），對偶學習只需要其中 10% 的雙語數據就可以達到 NMT 採用了全部數據進行訓練的準確度。訓練所需數據量可以減少 90%，很好地達成了預期效果。

根據秦濤博士介紹，對偶學習有一個問題是很難冷啟動，即需要先對主任務和對偶任務的兩個智能體進行一定的訓練後才能夠利用對偶學習進行聯合反饋訓練，否則模型收斂會很慢。

對偶監督學習

媲美人類有何不可？深度解讀微軟新 AI 翻譯系統四大秘技

ICML 2017 對偶監督學習論文的範式示意圖

仍以翻譯任務為例，在監督學習中，當知道主任務 f 應該得到的正確翻譯為 y 之後，就可以用最大似然準則更新 f，使 y 出現的概率越大越好。

對於對偶監督學習，需要主任務 f 和對偶任務 g 各自都能出現正確翻譯 y 與 x，這樣就會存在一個聯合概率 P( x,y )。如果 f 與 g 的更新是同步的，通過 f 和 g 都可以單獨計算出這個聯合概率。但如果 f 和 g 是根據監督學習分開訓練的，就不能保證單獨計算出的聯合概率相同。

為了解決這個問題，論文中在 f 、g 兩個任務分別的損失函數基礎上，為對偶監督學習增加了一項正則化項，它的含義是將「f 得到正確結果 y」和「g 得到正確結果 x」兩個概率的差值最小化，從而通過結構的對稱性加強了監督學習過程，讓兩個互為對稱的任務共同進行學習。（上圖中間的式子）這與 SVM 正則化項的區別在於，SVM 的正則化項與模型有關，與數據無關；但對偶監督學習中討論的正則化項還與數據相關。由於具有了這樣的正則化項，每個訓練數據都能夠參與到正則化項中，而且主任務、對偶任務的兩個模型可以互相影響。

根據論文中的測試，對偶監督學習模型在機器翻譯、圖像分類、句子情感分析三對任務中都取得了明顯的提高。尤為讓人印象深刻的是句子情感分析這一對任務：判斷一個句子是正面還是負面情感，或者根據給定的正面/負面情感反向生成句子，任務中的信息損失非常嚴重，只留下了 1bit 的信息而已。測試結果中情感分析的錯誤率僅從基準模型的 10.1% 下降到對偶監督學習模型的 9.2%，作者們認為就和信息損失嚴重有關。

不過到了反向生成句子的時候，對偶監督學習模型展現出了強大的表現力，對簡單短句的使用變少了，並且選用的單詞、詞語、句式表達出的情感更強烈、更具體。如下圖

媲美人類有何不可？深度解讀微軟新 AI 翻譯系統四大秘技

在這次新的機器翻譯系統中，基於單語語言語料的對偶學習和基於雙語語料的對偶監督學習都有使用，提升了語料的訓練成效。

二，聯合訓練 Joint Training

即便有了對偶學習這樣的可以提高數據利用效率的方法，高質量的雙語訓練數據畢竟還是越多越好 —— 而實際上這樣的數據沒有那麼多。所以論文中還引入了聯合訓練，讓中到英和英到中的兩個互譯模型生成新的數據，並把新生成的數據也當作訓練數據，迭代進行訓練。

媲美人類有何不可？深度解讀微軟新 AI 翻譯系統四大秘技

具體做法如圖所示，對於現有的雙語語料庫 D 中的語句對（X，Y），用預訓練過的一對翻譯器把 X 翻譯為 Y"、把 Y 翻譯成 X"，構成新的語句對（X"，Y"）。在每輪迭代中，新生成的語句對會添加到現有的雙語訓練數據中，繼續訓練兩個方向的兩個模型；經過訓練的模型會再一次翻譯出新的（X"，Y"），作為新的訓練數據。同時也設計了半監督的訓練損失，同時包含了兩個方向模型的表現，以便能讓一個模型的進步顯式地幫助另一個模型的表現提高。

為了保證新生成的、即將用於下一輪訓練的生成語句對的質量，生成的語句也要挑選出最好的一部分，而且選出的語句要經過神經網路翻譯模型的翻譯概率權重評分，以便最大程度減小不好的翻譯語句帶來的負面影響。那麼，在一輪輪的迭代過程中，兩個方向的翻譯語句質量會越來越高、模型也被訓練得更好，這樣的迭代訓練過程會進行到表現不能繼續提高為止。

三，推敲網路 Deliberation Networks

除了訓練數據帶來的限制之外，當前的神經網路翻譯系統普遍還存在曝光偏倚（exposure bias）的問題。即，在輸出結果的序列式生成過程中，早期出現的錯誤會在後來得到增強，誤導序列生成結果。推敲網路就是解決這個問題的第一招。

推敲網路設計

以往的翻譯模型都把輸入句子作為一個序列輸入，然後同樣把翻譯結果作為一個序列一次性輸出。乍看之下不出錯的話也沒什麼不妥，但是相比之下人類寫作時經常會對用詞反覆推敲，甚至寫完一整段話、一整篇後再從頭調整修改一遍，文本的質量也得以繼續提高。在「生成後再修改」的想法下，中國科大-微軟博士聯合培養班的夏應策作為一作在 NIPS 2017 發表了論文《Deliberation Networks: Sequence Generation Beyond One-Pass Decoding》，也在雷鋒網 GAIR 大講堂的線上公開課上詳細分享了推敲網路的細節。

媲美人類有何不可？深度解讀微軟新 AI 翻譯系統四大秘技

推敲網路的做法梗概是，它在編碼器之後使用了如上圖所示的兩階段解碼器，第一段解碼器把來自編碼器的源語句嵌入直白地解碼成目標語言的草稿語句，然後第二階段的解碼器再次對剛才的草稿句子進行調整美化。

媲美人類有何不可？深度解讀微軟新 AI 翻譯系統四大秘技

具體來講，模型架構是在 Transformer 網路架構上增加一個推敲網路。與標準的 Transformer 網路相同，編碼器 ε 和第一階段的解碼器 D₁都是多層神經網路，以注意力機制連接起來。在這裡，編碼器 ε 會基於原始詞嵌入和來自詞之間順序的上下文信息為源句的每個詞 T_s生成詞表徵，這些表徵組成序列 H。編碼器 ε 讀取句子 x 後就可以通過自我注意力輸出帶有隱含狀態的序列 H。

第一階段的解碼器 D₁把 H 作為輸入，執行第一階段的解碼，得到 softmax 前的隱含狀態 S^ 以及草稿句子 y^。第二階段的解碼器 D₂也是多層神經網路，但和 D₁有很大不同，它會把來自編碼器 ε 和解碼器 D₁的隱含狀態都作為自己的輸入。由於 D₂有來自 D₁解碼出的隱含狀態，所以 D2 的輸出是依賴於 D₁生成的草稿句子 y^ 的。這樣的做法可以從源語句中獲得全局信息，在生成句子時也就有正確的上下文語境信息供使用。

推敲網路和對偶學習的聯合使用

對於兩種技術如何結合，微軟的研究人員們首先通過無監督及監督對偶學習訓練中到英和英到中兩個 Transformer 翻譯模型。然後把英語語料句子 y 通過英到中翻譯模型翻譯為中文句子 x"，並把 ( x"，y ) 這個句對作為偽雙語語料，把它加入現有的雙語語料庫中。擴大後的語料庫就可以用來訓練上文描述的構建於 Transformer 之上的推敲網路。解碼器和第一階段編碼器是使用第一步中訓練出的中到英翻譯模型初始化的。

四，一致性正則化 Agreement Regularization

一致性正則化是防止曝光偏倚出現的另一個手段。研究員們發現，翻譯順序是從左往右的模型如果生成的句子里詞的後綴使用得不好，那麼用從右往左的模型預測這個譯出的句子時，由於不好的後綴先被輸入進編碼器，它會導致隱含狀態的破壞，得到的翻譯結果也會較差。也就是說，好的翻譯模型，不僅從左往右順序翻譯得好，它還能對應一個從右往左翻譯也能得到好結果的模型。

媲美人類有何不可？深度解讀微軟新 AI 翻譯系統四大秘技

在此處的損失設計中，從左往右翻譯的模型的損失包括：第一項，最大化這個模型自己的雙語語料翻譯的對數似然；第二項，對應的從右往左翻譯的模型要生成一個「偽語料」作為中間過程的值，這個偽語料的對數自然也需要最大化；第三項，對比從左往右和從右往左兩個模型翻譯的句子，如果不一致則有懲罰。在這裡，從右往左的模型不是最終需要的模型，但是它也參與訓練，作為輔助系統生成偽語料，參與第二項和第三項損失的計算。

和前面的聯合訓練類似，由於損失項中同時含有兩個模型的表現，其中一個模型的表現進步也可以顯示地影響另一個模型，也就可以迭代更新進步，如上圖所示。

實際上，中譯英和英譯中兩個語言方向的模型，都可以分為從左往右和從右往左兩個輸入順序的模型。這就一共有了四個模型，然後這四個模型可以依據一個統一訓練框架，一同聯合訓練。訓練過程中首先由從左往右的英到中模型生成中間過程偽語料，在一致性正則化的幫助下用來訓練從左往右和從右往左兩個中到英模型；接下來，已經經過訓練增強的從左往右的中到英模型就會再生成一個偽語料用於訓練從左往右和從右往左兩個英到中模型。這四個模型互相促進、迭代訓練，直到最終收斂。

例句嘗鮮

對偶學習、聯合訓練、推敲網路和一致性正則化四項技術介紹完了，都是一些符合常識的改進，我們上一篇報道中的測試數據也已經展現出了可見的改進。

實際上在測試中，研究員們依據對偶學習+推敲網路、一致性正則化+聯合訓練、WMT 數據集+更多額外數據等選擇，配置了許多種不同的系統，一面通過測試驗證了各個改進項目的實際效果，另一面也可以把多個系統的不同結果做綜合，得到更好的翻譯結果。實際上，論文中聲稱達到人類翻譯水平、BLEU 分數也超過 28 分的結果，就是由包含了 6 到 8 個模型結果的綜合模型得到的，最高的一個綜合模型有 28.46 分。（作為參考，拿下 WMT 2017 比賽最好結果的搜狗翻譯為 26.40 分，論文中的各種單個系統都沒有超過 28 分）

根據微軟官方博客介紹，這個翻譯系統的中到英翻譯體驗頁面已經在 https://translator.microsoft.com/neural/上線了，由單個系統提供翻譯，這個系統的 BLEU 分數為 27.60分。頁面上同時也直接提供了一些來自微軟測試所用的 WMT 2017 newstest 數據集的中文新聞語料供參考。平心而論，這些中文語句還真的不那麼簡單，有相當的挑戰性；也可以自己輸入句子嘗試。另外頁面上也提供了兩種不同的翻譯供感受。

下面我們摘錄三個來自測試集的中文語料，以及兩條有難度的其它測試語句，感受一下翻譯質量。而且要記得，這還並不是新的翻譯系統（綜合模型）的全部實力哦。

海口海事法院凌晨立案確保臨高漁船沉沒事件當事人權益

The early morning of Haikou Maritime Court to ensure the interests of the Lingao fishing boat sinking event

Haikou maritime court filed a case in the early morning to ensure the rights and interests of the parties involved in the sinking of the Lingao fishing boat

人道主義團體卻對法院表示這些商店和餐館極為重要，因為國家支持的協會及其他團體所提供的免費食物根本無法滿足該難民營不斷增長的難民的需求。

The humanitarian community has told the court that these shops and restaurants are extremely important, as free food provided by state-sponsored associations and other groups cannot meet the growing needs of refugees in the refugee camp.

Humanitarian groups, however, told the court that the shops and restaurants were extremely important because the free food provided by State-sponsored associations and other groups simply could not meet the growing needs of the refugees in the camp.

據媒體披露，由於此前資本大規模湧入互聯網醫藥，造成目前產品同質化的問題嚴重，投資熱潮漸退，資本進入觀望期。

According to media disclosure, due to the previous massive influx of capital into the Internet medicine, resulting in the current serious problem of product homogenization, investment boom gradually receded, capital into the wait-and-see period.

According to media disclosure, due to the massive influx of capital before the Internet medicine, resulting in the current problem of homogenization of products, investment boom is receding, the capital into the wait-and-see period.

寶寶的經紀人睡了寶寶的寶寶，現在寶寶不知道寶寶的寶寶是不是寶寶親生的寶寶

The baby"s agent slept with the baby"s baby and now the baby doesn"t know if the baby"s baby is the baby"s biological baby

Baby"s agent Sleeps baby"s baby, now baby doesn"t know baby"s baby is not baby"s baby

走廊燈關上，書包放，走到房間窗外望，回想剛買的書，一本名叫半島鐵盒

Corridor lights off, school bags put, went to look out the window of the room, recalled just bought a book, called the Peninsula Iron Box

The corridor light closes, the bag puts, walks to the room window looks, recalls just bought the book, a name Peninsula iron box

對於頁面一次給出兩種翻譯，並且希望用戶選出其中更滿意的一個，我們認為微軟還在嘗試用更多語料以及加上更多人閱讀的直觀反饋，繼續改進這個翻譯系統。其它值得期待的改進點還包括語料較少的領域的雙語翻譯、系統的運行速度、如何把多個子系統融合成表現相當的一整個模型等。

以及我們也希望微軟可以早日開放英文到中文的翻譯體驗，在測試階段供大家更多感受新翻譯系統的魅力。要是能成為生產級別的翻譯系統正式開放，那就最好了。

翻譯系統測試地址：https://translator.microsoft.com/neural/

論文地址：https://www.microsoft.com/en-us/research/uploads/prod/2018/03/final-achieving-human.pdf。雷鋒網 AI 科技評論報道

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※自動駕駛防暈車專利大比拼：有高科技范兒的，也有接地氣的
※英國央行行長：加密貨幣是「失敗」的，官方數字貨幣近期無法實現

TAG:雷鋒網 |