當前位置:
首頁 > 新聞 > 「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

新智元報道

「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

「從事翻譯的人很可能會看到一些工作機會在不斷消失,他們必須要習慣一種『創業思維』。」

5月27日,中國圍棋大師柯潔在與AlphaGo的圍棋對決中輸掉最後一盤,0:3輸掉全部比賽。當下,AI 所激起的驚慌不僅在圍棋界蔓延,而且擴展到了幾乎每一個領域,翻譯受到的衝擊尤為嚴重。現在,谷歌等公司向全世界提供免費的翻譯服務,並且,已經可以提供「可理解」的翻譯結果。

牛津大學最近完成了一項對機器學習研究人員的大型調查,調查內容是他們對 AI 進展的看法。綜合這些研究人員的預測,未來10年,AI 將在許多活動中表現超過人類,例如翻譯語言(到2024年),具體預測見下表:

「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

近年來,深度學習對翻譯的最大影響,來自基於神經系統的機器翻譯(NMT),這一技術將機器翻譯的準確率大大提升。

谷歌2016年推出可商業部署的神經系統機器翻譯,準確率達86%

在十年前推出時,谷歌翻譯採用的是基於片語的機器翻譯(PBMT),幾年前,谷歌大腦團隊開始使用循環神經網路(RNN),直接學習輸入序列到輸出序列之間的映射。基於片語的機器翻譯(PBMT)是將句子拆分成字詞後單獨翻譯,而神經網路機器翻譯(NMT)則將輸入視為一個整體進行翻譯。這樣做的好處是翻譯時需要進行的調整少了很多。

當神經網路機器翻譯技術剛剛出現時,就在中等規模的公共數據集上取得了與 PBMT 不相上下的成績。自那時起,從事機器翻譯研究的人提出了很多種方法改善 NMT,包括使用注意力將輸入和輸出對齊,將單詞拆分成更小的單元或模仿外部對齊模型應對生僻字詞。儘管如此,NMT 的表現仍是不足以成為產品被大規模部署。

「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

下面的動圖展示了 GNMT 進行漢英翻譯的過程。首先,網路將漢字(輸入)編碼成一串向量,每個向量代表了當前讀到它那裡的意思(即 e3 代表「知識就是」,e5 代表「知識就是力量」)。整句話讀完之後開始解碼,每次生成一個作為輸出的英語單詞(解碼器)。

「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

要每一步生成一個翻譯好的英語單詞,解碼器需要注意被編碼中文向量的加權分布中,與生成英語單詞關係最為密切的那個(上圖中解碼器 d 上面多條透明藍線中顏色最深的那條),解碼器關注越多,藍色越深。

使用人類對比評分指標,GNMT 系統生成的翻譯相比此前有了大幅提高。在幾種重要語言中,GNMT 將翻譯錯誤降低了 55%-58%。

「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

此外,谷歌大腦團隊還宣布 GNMT 漢英英漢試用版上線。現在,谷歌翻譯漢英語言的移動版和網頁版都率先使用 GNMT,每天負責 1800萬次翻譯任務。

谷歌大腦團隊表示,GNMT 的上線得益於 TensorFlow和深度學習專用加速器張量處理單元(TPU),尤其是後者,提供了足夠的計算能力來部署這些功能強大的 GNMT 系統,同時滿足谷歌產品嚴格的延遲要求。谷歌大腦團隊表示,今後的幾個月里將持續推出更多的語種服務用戶。

機器翻譯的挑戰仍然存在。GNMT 還是可能會犯一些人類絕對不會犯的錯,比如漏譯、誤譯專有名詞或罕見詞,翻譯時沒有考慮到整段話乃至全文的意思。總之,GNMT 有待改善的地方還有很多,但無論如何,GNMT 都代表了一座重大的里程碑。他們感謝過去幾年中谷歌內外以各種形式參與這項工作的研究人員和工程師。

「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

谷歌最新技術在將英語翻譯為西班牙語時,最高將準確率提高到 87%

現在谷歌翻譯在中國已經可以使用,這被認為是谷歌計劃回歸中國的前哨。

谷歌成為「被超越者」,巨頭紛爭促進商業化

看到機器翻譯巨大價值的絕非只有谷歌,中國的百度、華為、阿里和騰訊都有研究,Facebook 和微軟等巨頭也沒有落後。這一種競爭態勢,將會最大程度地推進機器翻譯的商業化部署,進而變得對更多的人「可用」。

1. 百度:比谷歌早一年,口譯領先

12月21日,百度舉行機器翻譯技術開放日。負責人吳華博士說,谷歌翻譯在基於統計的機器翻譯上做得很好,處於領先地位,但是在基於神經網路的機器翻譯上,百度走在了前面。並且,谷歌翻譯是以英語為中心的,百度翻譯的中心是中文。另外,在語音的翻譯上,百度要領先一些。

在接受新智元的專訪時,她說:「谷歌翻譯是處在一個領先地位的,但我們的優勢在於,在基於神經網路的技術上,我們是有點領先的。谷歌翻譯發新聞通稿,裡面也引用了我們很多之前發表的一些文章,這個大家如果關注的話可以查到。在神經網路這條線上我們是走在前面的,雖然他們在統計翻譯里還是走在前面的。」

她還補充道:「在線上的翻譯系統里,我們在口語翻譯上實際上是明顯超越谷歌的,這一點大家可以隨便去試試看看。」

2. 華為:與谷歌翻譯持平,提高譯文重視度

華為諾亞方舟實驗室在他們一篇被 AAAI 2017 錄用的論文里提出了一個新的神經機器翻譯(NMT)模型,引入基於重構的忠實度指標,結果顯示該模型確實有效提高了機器翻譯的表現。華為諾亞方舟實驗室的研究人員表示,他們的 NMT 技術與谷歌持平。

「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

3. Facebook 使用CNN技術而非傳統的RNN,翻譯速度比谷歌快9倍

Facebook今天發布了一項新的機器翻譯技術,使用CNN技術而非傳統的RNN,在翻譯準確度超越了此前被認為是2016年10大AI突破技術的谷歌機器翻譯,並且翻譯速度上快了9倍。Facebook稱,創下新的世界紀錄。目前,這一技術已經開源。

Facebook 在官方博客中稱,他們的技術在機器翻譯峰會(WMT)所提供的公共基準數據集上,相比RNNs2,取得了新的最高水準。特別是,基於CNN 的模型準確度也超越了被用於評判機器翻譯準確度的業界廣泛認可的數據集WMT2014 英語-法語翻譯任務中的歷史記錄 1.5 BLEU。在WMT 2014 英語-德語的翻譯中,提升是0.4 BLEU,WMT 2016英語-羅馬尼亞語,提升到1.8BLEU。

基於神經網路的機器翻譯技術要用於實踐,其中的一個考慮的要素是,在我們把一句話輸入系統以後,需要花多長時間,才能獲得相應的翻譯。 FAIR 的 CNN 模型在計算上是非常高效的,比企鵝比最強的RNN系統要快9倍。有很多的研究一直的著眼於如何通過量化權重或者精餾(distillation)的來提升速度,這些方法同樣也能被用到CNN的模型中,來提升速度,甚至還能提升更多。這意味著,CNN 有著巨大的潛力。

4. 阿里巴巴:一年2500億次調用,節省25億美元

阿里翻譯團隊自2016年10月起正式開始自主研發NMT模型,2016年11月首次將NMT系統的輸出結果應用在中英消息通訊場景下的外部評測中並取得了不錯的成績,翻譯質量有了大幅度提升。

「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

在2017年4月份的英俄電商翻譯質量優化項目中,分布式NMT系統大大提高了訓練速度,使模型訓練時間從20天縮短到了4天,為項目整體迭代和推進節省了很多時間成本。

學術界的百花齊放:爭鳴的研究為翻譯應用提供堅實的技術支撐

學術界對神經機器翻譯(NMT)的研究興趣不減。今年到5月份為止,在開放存取論文網站 arXiv.org 上發表的有關 NMT 的研究論文數量幾乎相當於2016年全年的該主題論文數量。研究領域的火熱,對於提供商業可用的翻譯技術提供了最強大的技術支撐。

「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真

截至5月7日,arXiv.org 存儲庫中在標題或摘要中包含 NMT 的論文共有137篇,其中2014年發表的只有7篇,2015年增加到11篇。發生突破的是2016年,發表的論文達到67篇。

騰訊今年有兩篇論文貢獻出來。 一篇來自其深圳的 AI Lab(《神經機器翻譯源句法建模》(Modeling Source Syntax for Neural Machine Translation)); 另一篇,來自騰訊移動互聯網部門(《使用線性關聯單位的深度神經機器翻譯》(Deep Neural Machine Translation with Linear Associative Unit)),這是和蘇州大學、中國科學院及都柏林大學的聯合研究。

北京的微軟亞洲研究院今年也開始進行 NMT 方面的研究。本月剛上傳了兩篇論文(《對抗神經機器翻譯》(Adversarial Neural Machine Translation)和《MAT:圖像字幕多模態轉換器》(MAT: A Multimodal Attentive Translator for Image Captioning))。

  • 谷歌論文:https://arxiv.org/abs/1703.03906

  • 哈佛大學論文:https://arxiv.org/abs/1701.02810

  • Facebook 論文:https://s3.amazonaws.com/fairseq/papers/convolutional-sequence-to-sequence-learning.pdf

  • 騰訊論文:https://arxiv.org/abs/1705.01020

  • 中國移動論文:https://arxiv.org/abs/1705.00861

  • 微軟論文:https://arxiv.org/abs/1704.06933

應用層面的機器翻譯:目前勝在免費和速度

就在柯潔與AlphaGo進行第三場比賽的那一天。韓國科學技術院的生物與大腦工程教授 Jung Jae-seung 在一場名為「人工智慧與翻譯的未來」的論壇上說,AI 驅動的翻譯將會承擔大量現有人類翻譯所做的工作。

「如果能理解不同語言之間的文化,並為之產生最好的相應文本,就可以定義為好的翻譯的話,基於人工智慧的翻譯因為能夠從不同的文化中搜集大量的數據,所以肯定在最後會超越人類」,他說。

他還提到了今年2月,國際翻譯協會(International Interpretation and Translation Association)組織的一場人機翻譯競賽。那場比賽得出的結果是,如果忽視速度和成本,人目前在翻譯的準確度上確實比機器更高一籌。

「我們不應該認為這一差距在未來還會持續」,Jung 說,「雖然很難接受,但是考慮到有充足的數據,谷歌等科技公司會有巨大的優勢。正如AlphaGo 擊敗了李世石一樣,我們都不知道它到底有沒有理解遊戲規則。AI 驅動的翻譯可能也會直接跳躍過理解句子的階段,在翻譯上超越人類」。

AI 驅動的翻譯目前最大的好處在於免費和速度快。「如果AI 驅動的翻譯準確率能達到93%,而幾乎不需要付出什麼成本,並且速度極快。那麼,人們會在大多數的翻譯場景下使用它」,Jung說。

在口譯領域,同樣的顛覆性變革也正在發生,在這一行業中,速度的重要性遠比筆譯要高。AI 驅動的翻譯能夠以詞對詞的速度實時翻譯人們的講話,並且同時提供聲音和字母,現在,機器可以翻譯的語言有幾十種。

但是,Jung還表示,AI 驅動的翻譯也有一些積極的方面,它可以幫助人類翻譯的發展。 「通過分析 AI 驅動的翻譯的各種特徵並確定其優缺點,翻譯人員可以更有效地工作。翻譯和口譯院系需要積極主動地將AI驅動的翻譯納入課程。「他說。

未來,翻譯會走向何方?Jung 的總結是,「個性化」和「創業思維」,當涉及高水平的語言,比如文學時,由於數據的缺乏AI 驅動的翻譯可能不會做得那麼好。翻譯者應該強調自己的人性,在翻譯中增加個性化的東西,增加翻譯的可讀性。

他說:「我們現在所處的時代,機器會不斷地無情地拷問我們——你的工作有什麼價值?它是否富有創造性?翻譯員需要找一個新的方式來做貢獻,這與此前有很大的不一樣。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

後圍棋時代:AlphaGo真正的下一步,圍繞TPU為谷歌謀利
「GAN畫花鳥」零樣本學習,對抗生成網路從文本描述生成圖像
WWDC倒計時:遲到的蘋果如何演繹自己的AI First
清華量子計算大師應明生獨家專訪:AI未來一定會以新的形式重生
「Science」羊臉識別診斷疼痛指數,機器學習捕捉動物面部表情

TAG:新智元 |

您可能感興趣

神經機器翻譯漏譯問題的改進方法
微軟AI翻譯取得突破進展:準確率可與人類翻譯媲美
谷歌翻譯升級:現可根據性別進行翻譯
微軟「AI翻譯」加入新功能 可離線進行翻譯
搜狗獲全球口語翻譯大賽冠軍 成機器翻譯標杆
圖解神經機器翻譯中的注意力機制
【AI再創紀錄】機器翻譯提前7年達到人類專業翻譯水平!
機器翻譯TMT
「神器」亮相世界旅遊經濟論壇,訊飛翻譯機2.0成官方指定翻譯機
AI 里程碑!機器翻譯系統提前 7 年達到人類專業翻譯水平!
主攻文檔翻譯,翻譯狗的機緣與速度
微軟翻譯使用AI來打破智能手機上的語言翻譯障礙
微軟:中英機器翻譯取得突破性進展
AI翻譯如何與傳統翻譯並存共贏:這一次「翻譯」的概念將被重新定義
訊飛翻譯機2.0版本來襲 成就行業翻譯官
中到英新聞翻譯媲美人類,微軟機器翻譯新突破
複製即可翻譯,PDF文本翻譯神器!這個「寶藏」翻譯軟體火了
【AI里程碑】機器翻譯系統提前7年達到人類專業翻譯水平!
用編碼器-解碼器-重構器框架實現英語-日語的神經機器翻譯
翻譯機將臨勁敵?細數糖果翻譯手機的優勢