當前位置:
首頁 > 科技 > 神經機器翻譯再立新功:實時機器翻譯取得重大進展

神經機器翻譯再立新功:實時機器翻譯取得重大進展

儘管機器學習技術發展迅猛,但谷歌也承認機器翻譯還是會犯人類永遠不會犯的錯誤。這一問題增加了實時輸入的挑戰,讓問題變得十分棘手。


實時機器翻譯的使用範圍涵蓋消費者應用(如 Skype Translator)到有望能夠幫助專業語言學家顯著提高生產力的自適應機器翻譯工具。


在2016年10月3日發表的一篇論文《Learning to Translate in Real-time with Neural Machine Translation》(點擊閱讀原文下載)中,研究人員說他們「第一次」能夠證明某些演算法可以「在同步翻譯上表現得非常好,比以前的基於分割的演算法好得多。」


神經機器翻譯再立新功:實時機器翻譯取得重大進展



Graham Neubig


「這項研究的最終目標是語音,」Graham Neubig 告訴 Slator。Neubig 是卡耐基梅隆大學語言技術研究所的助理教授,他與香港大學博士 Jiatao Gu,講座教授 Victor O.K. Li 和紐約大學的助理教授 Kyunghyun Cho 合作進行了這項研究。


神經機器翻譯再立新功:實時機器翻譯取得重大進展



Kyunghyun Cho



神經機器翻譯再立新功:實時機器翻譯取得重大進展


Victor O.K. Li


Neubig 解釋說:「同步機器翻譯是一項能夠在說話或是打字的同時實時進行語句翻譯的技術。以語音為例,在完整的句子結束之前進行翻譯是很重要的,因為一個講話者說完一句話需要 10-20 秒,這就意味著需要這麼長時間翻譯器才能夠向用戶開始提供翻譯內容。這種滯後意味著諸如使用語音翻譯技術作為中介流暢地參加一個多方會談是困難的。」


根據 Neubig 所言,在過去解決這種滯後的一種方法是將輸入分割成較短的段而不是直接處理整個句子,然後將各段獨立地進行翻譯。如果能夠找到一個好的分割位置(「比如,在可以彼此分開翻譯的短語之間」),就可以減少滯後。這種技術相較之前更快,但是仍然降低了流暢度。



神經機器翻譯再立新功:實時機器翻譯取得重大進展


然而,這項研究的與眾不同之處是它使用了神經機器翻譯(NMT)框架(圖2),能夠「自動學習什麼時候開始翻譯詞以及什麼時候等待更多的輸入。」


如果你願意,可以想像一個等待翻譯打字的 NMT 系統,它嘗試根據所有已經輸入的單詞生成下一個單詞的翻譯。接著,根據神經網路現在的狀態(「以及我們對下個翻譯的置信度,」Neubig 說),它將會自動決定這個單詞是否應當被輸出或是等待另外的輸入。


「如果答案是『是,輸出單詞,』那麼輸出單詞同時返回到 1。如果答案是『否,我們不夠確定,』那麼停止輸入同時返回到2,」Neubig 說道。


他補充說,為了系統能夠正確地工作,他們要問自己:我們怎樣才能為這項工作設計出合適的機器學習演算法?我們怎麼來確定翻譯的便捷性和準確性之間的平衡?我們怎麼能恰到好處地搜索最佳翻譯?

「這些問題的答案就是本篇論文中技術內容的關鍵部分,」Neubig 說道。


他指出,「在我們的實驗中,我們首次證明了這些演算法能在同步翻譯上表現得非常好,遠遠優於之前的基於分割的演算法。我們認為這一表現的主要原因在於我們的方法記憶了之前所有輸入的單詞,並且在選擇下一個要翻譯的單詞的時候對之前所有單詞進行了考量,而這對以前基於分割的方法來說並不容易。」


下文是 Slator 對 Graham Neubig 採訪關鍵部分的摘錄:


Slator:在第6章,你提到同步翻譯是相關工作的典型應用,但是你的論文基本聚焦在文本輸入而不是語音輸入。那麼這項研究的主要實際應用是什麼呢?


Neubig:這項研究的最終目標是語音。在這項工作中我們處理文本因為這更易於起步;因為在處理語音的時候還有附加的事項需要考慮,例如語音識別結果導致的附加的不確定性。我們對於在將來能處理語音絕對地感興趣,這也是我們將要做的事


Slator:為什麼你會選擇聚焦在 NMT 的這一特定的應用場景?


Neubig:首先,因為這是語音翻譯的一個非常重要的問題。其次,因為 NMT 非常適於處理這個問題。NMT 的工作方式是預測句子的下一個單詞並且一次一個地輸出它們——這正是我們在同步機器翻譯系統中所需要的。在這裡也考慮了其他很多有趣的演算法。


Slator:因為主語和動詞之間間距的長短,所以專門選擇了德譯英的語言組合(圖1)嗎?



神經機器翻譯再立新功:實時機器翻譯取得重大進展



Neubig:是的,這是選擇這個語言對的主要原因。先前的同步翻譯的工作也因為這個原因聚焦在大量重新排列的語言對上,例如 德語-英語 和 日語-英語。


Slator:如果在德譯英中,一旦真正的動詞出現在句末,而模型選擇了一個明顯被誤譯了的動詞,這樣的話會發生什麼?


Neubig:這是一個非常有趣的問題,我們之前並沒有考慮到。真人的同步翻譯會返回並改正他們的錯誤,但是現在還沒有機器可以做到這一點。


Slator:你預計這項研究會有什麼影響?另外你打算怎樣進行接下來的工作?


Neubig:我希望這項研究最終的影響會是語音翻譯,當它實現的時候你就不需要為平滑、流暢的輸出結果等待很長一段時間。當然,這項工作僅僅是這個方向的一步,在實現這個目標之前,諸如怎樣將現有的方法和語音識別系統和合為一體等考慮是要被處理的事。


Slator:你在論文結尾致謝了 Facebook、三星、谷歌、微軟和 Nvidia 這些科技巨頭?能告訴我們原因嗎?


Neubig:這些公司給予了 Kyunghyun 或 Graham 從事與同步 NMT 密切相關的或是通用的 NMT 研究的贊助。然而我們顯然不能夠代替這些公司發言,我認為他們有興趣為推進他們認為有前景的研究或教育領域而向學術界提供贊助。不過他們可能會也可能不會這個特定的項目感興趣。


Slator:特別的,Nvidia 贊助這樣一個研究的利害關係是什麼?為神經網路、人工智慧等等部署的 GPU 已經成為他們業務的一個如此大的推動力了嗎?


Neubig:我認為他們的確為機器學習使用 GPU 而感到興奮;但是,當然,再次說明,我們不能代替他們發言。


請您繼續閱讀更多來自 機器之心 的精彩文章:

如何成為一名數據科學家?
從MIT-CHIEF 到YC:Robby無人車的最後一公里
谷歌互聯網氣球持續飛行三個月全靠人工智慧認方向
人工智慧、機器學習、深度學習,三者之間的同心圓關係
人工智慧讓好奇號更聰明:可以自己選擇激光槍的攻擊目標

TAG:機器之心 |

您可能感興趣

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進
機器翻譯會迫使翻譯們全失業嗎?
對機器翻譯取代人工翻譯的反駁
谷歌翻譯高勤:神經網路技術將主導機器翻譯的未來
火遍全球的科大訊飛翻譯神器,再增離線翻譯功能!沒網也能用了
不止於出境游翻譯神器 騰訊翻譯君再升級
搜狗瀏覽器更新「民漢翻譯」功能 支持更多互譯
能將文本轉換為盲文的攜帶型實時翻譯器
搞定長難句必備翻譯技巧:漢譯的重複
從搜狗手機瀏覽器「智能翻譯」看行業未來
「深度」AI 入侵翻譯,神經機器翻譯進化讓巴別塔7年內成真
這是一款出國必備的實時語音翻譯耳機
機器翻譯的壯美新世界
動物語言翻譯器,實現了,太棒了
研究人員揭示反式剪接的翻譯調控功能
多模態機器翻譯論文推薦
微軟翻譯APP,群聊也能實時翻譯啦!
長難句翻譯技巧:漢譯的重複
美情報機構研製通用翻譯機,可針對任何語言檢索