當前位置:
首頁 > 新聞 > Facebook的新技術,擊敗了「上帝讓不同人類說不同語言」的圖謀

Facebook的新技術,擊敗了「上帝讓不同人類說不同語言」的圖謀

活躍用戶量已超過 20 億,Facebook 會成為人類的巴別塔么?

《創世記》第 11 章中記載,人類計劃建立通天的高塔,而上帝讓人類說不同的語言,使得他們無法協作,計劃最終失敗。

現實中,不同語言成為了各自所屬文化的因子,構建出一種多樣的美。但語言仍像鴻溝,阻礙著人類的交流。

最近,Facebook 用人工智慧對翻譯系統進行了一次重大改造。

如此巨量的翻譯工作,Facebook 一直以來做的卻不好。他們過去使用的統計機器系統,翻不準俗語,識別不了錯字和縮寫,無法理解上下文,很難準確翻譯帖文的意圖。於是,工程師們用改用一種名叫「帶注意力的長短時記憶」(Long Short-Term Memory with attention, LSTM)的深度學習技術,設計了一套人工智慧翻譯系統。

目前,新的神經機器翻譯系統已完全取代了過去的機翻系統,部署到 Facebook 網站、Instagram 以及其他產品中。改造的效果顯著:按照業界公認的 BLEU 標準,Facebook 新翻譯系統各種語言互譯得分比舊系統提高了 11%。

人際溝通大多通過語言完成。而當參與方不使用統一語言,溝通就必須通過翻譯。因此翻譯系統的準確度極大影響著溝通的成果。但遺憾的是,絕大多數網上和手機上的翻譯網站和軟體,背後的技術都來自機器翻譯。

通常,機翻系統對常見的單詞、短語和句法簡單的句子翻譯效果較好。如果一句話就是主謂賓,比如「我吃米飯」,系統翻譯成 「I eat rice」,這沒問題。

但比如中日互譯、或者下圖中土耳其語和英文互譯,原文的語言和翻譯後語言在句法上有很大的差別,機器翻譯就會捉襟見肘了。下圖是機翻結果:

翻譯出的英文沒有語法錯誤,但還是不太容易懂什麼意思。這是因為機翻會把句子拆成一個個欄位,結果就是把一個個欄位的翻譯放出來,沒有對目標語言的語序、語法和表達習慣進行優化。

人工智慧怎樣做到更準確、更有人味兒地翻譯呢?

維基百科解釋, LSTM 是一種在時間上遞歸神經網路 (Recurrent Neural Network),適合於處理和預測時間序列中間隔和延遲相對較長的重要事件。翻譯正好是這種類型的工作,因為很長的一句話,可能後半段是對前半段的邏輯呼應,但機翻系統根本不記得前面說的是什麼。

LSTM 能記住整句話的內容,對句子的上下文進行反溯,理解邏輯,從而給出更精確、流利和地道的翻譯結果,如下圖:

「注意力」(attention) 也是深度學習里一個很有趣的機制,它有點像人類觀察事物時眼神的聚焦,鍋里有菜,你會自動把更多注意力分配到菜上而不是鍋或者鍋柄。

注意力能夠幫助新系統留意一些在標準英語辭典里沒有出現的詞,這些詞很有可能是縮寫和短語,比如 idk (I don』t know)、tmrw (tomorrow),也有可能是網路用語。當神經機器在句子里發現這樣的詞,會先留空不翻譯,分配一定的計算力,去其他詞庫和訓練數據集查找這個詞的釋義,最後再翻譯出來。

不僅如此,研發團隊還利用了一些神經網路剪枝(保留重要的權重)和壓縮編碼的演算法,極大地降低神經翻譯系統的辭彙表大小,減小了計算量,但沒有拉低翻譯精度。

搞定了翻譯系統,並不是終點,工程師們還要把它部署到 Facebook 數十億用戶量級的後端系統中去。開發了深度學習框架 Caffe 的 Facebook 研究科學家賈揚清,已經帶隊開發出了更注重模塊化,利於移動端和大規模部署的 Caffe2。在新框架上運行,神經翻譯系統的效率提升了 2.5 倍。

去年,全球 5 億人使用的 Google Translate 服務中部署了神經翻譯機器。當時 PingWest品玩用一些經典中英段落測試互譯,仍會出現奇怪的翻譯:

In my younger and more vulnerable years my father gave me some advice that I』ve been turning over in my mind ever since.

「Whenever you feel like criticizing anyone,」he told me,」just remember that all the people in this world haven』t had the advantages that you』ve had.」

人工翻譯:

我年紀還輕,閱歷不深的時候,我父親教導過我一句話,我至今還念念不忘。

「每逢你想要批評任何人的時候,」他對我說,「你就記住,這個世界上所有的人,並不是個個都有過你那些優越條件。」

Google 神經機器翻譯(去年):

在我更年輕,更容易年,我的父親給了我一些建議,我一直在我心中從此翻身。

「每當你覺得批評任何人,」他告訴我,「只記得,所有的在這個世界上的人都沒有,你有過的優勢。」

時隔一年之久再去測試,效果已經好了很多:

在我年輕,更脆弱的歲月里,我父親給了我一些建議,自從我一直在轉過頭來。

「每當你想批評任何人,」他告訴我,「只要記住,這個世界上所有的人都沒有你的優勢。」

這是由於神經機器翻譯後端的深度學習系統學習能力比統計機更強。隨著輸入的數據源,以及使用的人越來越多,它能不斷提升翻譯技巧。Facebook 用戶剛剛超過 20 億,每天都有超過 13 億說不同語言的人在上面分享活動、發圖片、評論以及點贊。現在,Facebook 翻譯後端已經完全遷移至神經機器翻譯,這些訓練好的神經網路每天處理多達 45 億次翻譯請求。

未來,Facebook 打算引入一些更先進的神經網路架構,比如卷積神經網路 (Convolutional Neural Networks, CNNs)。測試結果發現使用 CNN 進行英法互譯的 BLEU 得分比 LSTM 進一步提升了 12%。不僅如此,他們也在嘗試一些更難的挑戰,比如多語種(而非雙語種)翻譯。

屆時,基於神經網路的翻譯系統,將在精度、地道程度、多語種翻譯能力等更多維度上超過和取代統計機,甚至人工翻譯——就目前來看,取代這些工作可能是人工智慧為數不多的壞處之一。

點擊小程序免費報名

PingTalk第三季活動

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 pingwest中文網 的精彩文章:

華為超越蘋果有希望了:AT
全世界首個海里移動的城市,可以容納5萬人
高175米的浮島式發電機已進入實驗階段
CNNIC:中國網民數達7.51億
淘寶宣布禁售日文遊戲

TAG:pingwest中文網 |

您可能感興趣

Facebook Libra的Move語言與其他語言有什麼不同?
Facebook開源全新靜態語言Skip,性能如何你不了解下?
R和Python 讓使用不同語言的人更輕鬆協作
不只是甜點,Android P將會使用新的設計語言?
在街頭,造型是一種語言,而不只是穿衣 | adidas | Xsneaker
Facebook收購Bloomsbury AI,以提高自然語言處理能力打擊假新聞
「轉載」Python與C語言的異同
背靠 Google 的 Go 語言,就不會失敗?
SoulSense 紋身 圖形的語言,Cool到離不開視線
Sarah Moon 將攝影作為一種情感語言
Pythia:Facebook最新開源的視覺、語言多任務學習框架
Python就是語言中的C位,不服來辯!
用Android P實踐-這是新設計語言的開始嗎?
Google Duplex證明人類語言是唯一重要的API
它難懂、多變、挑剔,但這些cool girls卻精修這門語言
它難懂、多變、挑剔,但這些cool girls卻精修這門語言
Mercari Price 比賽分享——語言不僅是演算法和公式而已
Fei Liu Fine Jewellery | 用西方的語言講述東方的故事, 他的珠寶堪稱"萬人迷"!
除了Scratch 還有這些語言可以選
TensorFlow,為什麼選擇 PyThon 作為開發語言?