Facebook開源了兩個無監督翻譯模型，只用單語就能訓練雙語

科技 08-16

翻栗子發自凹非寺

量子位出品 | 公眾號 QbitAI

昨天，Yann LeCun大神發推宣布，Facebook的兩個無監督翻譯模型，開源了。

所謂無監督，便是不需要雙語對照文本，只用單語語料庫 (Monolingual Corpora) 來訓練AI的翻譯能力。

登上了EMNLP 2018

此次開源的兩個模型，一個是基於短語的翻譯模型 (PBSMT) ，另一個是神經翻譯模型 (NMT) 。

三步如B)C)D)

二者都經歷了以下三個步驟：

1.參數初始化

2.語言建模，有去噪效果

3.回譯，自動生成雙語對照

由此，即便沒有雙語語料庫作為訓練數據，AI依然能夠學會翻譯。

用WMT』14英法和WMT』16德英兩個常用基準，評估模型的表現。結果，兩個模型的BLEU分值，皆遠遠高過了此前表現最好的模型。

28.1是引入回譯之後的分數

加上回譯的PBSMT，幾乎比前輩的成績提升了一倍。NMT的表現也不差。

論文中寫到，除了性能更強之外，Facebook團隊的模型也更簡單，超參數比較少。

兩隻驕傲的AI翻譯官，登上了EMNLP 2018。

代碼，終於開源了

NMT和PBSMT兩個模型的代碼實現，都在GitHub上面了。

NMT：

NMT代碼實現支持以下功能。

· 三種機器翻譯架構：seq2seq，biLSTM+注意力，Transformer

· 在不同模型、不同語言之間，共享參數

· 去噪自編碼器的訓練

· 雙語對照數據訓練

· 反向雙語對照訓練

· 即時多線程生成反向對照數據

請注意科學燙手

還有一些論文裡面沒用到的功能，比如：

·任意數量的語種

· 語言模型預訓練/共同訓練，參數共享

· 對抗訓練

PBSMT：

PBSMT代碼實現支持以下功能。

· 無監督的短語表 (phrase-table) 生成腳本

· 自動Moses訓練

這隻雞可能很暴躁

請開始，你的翻譯

要訓練自己的AI翻譯，你需要以下工具：

Python 3

NumPy

PyTorch

Moses（用來清潔和標記化文本/訓練PBSMT模型）

fastBPE（用來生成並應用BPE代碼）

fastText（用來生成嵌入）

MUSE（用來生成跨語言嵌入）

準備好了的話，就開始吧。

違規者放心，不會有事的

GitHub傳送門：

https://github.com/facebookresearch/UnsupervisedMT

論文傳送門：

https://arxiv.org/pdf/1804.07755.pdf

字幕組賣萌最為致命

—完—

加入社群

量子位AI社群19群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字「專業群」，獲取入群方式。（專業群審核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※上季度50億美元殺入自動駕駛和出行領域，比過去4年總和還多
※Google將推中文信息流產品，今日頭條們請注意

TAG:量子位 |