當前位置:
首頁 > 科技 > Facebook開源了兩個無監督翻譯模型,只用單語就能訓練雙語

Facebook開源了兩個無監督翻譯模型,只用單語就能訓練雙語

翻栗子 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

昨天,Yann LeCun大神發推宣布,Facebook的兩個無監督翻譯模型,開源了。

所謂無監督,便是不需要雙語對照文本,只用單語語料庫 (Monolingual Corpora) 來訓練AI的翻譯能力。

登上了EMNLP 2018

此次開源的兩個模型,一個是基於短的翻譯模型 (PBSMT) ,另一個是神經翻譯模型 (NMT) 。

三步如B)C)D)

二者都經歷了以下三個步驟:

1.參數初始化

2.語言建模,有去噪效果

3.回譯,自動生成雙語對照

由此,即便沒有雙語語料庫作為訓練數據,AI依然能夠學會翻譯。

WMT』14英法WMT』16德英兩個常用基準,評估模型的表現。結果,兩個模型的BLEU分值,皆遠遠高過了此前表現最好的模型。

28.1是引入回譯之後的分數

加上回譯的PBSMT,幾乎比前輩的成績提升了一倍。NMT的表現也不差。

論文中寫到,除了性能更強之外,Facebook團隊的模型也更簡單超參數比較少。

兩隻驕傲的AI翻譯官,登上了EMNLP 2018

代碼,終於開源了

NMTPBSMT兩個模型的代碼實現,都在GitHub上面了。


NMT:

NMT代碼實現支持以下功能。

· 三種機器翻譯架構:seq2seqbiLSTM+注意力Transformer

· 在不同模型、不同語言之間,共享參數

· 去噪自編碼器的訓練

· 雙語對照數據訓練

· 反向雙語對照訓練

· 即時多線程生成反向對照數據

請注意科學燙手

還有一些論文裡面沒用到的功能,比如:

·任意數量的語種

· 語言模型預訓練/共同訓練,參數共享

· 對抗訓練


PBSMT:

PBSMT代碼實現支持以下功能。

· 無監督的短語表 (phrase-table) 生成腳本

· 自動Moses訓練

這隻雞可能很暴躁

請開始,你的翻譯

要訓練自己的AI翻譯,你需要以下工具:

Python 3

NumPy

PyTorch

Moses(用來清潔和標記化文本/訓練PBSMT模型)

fastBPE(用來生成並應用BPE代碼)

fastText(用來生成嵌入)

MUSE(用來生成跨語言嵌入)

準備好了的話,就開始吧。

違規者放心,不會有事的

GitHub傳送門:

https://github.com/facebookresearch/UnsupervisedMT

論文傳送門:

https://arxiv.org/pdf/1804.07755.pdf

字幕組賣萌最為致命

加入社群

量子位AI社群19群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

上季度50億美元殺入自動駕駛和出行領域,比過去4年總和還多
Google將推中文信息流產品,今日頭條們請注意

TAG:量子位 |