Facebook開源了兩個無監督翻譯模型,只用單語就能訓練雙語
翻栗子 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
昨天,Yann LeCun大神發推宣布,Facebook的兩個無監督翻譯模型,開源了。
所謂無監督,便是不需要雙語對照文本,只用單語語料庫 (Monolingual Corpora) 來訓練AI的翻譯能力。
登上了EMNLP 2018
此次開源的兩個模型,一個是基於短語的翻譯模型 (PBSMT) ,另一個是神經翻譯模型 (NMT) 。
三步如B)C)D)
二者都經歷了以下三個步驟:
1.參數初始化
2.語言建模,有去噪效果
3.回譯,自動生成雙語對照
由此,即便沒有雙語語料庫作為訓練數據,AI依然能夠學會翻譯。
用WMT』14英法和WMT』16德英兩個常用基準,評估模型的表現。結果,兩個模型的BLEU分值,皆遠遠高過了此前表現最好的模型。
28.1是引入回譯之後的分數
加上回譯的PBSMT,幾乎比前輩的成績提升了一倍。NMT的表現也不差。
論文中寫到,除了性能更強之外,Facebook團隊的模型也更簡單,超參數比較少。
兩隻驕傲的AI翻譯官,登上了EMNLP 2018。
代碼,終於開源了
NMT和PBSMT兩個模型的代碼實現,都在GitHub上面了。
NMT:
NMT代碼實現支持以下功能。
· 三種機器翻譯架構:seq2seq,biLSTM+注意力,Transformer
· 在不同模型、不同語言之間,共享參數
· 去噪自編碼器的訓練
· 雙語對照數據訓練
· 反向雙語對照訓練
· 即時多線程生成反向對照數據
請注意科學燙手
還有一些論文裡面沒用到的功能,比如:
·任意數量的語種
· 語言模型預訓練/共同訓練,參數共享
· 對抗訓練
PBSMT:
PBSMT代碼實現支持以下功能。
· 無監督的短語表 (phrase-table) 生成腳本
· 自動Moses訓練
這隻雞可能很暴躁
請開始,你的翻譯
要訓練自己的AI翻譯,你需要以下工具:
Python 3
NumPy
PyTorch
Moses(用來清潔和標記化文本/訓練PBSMT模型)
fastBPE(用來生成並應用BPE代碼)
fastText(用來生成嵌入)
MUSE(用來生成跨語言嵌入)
準備好了的話,就開始吧。
違規者放心,不會有事的
GitHub傳送門:
https://github.com/facebookresearch/UnsupervisedMT
論文傳送門:
https://arxiv.org/pdf/1804.07755.pdf
字幕組賣萌最為致命
—完—
加入社群
量子位AI社群19群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
※上季度50億美元殺入自動駕駛和出行領域,比過去4年總和還多
※Google將推中文信息流產品,今日頭條們請注意
TAG:量子位 |