當前位置:
首頁 > 新聞 > 谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型

谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型

谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型

【新智元導讀】無需翻譯的無監督複述的新方法:允許從輸入句子生成多樣但語義上接近的句子。模型基於矢量量化自動編碼器(VQ-VAE),可以在單純語言環境中解釋句子。它還具有獨特的功能,即與量化瓶頸並行的殘餘連接,可以更好地控制解碼器熵並簡化優化過程。

近年來,研究人員一直在嘗試開發自動複述的方法,複述就是對相同語義的不同表達,需要從文本中自動抽象語義內容。

由於缺乏可用的復映對標記數據集,目前更多的是使用依賴於機器翻譯(MT)技術的方法,已經被證明非常受歡迎。

谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型

理論上來看,翻譯技術可能是自動複述的有效解決方案,因為翻譯技術是從語言實現中抽象出語義內容。例如,將相同的句子分配給不同的翻譯者,最終翻譯出來的內容通常是有差別的,這樣就得到一個豐富的解釋集,在複述任務中可能會非常有用。

儘管許多研究人員已經開發出基於翻譯的自動複述方法,但顯然人類並不需要翻譯才能解釋句子。

谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型

基於這一觀察結果,Google Research的兩位研究人員最近提出了一種新的複述技術,可以不依賴機器翻譯的方法。

谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型

在預先發表在arXiv上的論文中,他們將這種單語方法與其他翻譯技巧進行了比較,例如監督翻譯和無監督翻譯方法,該論文被引用了47次。

進行這項研究的兩位研究人員Aurko Roy和David Grangier在他們的論文中寫道:「這項工作建議只從未標記的單語語料庫中學習複述模型…為此,我們提出了矢量量化變分自動編碼器的殘差變數。」

谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型

Aurko Roy

谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型

David Grangier

研究人員介紹的模型基於矢量量化自動編碼器(VQ-VAE),可以在單純語言環境中解釋句子。同時,它還具有獨特的特徵(即與量化瓶頸並行的殘餘連接),這使得能夠更好地控制解碼器熵、並簡化優化過程。他們的模型只需要在一種語言中使用未標記的數據,即用語言來解釋句子。

研究人員在論文中解釋道:「與連續自動編碼器相比,我們的方法允許從輸入句子生成多樣但語義上接近的句子。」

在研究中,Roy和Grangier將他們的模型表現與其他基於MT的方法在複述識別、生成和訓練增強方面的表現進行了比較。

他們特別將這種方法,與在平行雙語數據上訓練的監督翻譯方法、以及在兩種不同語言的非平行文本上訓練的無監督翻譯方法進行了比較。

研究人員發現,他們的單語方法在所有任務中均優於無監督翻譯技術。另一方面,他們的模型和監督翻譯方法之間的比較產生了混合的結果:單語方法在識別和增強任務中表現更好,而監督翻譯方法在複述生成方面表現更好。

谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型

谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型

研究人員總結道:「總的來說,我們發現在進行複述識別和數據增強方面,單語模型可以勝過雙語模式。單語模型的生成質量要高於基於無監督翻譯的模型,但並不高於基於有監督翻譯的模型。」

Roy和Grangier的研究結果表明,雖然使用雙語並行數據(即文本及在其他語言中的可能翻譯)在產生複述能夠得到更卓越的表現。然而,在雙語數據不易獲得的情況下,谷歌研究院提出的單語模型可能是一種有用的資源或替代解決方案。

參考鏈接:

https://techxplore.com/news/2019-06-approach-unsupervised-paraphrasing.html

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

別推塔了快回城,AI預測你的英雄5秒後就要死了
Reddit熱議!DeepMind最新研究解決災難性遺忘難題

TAG:新智元 |