「NLP必備」將模型應用到數據較少的語言上：跨語種詞嵌入模型梳理

新聞 06-24

新智元編譯

「NLP必備」將模型應用到數據較少的語言上：跨語種詞嵌入模型梳理

跨語言嵌入模型允許我們將來自不同語言的辭彙投影到共享嵌入空間中。這使我們能夠把在擁有大量數據的語言上訓練而成的模型——比如英語——應用到數據較少的語言上。本文對跨語言嵌入模型做了梳理，基於它們採用的方法和平行數據的性質進行了討論。最後，我們指出了挑戰所在，並總結了如何評估跨語言嵌入模型。

「NLP必備」將模型應用到數據較少的語言上：跨語種詞嵌入模型梳理

跨語言嵌入模型更能獲取通用嵌入空間中多種語言的詞語間的關係

近年來，由於詞嵌入的成功推動，出現了許多可以精確學習辭彙表徵的模型。然而，這些模型通常受限於只能獲取它們所訓練語言中的詞語表徵。資源的可用性、訓練數據和英語里存在的基準促成了對英語不成比例的重視，以及對世界各地所使用的其他語言的忽略。在我們的全球化社會中，國界越來越模糊，網際網路給每個人平等獲取信息的機會，因此，我們不僅要求消除與我們的性別或種族有關的偏見，也希望解決我們對語言的偏見。

為了解決這個問題，平衡語言環境，我們希望利用我們現有的對英語的認識來為我們的模型提供處理其他語言的能力。完美的機器翻譯（MT）能做到這一點。然而，我們不需要實際翻譯樣本，只要我們能夠將樣本投影到一個常見的子空間中，如圖 1 所示。

「NLP必備」將模型應用到數據較少的語言上：跨語種詞嵌入模型梳理

圖1：兩個語言間共享的嵌入空間

最終，我們的目標是在所有語言的辭彙之間學習一個共享的嵌入空間。配備了這樣的矢量空間，我們就可以在任何語言的數據上訓練模型。通過將一種語言的可用樣本投影到這個空間中，我們的模型同時獲得了執行所有其他語言中的預測的能力。

本研究對一類模型和演算法進行綜述，這些模型和演算法更離獲取通用嵌入空間中多種語言的詞語之間關係的目標更近。

研究者在多種任務中對跨語言表徵模型進行了評估

在研究了學習跨語言辭彙表徵的模型之後，我們想最終判定用於解決我們所關注任務的最優方式是哪一個。我們已經在多種任務中對跨語言表徵模型進行了評估，包括跨語言文檔分類（cross-lingual document classification，CLDC）、機器翻譯、辭彙相似度，以及在命名實體識別、詞性標註，超感標註，依存句法分析和詞典歸納中的跨語言變體。在Klementiev等人的CLDC 評估體系下，40維跨語言辭彙嵌入被學慣用於對一種語言的文檔進行分類，並在對另一種語言的文檔分類中進行評估。由於CLDC 是被最廣泛使用的，我們將 Mogadala 及 Rettinger 的評估表格示例如下：

「NLP必備」將模型應用到數據較少的語言上：跨語種詞嵌入模型梳理

表2 CLDC 上跨語言嵌入模型的對比

然而表 2 的結果並不能代表跨語言嵌入模型的一般性能，使用不同方式和不同類別數據的模型在不同任務中的表現的性能也不盡相同。Upadhyay 等人評估了不同任務中需要各種形式監督的跨語言嵌入模型。他們發現在辭彙相似度數據組中，句子對齊和文檔對齊的模型和辭彙對齊模型的表現旗鼓相當。而在跨語言分類及詞典歸納任務中，監督越詳盡，效果越好。最後，在句法分析方面，詞對齊的模型能夠更準確地理解語法，因而整體表現更好。

Upadhyay 等人的發現進一步證明了數據的選擇至關重要。Levy 等人進行了更深入的研究，他們對比了跨語言辭彙表徵模型與傳統對齊模型在詞典歸納及詞對齊任務中的表現。他們認為所選定的演算法是否使用了某一個特定的特徵集比選取哪一個演算法更重要。在他們的實驗中，使用句子識別，如生成一個句子的獨立於語言的表徵（如doc2vec），比僅僅使用源詞和目標詞得到的效果更好。

最後，為了便於評估跨語言辭彙嵌入，Ammar 等人建設了一個網站以供已學習的語言表徵的上傳和在多種任務中的自動評估。

使得我們得以研究跨語言表徵的模型已經在諸如機器翻譯（解碼和評估）、自動雙語詞典生成、跨語言信息檢索、平行語料庫提取和生成，以及跨語言文本剽竊監測等多種任務中被證明有效。期待未來看到更多進展。

論文地址：https://arxiv.org/pdf/1706.04902.pdf

點擊閱讀原文查看新智元招聘信息

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※「AI TOP 10」大陸學者首獲 DAC 最佳論文獎；阿里注資中國 CPU 豪賭；Facebook 改變使命宣言
※AI 醫生何時來？語音病歷、影像診斷、導診機器人，訊飛智慧醫療專家談
※「周志華8問 AAAI 前主席」機器學習研究三大挑戰與超級智能威脅
※神威太湖之光TOP500三連冠，"NPU「雲腦時代軟硬體生態系統要」活起來"
※大陸學者首獲 DAC 最佳論文獎；阿里注資中國 CPU 豪賭；Facebook 改變使命宣言

TAG:新智元 |

您可能感興趣

※如何讓語言模型充分利用GPU：針對大規模並行設備的N-gram
※解讀谷歌最強NLP模型BERT：模型、數據和訓練
※是時候「拋棄」谷歌 BERT 模型了！新型預訓練語言模型問世
※NLP之詞袋模型和TF-IDF模型
※數據挖掘面試題之：生成模型 VS 判別模型
※模玩控：高達模型流道新用法，還可以拼裝成模型
※社交概念與SDN模型的相似點
※從語言學角度看詞嵌入模型
※DIKW模型與數據工程
※從字元級的語言建模開始，了解語言模型與序列建模的基本概念
※PPT｜教育大數據應用模型體系
※谷歌最強NLP模型BERT官方中文版來了！多語言模型支持100種語言
※NLP領域的ImageNet時代到來：詞嵌入「已死」，語言模型當立
※起重機應用新增VR模式：用戶可在虛擬空間查看模型
※谷歌開源語義圖像分割模型：該領域當前最優模型
※西北大學：RNN語言模型的重要訓練數據抽樣
※點過程模型在序列數據挖掘中的應用
※模型也能實現「雞尾酒會效應」：谷歌新型音頻-視覺語音分離模型
※想在手機上用自己的 ML 模型？谷歌模型壓縮包你滿意
※生成式模型入門：訓練似然模型的技巧