系統探討「跨語言詞嵌入」，這是一本剛出爐新書

知識 06-16

機器之心報道

參與：路

近日，自然語言領域專家、DeepMind 研究科學家 Sebastian Ruder 等人發表了新書《Cross-Lingual Word Embeddings》。這本書由哥本哈根大學 Anders S?gaard、劍橋大學 Ivan Vuli?、DeepMind Sebastian Ruder 與谷歌 Manaal Faruqui 合著，主要探討自然語言處理領域中的跨語言詞嵌入問題。

大部分NLP問題是關於英語語言處理的，英語語言具備優秀的語言技術支持，而同類的支持對於阿爾巴尼亞語、緬甸語、宿務語等語種而言非常有限。彌補不同語種之間的數字鴻溝對於科學和民主都至關重要，同時這也代表了一種巨大的增長潛力。而其關鍵挑戰在於，對齊不同語言的基礎語義單元。

四位作者在《Cross-Lingual Word Embeddings》一書中，研究並討論了從之前到近階段關於此類對齊的監督和無監督學習研究。具體而言，這本書系統性地探討了「跨語言詞嵌入」問題，全書使用了一致的符號，並以可比較的形式介紹可用方法，從而幫助讀者更容易地對比大量不同方法。

作者為這些不同方法建立了關聯，而這在之前是沒有過的，而且他們還以非常緊湊的方式展示了快速增長的研究文獻。此外，作者還討論了如何更好地評估跨語言詞嵌入方法，並調查了方便對該主題感興趣的學生和研究者使用的資源。

該書的目錄如下所示：

這本書第二章主要介紹了最常用的單語言詞嵌入模型；

第三章介紹了本書的一項主要貢獻：監督式跨語言詞嵌入模型的分類標準：對齊的類型、可比較性；

第四章介紹了概述了跨語言詞表徵的歷史；

第五、六、七章分別介紹了詞級、句子級、文檔級對齊模型；

第八章介紹了哪些雙語方法可以擴展到多語環境中；

第九章介紹了，不依賴於顯式雙語監督信號、以無監督方式學習跨語言詞嵌入的近期研究；

第十章探討了跨語言詞嵌入模型的任務、基準和評估，以及常見應用；

第十一章列舉了適用於對該領域感興趣的學生及研究者的資源；

第十二章介紹了跨語言詞嵌入領域的挑戰以及未來研究方向。

監督式跨語言詞嵌入模型的分類

我們簡要介紹一下該書第三章的內容，即作者們認為的監督式跨語言詞嵌入模型的分類。

他們按照兩個維度來劃分：監督所需對齊的類型、對齊編碼的可對比性，即根據跨語言詞嵌入模型使用的數據類型進行分類。

具體而言：

對齊類型：跨語言詞嵌入模型使用不同類型的雙語監督信號：詞級、句子級、文檔級。一些監督信號更細粒度，例如，詞級對齊更容易展示兩個單詞在對應語境中是否語義對應或類似；但有時候研究者需要依賴較為粗粒度的信號，比如將句子或文檔進行對齊。

可對比性：這些方法要麼需要平行資料庫（如不同語言的譯文），要麼需要可比較數據（其與平行數據在一些方面上是類似的）。平行數據中存在詞義或句子意思的近似一對一對應；而可比較數據不存在語義對應，而是相似詞、句子或文檔之間的近似一對一對應，比如同樣主題的文檔。最常用的可比較數據資源是維基百科，研究者可以從中輕鬆抓取同一主題的多語言文檔（或網頁）。簡言之，「平行數據」指意義對應，「可比較數據」指相同主題的數據。

作者將對齊類型分為三類：詞級、句子級和文檔級，並以此為基礎對對齊信號的數據類型進行分類（平行數據 vs 可比較數據）。

下圖展示了不同對齊類型的數據源示例。