FAIR＆NYU開發XNLI語料庫：15種語言

知識 11-12

選自research.fb

作者：Alexis Conneau等

機器之心編譯

參與：路、王淑婷

近日，FAIR 和紐約大學的研究者合作開發了一個新的自然語言推斷語料庫 XNLI，該語料庫將 MultiNLI 的測試集和開發集擴展到 15 種語言，包括斯瓦西里語和烏爾都語等低資源語言。XNLI 是跨語言句子理解的基準，實際可用且具備一定難度，有助於帶來更好的跨語言理解方法。

項目地址：https://github.com/facebookresearch/XNLI

很多 NLP 系統（如情感分析、主題分類、feed 排序）依賴在高資源語言中訓練數據，卻無法直接在測試時為其他語言進行預測。該問題在幾乎所有涉及跨語言數據的行業應用中都會出現。

我們可以使用機器翻譯將任意樣本翻譯成高資源語言，來緩解該問題。但是，在每個語言方向都構建一個機器翻譯系統太昂貴，不是跨語言分類的最佳解決方案。跨語言編碼器更便宜，也更優雅（見下圖示例）。

為了評估此類跨語言句子理解方法，來自 Facebook 和紐約大學的研究者創建了 XNLI，它是 SNLI/MultiNLI 語料庫的擴展版，涉及 15 種語言。XNLI 提出了以下研究問題：在僅具備英語訓練數據的情況下，我們如何在測試時對任意語言進行預測？

行業應用的常規任務可能不包括自然語言推斷（natural language inference，NLI），但研究者認為 NLI 是評估跨語言句子表徵的良好測試平台，XNLI 的更好方法能夠帶來更好的跨語言理解（crosslingual language understanding，XLU）方法。

XNLI 語料庫

跨語言自然語言推斷（XNLI）語料庫是一個眾包語料庫，基於 MultiNLI 語料庫收集了 5000 個測試對和 2500 個開發對。研究者使用文本蘊含標註這些句對，然後將這些句子翻譯成 14 種語言：法語、西班牙語、德語、希臘語、保加利亞語、俄語、土耳其語、阿拉伯語、越南語、泰語、中文、印度語、斯瓦西里語和烏爾都語，這就有 11.25 萬標註對了。每個 premise 可與 15 種語言中的對應假設相關，一共有超過 150 萬組合。

該研究介紹了一個基準，即 XNLI 語料庫，它將這些 NLI 語料庫擴展到 15 種語言。XNLI 包括 7500 個人工標註開發和測試樣本，格式為 NLI 三向分類，一共生成了 112500 個標註句對。這些語言涉及多個語系，包括斯瓦西里語和烏爾都語這兩種低資源語言。

XNLI 語料庫聚焦於開發數據和測試數據，因此構建它的目的是評估跨語言句子理解，其中模型必須在一種語言中訓練，在其他不同的語言中測試。

研究者評估了多種自然語言推斷的跨語言學習方法，訓練數據是來自於公開語料庫的平行數據。研究展示了平行數據有助於在多語言中對齊句子編碼器，以使使用 English NLI 數據訓練的分類器能夠正確地分類其他語言的句對。儘管該對齊方法不敵該研究使用的機器翻譯基線模型，但該對齊方案的性能也很有競爭力。

下載

XNLI 是一個 ZIP 文件，包含 JSON lines (jsonl) 和製表符分割文本 (txt) 兩種格式的語料庫。

英語訓練數據地址：https://www.nyu.edu/projects/bowman/multinli/

XNLI 語料庫下載地址：https://s3.amazonaws.com/xnli/XNLI-1.0.zip（17MB，ZIP）

XNLI 還可用作一萬個句子的 15way 平行語料庫，來構建或評估機器翻譯系統。XNLI 為低資源語言（如斯瓦西里語和烏爾都語）提供額外的開放平行數據。

XNLI-15way 下載地址：https://s3.amazonaws.com/xnli/XNLI-15way.zip（12MB，ZIP）

論文：XNLI: Evaluating Cross-lingual Sentence Representations

論文地址：https://research.fb.com/wp-content/uploads/2018/10/XNLI-Evaluating-Cross-lingual-Sentence-Representations.pdf

摘要：當前最優的自然語言處理系統依賴標註數據來學習強大的模型。這些模型往往是在單語數據（通常是英語）上訓練的，無法直接用於其他語言。由於收集每種語言的數據不切實際，因此研究者對跨語言理解（XLU）和低資源跨語言遷移的興趣越來越大。本研究將 MultiNLI 的開發集和測試集擴展到 15 種語言（包括斯瓦西里語和烏爾都語等低資源語言），從而構建了一個 XLU 的評估集。我們希望該數據集，即 XNLI 能夠提供信息量大的標準評估任務來促進跨語言句子理解的研究。此外，我們還提供了多個多語言句子理解的基線模型，其中兩個基於機器翻譯系統，還有兩個使用平行數據來訓練對齊多語言詞袋模型和 LSTM 編碼器。我們發現 XNLI 是一個實際且有難度的評估套件，在直接翻譯測試數據任務上獲得了可用基線模型中的最優表現。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※ROTK！OpenAI對戰中國Dota2大神再次慘敗
※ICIP2018 | 圖像鑒黃做得好，健康上網少煩惱

TAG:機器之心 |