當前位置:
首頁 > 知識 > FAIR&NYU開發XNLI語料庫:15種語言

FAIR&NYU開發XNLI語料庫:15種語言

選自research.fb

作者:Alexis Conneau等

機器之心編譯

參與:路、王淑婷

近日,FAIR 和紐約大學的研究者合作開發了一個新的自然語言推斷語料庫 XNLI,該語料庫將 MultiNLI 的測試集和開發集擴展到 15 種語言,包括斯瓦西里語和烏爾都語等低資源語言。XNLI 是跨語言句子理解的基準,實際可用且具備一定難度,有助於帶來更好的跨語言理解方法。

項目地址:https://github.com/facebookresearch/XNLI

很多 NLP 系統(如情感分析、主題分類、feed 排序)依賴在高資源語言中訓練數據,卻無法直接在測試時為其他語言進行預測。該問題在幾乎所有涉及跨語言數據的行業應用中都會出現。

我們可以使用機器翻譯將任意樣本翻譯成高資源語言,來緩解該問題。但是,在每個語言方向都構建一個機器翻譯系統太昂貴,不是跨語言分類的最佳解決方案。跨語言編碼器更便宜,也更優雅(見下圖示例)。

為了評估此類跨語言句子理解方法,來自 Facebook 和紐約大學的研究者創建了 XNLI,它是 SNLI/MultiNLI 語料庫的擴展版,涉及 15 種語言。XNLI 提出了以下研究問題:在僅具備英語訓練數據的情況下,我們如何在測試時對任意語言進行預測?

行業應用的常規任務可能不包括自然語言推斷(natural language inference,NLI),但研究者認為 NLI 是評估跨語言句子表徵的良好測試平台,XNLI 的更好方法能夠帶來更好的跨語言理解(crosslingual language understanding,XLU)方法。

XNLI 語料庫

跨語言自然語言推斷(XNLI)語料庫是一個眾包語料庫,基於 MultiNLI 語料庫收集了 5000 個測試對和 2500 個開發對。研究者使用文本蘊含標註這些句對,然後將這些句子翻譯成 14 種語言:法語、西班牙語、德語、希臘語、保加利亞語、俄語、土耳其語、阿拉伯語、越南語、泰語、中文、印度語、斯瓦西里語和烏爾都語,這就有 11.25 萬標註對了。每個 premise 可與 15 種語言中的對應假設相關,一共有超過 150 萬組合。

該研究介紹了一個基準,即 XNLI 語料庫,它將這些 NLI 語料庫擴展到 15 種語言。XNLI 包括 7500 個人工標註開發和測試樣本,格式為 NLI 三向分類,一共生成了 112500 個標註句對。這些語言涉及多個語系,包括斯瓦西里語和烏爾都語這兩種低資源語言。

XNLI 語料庫聚焦於開發數據和測試數據,因此構建它的目的是評估跨語言句子理解,其中模型必須在一種語言中訓練,在其他不同的語言中測試。

研究者評估了多種自然語言推斷的跨語言學習方法,訓練數據是來自於公開語料庫的平行數據。研究展示了平行數據有助於在多語言中對齊句子編碼器,以使使用 English NLI 數據訓練的分類器能夠正確地分類其他語言的句對。儘管該對齊方法不敵該研究使用的機器翻譯基線模型,但該對齊方案的性能也很有競爭力。

下載

XNLI 是一個 ZIP 文件,包含 JSON lines (jsonl) 和製表符分割文本 (txt) 兩種格式的語料庫。

英語訓練數據地址:https://www.nyu.edu/projects/bowman/multinli/

XNLI 語料庫下載地址:https://s3.amazonaws.com/xnli/XNLI-1.0.zip(17MB,ZIP)

XNLI 還可用作一萬個句子的 15way 平行語料庫,來構建或評估機器翻譯系統。XNLI 為低資源語言(如斯瓦西里語和烏爾都語)提供額外的開放平行數據。

XNLI-15way 下載地址:https://s3.amazonaws.com/xnli/XNLI-15way.zip(12MB,ZIP)

論文:XNLI: Evaluating Cross-lingual Sentence Representations

論文地址:https://research.fb.com/wp-content/uploads/2018/10/XNLI-Evaluating-Cross-lingual-Sentence-Representations.pdf

摘要:當前最優的自然語言處理系統依賴標註數據來學習強大的模型。這些模型往往是在單語數據(通常是英語)上訓練的,無法直接用於其他語言。由於收集每種語言的數據不切實際,因此研究者對跨語言理解(XLU)和低資源跨語言遷移的興趣越來越大。本研究將 MultiNLI 的開發集和測試集擴展到 15 種語言(包括斯瓦西里語和烏爾都語等低資源語言),從而構建了一個 XLU 的評估集。我們希望該數據集,即 XNLI 能夠提供信息量大的標準評估任務來促進跨語言句子理解的研究。此外,我們還提供了多個多語言句子理解的基線模型,其中兩個基於機器翻譯系統,還有兩個使用平行數據來訓練對齊多語言詞袋模型和 LSTM 編碼器。我們發現 XNLI 是一個實際且有難度的評估套件,在直接翻譯測試數據任務上獲得了可用基線模型中的最優表現。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

ROTK!OpenAI對戰中國Dota2大神再次慘敗
ICIP2018 | 圖像鑒黃做得好,健康上網少煩惱

TAG:機器之心 |