NLP預訓練模型大集合

知識 12-30

源 / 機器之心

詞語和句子嵌入已經成為任何基於深度學習的自然語言處理系統的必備組成部分。它們將詞語和句子編碼成稠密的定長向量，從而大大地提升神經網路處理文本數據的能力。近日，Separius 在 GitHub 上列舉了一系列關於 NLP 預訓練模型的近期論文和文章，力求全面地概述 NLP 各個方面的最新研究成果，包括詞嵌入、池化方法、編碼器、OOV 處理等。

GitHub 地址：

https://github.com/Separius/awesome-sentence-embedding

通用框架

幾乎所有句子嵌入的工作原理都是這樣的：給出某種詞嵌入和可選編碼器（例如 LSTM），句子嵌入獲取語境詞嵌入（contextualized word embedding）並定義某種池化（比如簡單的 last pooling），然後基於此選擇直接使用池化方法執行監督分類任務（如 infersent），或者生成目標序列（如 skip-thought）。這樣通常我們就有了很多你從未聽說過的句子嵌入，你可以對任意詞嵌入做平均池化，這就是句子嵌入！

詞嵌入

這部分 Separius 介紹了 19 篇相關論文，包括 GloVe、word2vec、fastText 等預訓練模型：

OOV 處理

A La Carte Embedding: Cheap but Effective Induction of Semantic Feature Vectors：基於 GloVe-like 嵌入的近期結果構建 OOV 表徵，依賴於使用預訓練詞向量和線性回歸可高效學習的線性變換。

Mimicking Word Embeddings using Subword RNNs：通過學習從拼寫到分散式嵌入的函數，合成地生成 OOV 詞嵌入。

語境詞嵌入

這部分介紹了關於語境詞嵌入的 5 篇論文，包括近期大熱的 BERT。

池化方法

{Last, Mean, Max}-Pooling

Special Token Pooling（如 BERT 和 OpenAI"s Transformer）

A Simple but Tough-to-Beat Baseline for Sentence Embeddings：選擇一種在無監督語料庫上常用的詞嵌入計算方法，使用詞向量的加權平均值來表徵句子，並且使用 PCA/SVD 進行修改。這種通用的方法有更深刻和強大的理論動機，它依賴於一個生成模型，該生成模型使用了一個語篇向量上的隨機遊走生成文本。

Unsupervised Sentence Representations as Word Information Series: Revisiting TF–IDF：提出了一種將句子建模為詞嵌入的加權序列的無監督方法，該方法從無標註文本中學習無監督句子表徵。

Concatenated Power Mean Word Embeddings as Universal Cross-Lingual Sentence Representations：將平均詞嵌入的概念泛化至冪平均詞嵌入。

A Compressed Sensing View of Unsupervised Text Embeddings, Bag-of-n-Grams, and LSTMs：從壓縮感知理論的角度看結合多個詞向量的表徵。

編碼器

這部分介紹了 25 篇論文，包括 Quick-Thought、InferSent、SkipThought 等預訓練模型。

評估

這部分主要介紹詞嵌入、句子嵌入的評估和基準：

The Natural Language Decathlon: Multitask Learning as Question Answering

SentEval: An Evaluation Toolkit for Universal Sentence Representations

GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

Exploring Semantic Properties of Sentence Embeddings

Fine-grained Analysis of Sentence Embeddings Using Auxiliary Prediction Tasks

How to evaluate word embeddings? On importance of data efficiency and simple supervised tasks

A Corpus for Multilingual Document Classification in Eight Languages

Olive Oil Is Made of Olives, Baby Oil Is Made for Babies: Interpreting Noun Compounds Using Paraphrases in a Neural Model

Community Evaluation and Exchange of Word Vectors at wordvectors.org

Evaluation of sentence embeddings in downstream and linguistic probing tasks

向量圖

Improving Vector Space Word Representations Using Multilingual Correlation：提出了基於典型相關分析（CCA）結合多語言 evidence 和單語生成向量的方法。

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings：提出一種新的無監督自訓練方法，該方法採用更好的初始化來引導優化過程，這種方法對於不同的語言對而言尤其強大。

Unsupervised Machine Translation Using Monolingual Corpora Only：提出將機器翻譯任務轉換成無監督式任務。在機器翻譯任務中，所需的唯一數據是兩種語言中每種語言的任意語料庫，而作者發現如何學習兩種語言之間共同潛在空間（latent space）。

此外，Separius 還介紹了一些相關的文章和未發布代碼或預訓練模型的論文。