當前位置:
首頁 > 新聞 > 超越 BERT和GPT,微軟亞洲研究院開源新模型 MASS!

超越 BERT和GPT,微軟亞洲研究院開源新模型 MASS!

雷鋒網 AI 科技評論按:自 2018 年以來,預訓練無疑是自然語言處理(NLP)領域中最熱門的研究課題之一。通過利用 BERT、GPT 和 XLNet 等通用語言模型,該領域的研究者們在自然語言理解方面已經取得了許多重大的突破。然而,對於序列到序列的自然語言生成任務,這些主流的預訓練方法並沒有帶來顯著的改進,對此,微軟亞洲研究院提出了一個全新的通用預訓練方法——MASS,在該任務中可以得到比 BERT 和 GPT 更好的效果。

前言

BERT 和 XLNet 在自然語言理解任務(例如:情感分類、自然語言推理和 SQuAD 閱讀理解)方面取得了巨大成功。然而,?NLP 領域除了自然語言理解任務之外,還存在很多序列到序列的語言生成任務,例如機器翻譯、文本摘要生成、對話生成、問答、文本風格轉換等。對於這些任務,使用編碼器-注意力-解碼器框架是主流方法。

圖 1 編碼器 - 注意力 - 解碼器框架

如圖 1 所示,編碼器將源序列 X 作為輸入並將其轉換為隱藏表示的序列,然後解碼器通過注意力機制從編碼器中抽象出隱藏表示的序列信息,並自動生成目標序列文本 Y。

BERT 和 XLnet 通常是對一個編碼器進行自然語言理解的預訓練;而 GPT 則是對一個解碼器進行語言建模的預訓練。當利用 BERT 和 GPT 進行序列到序列的語言生成任務時,我們通常需要對編碼器和解碼器分別進行預訓練。在這種情況下,編碼器 - 注意力 - 解碼器框架和注意力機制並沒有得到聯合訓練。然而,注意力機制在這類任務中極為重要,一旦缺失便會導致 BERT 和 GPT 無法達到最佳性能。

一種新的預訓練方法

針對序列到序列的自然語言生成任務,微軟亞洲研究院的機器學習小組提出了一種新的預訓練方法,即掩蔽的序列到序列預訓練(MASS:Masked Sequence to Sequence Pre-Training)。MASS 隨機掩蔽一個長度為 k 的句子片段,並通過編碼器 - 注意力 - 解碼器框架預測這一被掩蔽的片段。

圖 2 MASS 框架

如圖 2 所示,編碼器端的第 3-6 個標記被掩蔽,而在解碼器端,僅有被掩蔽的標記被預測出來,而其他標記則被掩蔽。

MASS 預訓練具有以下優勢:

解碼器端的其他標記(在編碼器端未被掩蔽的標記)被掩蔽,從而推動解碼器提取更多信息以幫助預測連續句子片段,促進編碼器-注意力-解碼器結構的聯合訓練;

為了給解碼器提供更多有用的信息,編碼器被強制提取未被掩蔽的標記的含義,這可以提高編碼器理解源序列文本的能力;

解碼器被設計用以預測連續的標記(句子片段),這可以提升解碼器的語言建模能力。

統一的預訓練框架

MASS 有一個重要的超參數 k(被掩蔽的片段的長度)。通過調整 k 值,MASS 可以將 BERT 中掩蔽的語言建模和 GPT 中的標準語言建模結合起來,從而將 MASS 擴展成一個通用的預訓練框架。

當 k = 1 時,根據 MASS 的設計,編碼器端的一個標記被掩蔽,而解碼器端則會預測出該掩蔽的標記,如圖 3 所示。解碼器端沒有輸入信息,因而 MASS 等同於 BERT 中掩蔽的語言模型。

圖 3 k = 1時,編碼器端一個標記被掩蔽,而解碼器端則會預測出該掩蔽的標記

當 k = m(m 是序列的長度)時,在 MASS 中,編碼器端的所有標記都被掩蔽,而解碼器端會預測所有的標記,如圖 4 所示。解碼器端無法從編碼器端提取任何信息,MASS 等同於 GPT 中的標準語言模型。

圖 4 k = m 時,編碼器端的所有詞都被掩蔽,而解碼器端會預測所有的標記,等同於 GPT 中的標準語言模型

不同 k 值下 MASS 的概率公式如表 1 所示,其中 m 是序列的長度,u 和 v 分別是掩蔽片段的起始和終止位置,代表從位置 u 到 v 的標記都被掩蔽的序列。可以看出,當 k = 1 或 m 時,MASS 的概率公式等同於 BERT 中的被掩蔽的語言模型和 GPT 中的標準語言模型。

表 1 在不同 k 值下 MASS 的概率公式

研究人員通過實驗來分析了在不同 k 值下的 MASS 性能,如圖 5 所示:

圖 5 在訓練前和微調階段的各種掩蔽長度 k 下 MASS 的表現,其中包括 a)?英語句子預訓練模型的PPL b) WMT13 英語-法語翻譯的法語句子 c)?WMT13 無監督英語-法語翻譯的 BLEU 值 d)?文本摘要生成的 ROUGE 值 e) 對話生成的PPL

當 k 等於句子長度的一半時,下游任務可以達到其最佳性能。掩蔽句子中一半的詞可以很好地平衡編碼器和解碼器的預訓練部分。如果預訓練更偏向編碼器端(k = 1,即 BERT)或更偏向解碼器端(k = m,LM / GPT),則無法實現最優的性能,這也表現出了 MASS 在序列到序列的語言生成任務中的優勢。

序列到序列的語言生成任務測試

預訓練

值得注意的是,MASS 僅需要無監督的單語數據進行預訓練(例如 WMT News Crawl Data、Wikipedia Data 等)。MASS 支持跨語言任務(例如機器翻譯)和單語任務(例如文本摘要生成、對話生成)。在對英語-法語翻譯等跨語言任務進行預訓練時,研究人員可以在一個模型中同時進行英語-英語和法語-法語的預訓練,並使用附加的語言嵌入向量來區分語言。在無監督的機器翻譯、低資源機器翻譯、文本摘要生成和對話生成四個領域,研究人員對 MASS 進行了微調,以驗證其有效性。

無監督機器翻譯

關於無監督機器翻譯任務,研究人員將 MASS 與之前的方法進行了比較,包括以前最先進的方法 Facebook XLM。XLM 使用了由 BERT 創建的掩蔽預訓練語言模型,以及標準語言模型來分別預訓練編碼器和解碼器。

結果如表 2 所示,MASS 在 WMT14 英語-法語、WMT16 英語-德語和英語-羅馬尼亞語的六個翻譯方向上的表現都優於 XLM,並取得了最新的最優結果。

表 2 MASS 與之前關於無監督機器翻譯方法之間的比較;英語-法語翻譯報道在 newstest2014 上,其它的在 newstest2016 可以找到;由於 XLM 在編碼器和解碼器中使用 MLM 和 CLM 的不同組合,因此報告上顯示的是每個語言對上 XLM 的最高 BLEU 值

低資源機器翻譯

低資源機器翻譯是指使用有限的雙語訓練數據來進行機器翻譯。研究人員模擬了 WMT14 英語-法語,WMT16 英語-德語和英語-羅馬尼亞語翻譯(分別為 10K,100K 和 1M 雙語數據)的低資源情景。

圖 6 MASS 與低資源機器翻譯方法之間的比較

圖 6 顯示 MASS 在不同數據規模上的表現,均比不用預訓練的基線模型有不同程度的提升,並隨著監督數據越少,提升效果越顯著。

文本摘要生成

研究人員將 MASS 與 BERT LM(編碼器用 BERT 預訓練,解碼器用標準語言模型 LM 預訓練)、DAE(去噪自編碼器)進行了比較。從表 3 中可以看出,MASS 的表現都優於 BERT LM 和 DAE。

表 3 文本摘要生成任務中,MASS 和兩種預訓練方法之間的比較

對話生成

研究人員將 MASS 和 BERT LM 進行了比較。表 4 顯示 MASS 實現了比 BERT LM 更低的 PPL。

MASS 連續在序列到序列的語言生成任務上實現顯著增益,Facebook 的研究者表示,期待今後在自然語言理解任務中測試 MASS 的性能,並希望在未來的工作中,將 MASS 的應用領域擴展到包含語音、視頻等其它序列到序列的生成任務中。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

CVPR 2019 | 視頻內容消除新突破——「Deep Flow-Guided」(含開源代碼)
深度學習+符號表徵=強大的多任務通用表徵,DeepMind新論文可能開啟AI新時代

TAG:雷鋒網 |