蘋果發文：全局語義信息能否改進神經語言模型？

知識 10-16

選自machinelearning.apple

機器之心編譯

參與：Huiyuan Zhuo、路

用於訓練詞嵌入的大多數技巧是捕捉給定詞在句子中的局部上下文，但當涉及全局語義信息時，此類嵌入的表達能力有限。然而，目前基於局部上下文訓練的詞嵌入仍然是主流，那麼使用全局語義信息能否改善神經語言模型呢？蘋果的框架自然語言處理團隊對此進行了探討。全局語義上下文能否改善 QuickType 鍵盤的詞預測？蘋果是否會將這一技術應用於實際生產？

在 iPhone 上輸入文本、發掘用戶可能感興趣的新聞、查明用戶遇到問題的答案，以及其他語言相關的任務都取決於穩健的自然語言處理（NLP）模型。詞嵌入是一類 NLP 模型，它在數學上將詞映射為數值向量。這種能力使得找到數值相似的向量或向量簇變得非常簡單，而後通過反向映射來得到相關的語言信息。這些模型是 News、搜索、Siri、鍵盤和 Maps 等常見應用程序的核心。本文將探討能否通過全局語義上下文（global semantic context）改善 QuickType 鍵盤的詞預測。

簡介

你應該通過上下文去了解一個詞。

——語言學家 John Rupert Firth

如今，用於訓練詞嵌入的大多數技巧是捕捉給定詞在句子中的局部上下文，也就是一個包含在所討論詞之前和之後相對少量（比如說 5 個）詞的窗口。例如，在《美國獨立宣言》中，詞「self-evident」就擁有局部上下文，詞左邊是「hold these truths to be」，右邊是「that all men are created」。

本文介紹了這種方法的擴展版本，它是捕捉文檔的整個語義上下文，例如整本《獨立宣言》。這種全局語義上下文能否改善語言模型？我們首先來看目前詞嵌入的使用情況。

詞嵌入

以無監督方式訓練的連續空間詞嵌入對於各種自然語言處理（NLP）任務是非常有用的，如信息檢索 [1]、文檔分類 [2]、問答 [3] 和聯結主義語言建模 [4]。最基本的嵌入基於 1-N 編碼，即大小為 N 的基礎辭彙表中的每個詞都由 N 維稀疏向量來表示（詞的索引為 1，其他為 0）。更複雜的嵌入是將詞映射為低維連續空間上的密集向量。在維度減少的過程中，映射有效地採集到詞一定量的語義、語法和語用信息。計算向量間的距離然後生成詞的相似性度量，這些都是無法僅僅通過詞本身去直接計算的。

有兩種基本的降維詞向量類型：

從詞的局部上下文生成的表示（如前 L 個詞和後 L 個詞，其中 L 通常是一個小的整數）。

利用詞的全局上下文生成的表示（如它所在的整個文檔）。

利用局部上下文的方法有：

使用神經網路架構的基於預測的方法 [5]，如連續詞袋模型和 skip-gram 模型。

源自聯結主義語言建模的投影層技術 [6]。

使用自編碼器配置的瓶頸表示 [7]。

利用全局上下文的方法有：

全局矩陣分解法，如潛在語義映射（latent semantic mapping，LSM），它使用詞—文檔共現數 [8]。

對數線性回歸建模，如 GloVe，它使用詞—詞共現數 [9]。

像 LSM 這樣的全局共現計數法會形成被認為是真正語義嵌入的詞表示，因為它們公開了統計信息，而這些信息採集了整個文檔傳達的語義概念。相比之下，使用神經網路的基於預測的典型解決方案僅封裝了語義關係，它們在一個以每個詞為中心的局部窗口中出現（這是預測中使用的所有內容）。因此，當涉及全局語義信息時，由此類解決方案產生的嵌入本身的表達能力有限。

儘管有這種限制，研究人員仍然更多地採用基於神經網路的嵌入。特別是連續詞袋模型和 skip-gram（線性）模型，因為它們能夠傳達與「king is to queen as man is to woman」同一類型的詞類比。因為基於 LSM 的方法大多無法呈現這樣的詞類比，所以普遍的觀點是，由於向量空間的單個維度缺乏精確的含義，基於 LSM 的方法產生了一個次優的空間結構。

這種認識促使我們探索基於深度學習的替代方案能否比現有的 LSM 方法表現得更好。我們特別研究了是否可以通過使用不同類型的神經網路架構來實現更強大的語義嵌入。

在下一節中，我們將討論在 Apple QuickType 鍵盤上使用這些嵌入提高預測準確率所涉及的挑戰。我們回顧了我們所採用的雙向長短期記憶架構（bi-LSTM）。然後介紹了這種架構獲得的語義嵌入，及其在神經語言建模中的用途。最後，我們討論了從中獲得的見解以及對未來發展的看法。

神經架構

創建詞嵌入最有名的框架之一是 word2vec。我們決定研究一種可以提供全局語義嵌入的神經網路架構，因此我們選擇 bi-LSTM 循環神經網路（RNN）架構。此方法允許模型訪問過去、現在與未來的輸入信息，從而使得模型能夠採集全局上下文。

我們設計了這個架構，使之能夠接受多達一個完整文檔的輸入。至於輸出，它提供與文檔相關聯的語義類別，如圖 1 所示。生成的嵌入不僅採集了詞的局部上下文，該採集了輸入的整個語義結構。

該架構解決了兩個主要障礙。第一個障礙是對圍繞每個詞的有限大小窗口中包含的局部上下文的限制，這個窗口用來預測輸出標籤。通過轉換為嵌入計算的雙向循環實現，該架構原則上能夠容納無限長度的左右上下文。這樣不僅可以處理句子，還可以處理整個段落，甚至是一整個文檔。

圖 1：全局語義嵌入的 RNN 架構。

第二個障礙與預測目標本身有關。到目前為止，所有的神經網路解決方案都可以預測上下文中的詞或局部上下文，而這並不能充分反映全局語義信息。相反，圖 1 所示架構直接從輸入文本預測全局語義類別。為了簡化語義標籤的生成過程，我們發現去獲得合適的聚類類別更加方便，例如，從使用 LSM [8] 獲得的初始詞—文檔嵌入中獲得聚類類別。

讓我們仔細看看該網路是如何運作的。假設當前所考慮的文本塊（無論是句子、段落還是整個文檔）由 T 個片語成 x(t)，1 ≤ t ≤ T，並且與語義類別 z 全局相關。我們把這個文本塊作為雙向 RNN 架構的輸入。

輸入文本中的每個詞 x(t) 使用 1-N 編碼進行編碼，因此，x(t) 是 N 維的稀疏向量。左邊上下文的 H 維向量 h(t-1) 包含左邊上下文的內部表示，它來自於前一個時間步的隱藏層中的輸出值。右邊上下文的 H 維向量 g(t+1) 包含下一個時間步的隱藏層中的右邊上下文輸出值。該網路在當前時間步計算隱藏節點的輸出值：

h(t)=F

g(t)=F

其中：

F{·} 表示激活函數，如 sigmoid、雙曲正切或線性修正單元。（或者，純線性激活函數可用來確保在詞類比上的良好性能。）

s(t) 表示網路狀態，它是左右上下文隱藏節點的級聯：s(t) = [g(t) h(t)]，維度是 2H。將此狀態看作是維度 2H 的向量空間中的詞 x(t) 的連續空間表示。

該網路的輸出是與輸入文本相關聯的語義類別。因此，在每個時間步中，對應於當前詞的輸出標籤 z 被編碼為 1-K，通過以下公式計算並獲得：

z=G

其中：

G{·} 表示 softmax 激活函數

在訓練該網路時，我們假設有一組可用的語義類別注釋。如前所述，這些注釋可能來自於使用 LSM 獲得的初始詞—文檔嵌入。

為了避免典型的梯度消失問題，我們使用 LSTM 或門控遞歸單元（GRU）作為隱藏節點。此外，你可以根據需要將圖 1 所示的單個隱藏層擴展到任意複雜的、更深的網路。例如，兩個堆疊的 RNN 或 LSTM 網路在許多應用上取得了良好的表現，如語種識別。

語義詞嵌入

對於基礎辭彙表中的每個詞，給定每個文本塊（句子、段落或文檔），我們要尋找的詞表示是與該詞相關的已訓練網路的狀態。當詞只出現在一個文本中時，我們使用對應的向量（維度是 2H）。如果一個詞出現在多個文本中，我們相應地求所有相關向量的平均值。

與 LSM 一樣，與特定語義類別密切相關的詞傾向於和代表該語義類別的維度一致。相反，功能詞（即「the」、「at」、「you」這樣的詞）傾向於聚集在向量空間的原點附近。

注意，可以通過迭代所獲得的連續語義嵌入和你想實現的語義粒度來細化初始語義類別集。

詞表外（OOV）的詞需要特殊處理，因為它們超出了 1—N 編碼範例。一種可能方法是為 OOV 分配一個額外的維度，使得輸入維度變為 1-(N+1)。網路的其餘部分保持不變。這樣的話，維度 2H 的單個向量最終是任意 OOV 詞的表示。

神經語言建模

在最初的實驗中，我們在一個約 7000 萬詞、維度 2H 為 256 的專用段落語料庫中訓練語義嵌入。然而，我們發現，即使在長度標準化的條件下，仍然難以處理每個輸入段落的長度顯著變化的情況。此外，在段落數據上訓練詞嵌入與在句子數據上訓練語言模型之間的不匹配似乎超過了添加全局語義信息帶來的好處。這與我們之前的觀察一致，即任何嵌入都是在將使用的確切數據類型上訓練得最好。通常，數據驅動的詞嵌入在任務中並不是可移植的。

因此我們決定在用於訓練 QuickType 預測類型神經語言模型的（句子）語料庫的一個子集上訓練嵌入。然後，我們在標準語言建模測試數據集上測量嵌入的質量，如表 1 所示。符號「1-of-N」表示我們的標準稀疏嵌入，而「word2vec」表示在大量數據上訓練的標準 word2vec 嵌入。

表 1：語言建模測試集上的困惑度結果（訓練語料庫的大小有變化，如圖所示）。

我們驚訝地發現，在少量數據上訓練的 bi-LSTM 嵌入與在更大（7 倍以上）數據上訓練的 word2vec 嵌入表現差不多。類似地，bi-LSTM 嵌入與在更大（5000 倍以上）數據上訓練的 one-hot 向量表現得一樣好。因此，我們提出的方法十分適合那些收集大量訓練數據耗時且昂貴的應用。

結論

我們評估了將全局語義信息納入神經語言模型中的潛在好處。由於這些模型本身是為局部預測而設計優化的，因此它們無法正確利用可能十分相關的全局信息。利用全局語義信息通常有利於神經語言建模。然而，正如我們所發現的那樣，這種方法需要解決段落數據上訓練的詞向量與句子數據上訓練的語言模型之間的長度不匹配問題。

我們認為解決這個問題最好的辦法是修改語言模型訓練中使用的客觀標準，這樣我們就可以在同一段落數據上同時訓練嵌入和語言模型。目前，我們正在試驗一個多任務目標，以同時預測語義類別（用來訓練語義嵌入）和下一個詞（用來訓練神經語言模型）。

總之，使用 bi-LSTM RNN 訓練全局語義詞嵌入確實可以提高神經語言建模的準確率。它還可以大大減少訓練所需的數據量。

在未來，我們認為多任務訓練框架有可能通過利用局部和全局語義信息來實現兩全其美。

參考文獻

[1] C.D. Manning, P. Raghavan, and H. Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008.

[2] F. Sebastiani. Machine Learning in Automated Text Categorization. ACM Computing Surveys, vol. 34, pp. 1–47, March 2002.

[3] S. Tellex, B. Katz, J. Lin, A. Fernandes, and G. Marton. Quantitative Evaluation of Passage Retrieval Algorithms for Question Answering. Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 41–47, July–August 2003.

[4] H. Schwenk. Continuous Space Language Models. Computer Speech and Language, vol. 21, issue 3, pp. 492–518, July 2007.

[5] T. Mikolov, W.T. Yih, and G. Zweig. Linguistic Regularities in Continuous Space Word Representations. Proceedings of NAACL-HLT 2013, June 2013.

[6] M. Sundermeyer, R. Schlüter, and H. Ney. LSTM Neural Networks for Language Modeling. InterSpeech 2012, pp. 194–197, September 2012.

[7] C.Y. Liou, W.C. Cheng, J.W. Liou, and D.R. Liou. Autoencoder for Words.Neurocomputing, vol. 139, pp. 84–96, September 2014.

[8] J.R. Bellegarda. Exploiting Latent Semantic Information in Statistical Language Modeling. Proceedings of the IEEE, vol. 88, issue 8, pp. 1279–1296, August 2000.

[9] J. Pennington, R. Socher, and C.D. Manning. GloVe: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp 1532–1543, October 2014.

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※2018年「二十一世紀的計算」學術研討會暨微軟教育峰會開放報名！
※前沿 | 看圖聊天的騷操作，MIT開發精準到單詞的語音-圖像配對系統

TAG:機器之心 |