自然語言處理中的詞向量—word2vec！

知識 01-26

自然語言是一套用來表達含義的複雜系統。在這套系統中，詞是表義的基本單元。在機器學習中，如何使用向量表示詞？

顧名思義，詞向量是用來表示詞的向量，通常也被認為是詞的特徵向量。近年來，詞向量已逐漸成為自然語言處理的基礎知識。

為何不採用one-hot向量

我們在循環神經網路中介紹過one-hot向量來表示詞。假設詞典中不同詞的數量為N，每個詞可以和從0到N?1的連續整數一一對應。假設一個詞的相應整數表示為i，為了得到該詞的one-hot向量表示，我們創建一個全0的長為N的向量，並將其第i位設成1。

然而，使用one-hot詞向量並不是一個好選擇。一個主要的原因是，one-hot詞向量無法表達不同詞之間的相似度。例如，任何一對詞的one-hot向量的餘弦相似度都為0。

word2vec

2013年，Google團隊發表了word2vec工具。word2vec工具主要包含兩個模型：跳字模型（skip-gram）和連續詞袋模型（continuous bag of words，簡稱CBOW），以及兩種高效訓練的方法：負採樣（negative sampling）和層序softmax（hierarchical softmax）。值得一提的是，word2vec詞向量可以較好地表達不同詞之間的相似和類比關係。

word2vec自提出後被廣泛應用在自然語言處理任務中。它的模型和訓練方法也啟發了很多後續的詞向量模型。本節將重點介紹word2vec的模型和訓練方法。

模型

跳字模型

在跳字模型中，我們用一個詞來預測它在文本序列周圍的詞。例如，給定文本序列」the」, 「man」, 「hit」, 「his」, 和」son」，跳字模型所關心的是，給定」hit」，生成它鄰近詞「the」, 「man」, 「his」, 和」son」的概率。在這個例子中，」hit」叫中心詞，「the」, 「man」, 「his」, 和」son」叫背景詞。由於」hit」只生成與它距離不超過2的背景詞，該時間窗口的大小為2。

我們來描述一下跳字模型。

假設詞典大小為|V|，我們將詞典中的每個詞與從0到|V|?1的整數一一對應：詞典索引集V={,1,…,|V|?1}。一個詞在該詞典中所對應的整數稱為詞的索引。給定一個長度為T的文本序列中，t時刻的詞為w(t)。當時間窗口大小為m時，跳字模型需要最大化給定任一中心詞生成背景詞的概率：

上式的最大似然估計與最小化以下損失函數等價

我們可以用v和u分別代表中心詞和背景詞的向量。換言之，對於詞典中一個索引為i的詞，它在作為中心詞和背景詞時的向量表示分別是vi和ui。而詞典中所有詞的這兩種向量正是跳字模型所要學習的模型參數。為了將模型參數植入損失函數，我們需要使用模型參數表達損失函數中的中心詞生成背景詞的概率。假設中心詞生成各個背景詞的概率是相互獨立的。給定中心詞wc在詞典中索引為c，背景詞wo在詞典中索引為o，損失函數中的中心詞生成背景詞的概率可以使用softmax函數定義為

當序列長度T較大時，我們通常隨機採樣一個較小的子序列來計算損失函數並使用隨機梯度下降優化該損失函數。通過微分，我們可以計算出上式生成概率的對數關於中心詞向量vc的梯度為：

而上式與下式等價：

通過上面計算得到梯度後，我們可以使用隨機梯度下降來不斷迭代模型參vc。其他模型參數uo的迭代方式同理可得。最終，對於詞典中的任一索引為i的詞，我們均得到該詞作為中心詞和背景詞的兩組詞向量vi和ui。

連續詞袋模型

連續詞袋模型與跳字模型類似。與跳字模型最大的不同是，連續詞袋模型中用一個中心詞在文本序列周圍的詞來預測該中心詞。例如，給定文本序列」the」, 「man」, 「hit」, 「his」, 和」son」，連續詞袋模型所關心的是，鄰近詞「the」, 「man」, 「his」, 和」son」一起生成中心詞」hit」的概率。

假設詞典大小為|V|，我們將詞典中的每個詞與從0到｜V|?1的整數一一對應：詞典索引集V={,1,…,|V|?1}。一個詞在該詞典中所對應的整數稱為詞的索引。給定一個長度為T的文本序列中，t時刻的詞為w(t)。當時間窗口大小為m時，連續詞袋模型需要最大化由背景詞生成任一中心詞的概率：

上式的最大似然估計與最小化以下損失函數等價

我們可以用v和u分別代表背景詞和中心詞的向量（注意符號和跳字模型中的不同）。換言之，對於詞典中一個索引為i的詞，它在作為背景詞和中心詞時的向量表示分別是vi和ui。而詞典中所有詞的這兩種向量正是連續詞袋模型所要學習的模型參數。為了將模型參數植入損失函數，我們需要使用模型參數表達損失函數中的中心詞生成背景詞的概率。給定中心詞wc在詞典中索引為c，背景詞wo1,…,wo2m在詞典中索引為o1,…,o2m，損失函數中的背景詞生成中心詞的概率可以使用softmax函數定義為

當序列長度T較大時，我們通常隨機採樣一個較小的子序列來計算損失函數並使用隨機梯度下降優化該損失函數。通過微分，我們可以計算出上式生成概率的對數關於任一背景詞向量voi(i=1,…,2m)的梯度為：