當前位置:
首頁 > 新聞 > ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

選自arxiv

作者:Carl Allen、Timothy Hospedales

機器之心編譯

參與:王子嘉、張倩


前不久,ICML大會在美國舉辦。大會放出了

最佳論文

等獎項,還有7篇最佳論文榮譽提名論文,本文便是其中的一篇。在這篇論文中,來自愛丁堡大學的研究者提出了一種解釋詞嵌入類比(如「女人之於王后就像男人之於國王」)的新方式,推導出了一種意譯 (paraphrasing) 的概率定義,即「w_x之於w_y」的數學描述。他們通過這些概念證明了W2V型嵌入之間存在線性關係。

word2vec(W2V)這類神經網路生成的詞嵌入以其近似線性的特性而聞名,比如「女人之於王后就像男人之於國王」這種類比嵌入,描述了一種近似平行四邊形的結構。

有趣的是,這個特性並不是從訓練中得來的。對此現象也有幾種解釋,但每一種解釋都引入了不太合理的假設。

研究者推導出一種意譯(paraphrasing)的概率定義,即「w_x 之於 w_y」的數學描述,並將其稱為單詞轉換(word transformation)。他們通過這些概念證明了 W2V 型嵌入之間存在線性關係,這些關係是類比的基礎,並確定了顯式誤差項。

研究者首先展示了嵌入在因子分解點互信息(PMI)的情況下,它的意譯決定了嵌入的線性組合何時等於另一個單詞的線性組合。例如,如果 king 和 {man, royal} 是語義等價的,就說 king 可以意譯為 man 和 royal。

我們可以用鄰近單詞的概率分布來衡量這種等價性,這印證了一句弗斯的一句格言——「你應該通過語境來理解一個單詞」。然後,研究者提出意譯可以看作是基於加減法的單詞轉換(例如 man 加 royal 變成 king)。

最後,研究者通過將類比「w_a 之於 w_a ^?就像 w_b 之於 w_b ^?」解釋為「w_a 之於 w_a ^?和 w_b 之於 w_b ^?」共享參數的單詞轉換,證明了本文中的觀點。圖 4 展示了類比中詞嵌入的線性關係。

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

打開今日頭條,查看更多圖片

圖 1:類比「man is to king as woman is to ..?」的詞嵌入的相對位置。其中最接近 w_K - w_M + w_W 線性組合的詞嵌入是 queen。研究者解釋了發生這種情況的原因及它們之間的區別。

本文的主要貢獻是:

  • 得出意譯的概率定義,並證明意譯控制一個單詞嵌入(PMIderived)與任意單詞之和的關係;
  • 說明如何泛化意譯,並利用「w_x 之於 w_x^?」的數學表達式將其解釋為從一個單詞到另一個單詞的轉換,;
  • 首次嚴謹地證明了類比詞嵌入之間的線性關係,包括顯式的、可解釋的誤差項;
  • 展示了這些關係如何在 PMI 向量之間實現,這些關係在因式分解了 PMI 矩陣的詞嵌入以及類似的分解(如 W2V 和 Glove 等)中也都適用。

背景知識

Levy & Goldberg(2014b)發現,如果滿足以下條件,則 W2V 的目標函數是最優的:

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

其中,

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

被稱為點態互信息。在矩陣形式中,這等同於:

其中,

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

Glove(Pennington et al., 2014)擁有與 W2V 相同的架構。它的嵌入具有可比性,並具有線性類比結構。對於偏差 b_i、b_j 和歸一化常數 Z,Glove 的損失函數在以下等式成立時是最優的:

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

由於偏差的存在,(3) 泛化 (1),使得 Glove 擁有比 W2V 更大的靈活性以及可能更加廣泛的解。然而,本文將要展示的是,是 PMI 指標的因式分解導致了嵌入中的線性類比結構,正如 W2V (1) 中實現的那樣。研究者推測,支持 Glove 嵌入類比結構的理論基礎也是相同的,但可能由於其增加的靈活性而更加薄弱。

初步研究

研究者考慮了與詞嵌入和共現統計量之間關係相關的方面 (1,2),這與類比嵌入之間的線性結構相關:

偏移的影響

作為一個超參數,它不反映任何詞屬性,對 (1) 中出現的 k 的嵌入的影響也是隨機的。將 k 的典型值與常見的 PMI 值進行比較(圖 2)後可以發現,偏移(shift)(- log k)可能也很重要。

此外,可以觀察到,為了避免偏移的直接影響而對 W2V 演算法的調整提高了嵌入的性能 (Le, 2017)。因此,這種偏移顯然是 W2V 演算法的有害產物,除非另有說明,否則盡量還是使用對未平移 PMI 矩陣進行分解的嵌入:

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

圖 2: 從文本中隨機抽取的單詞對的 PMI 直方圖(w_i, c_j,藍色)與相同單詞重疊(紅色,縮放)的 PMI 直方圖 (w_i, c_i)。偏移使用 k 的典型值。

重構誤差

在實踐中,(2) 和 (4) 僅近似成立,因為

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

相對於分解矩陣 M 是秩約束的(秩 r << d < n),如 (4) 中的 M=PMI。因此,從 W 和 C 中重構 M 的元素容易產生重構誤差。然而,我們始終依賴於 R^n 中的線性關係,只要求它們在「向下」投射到 R^d(嵌入空間)時儘可能不失真。為確保這一點,研究者假設:

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

零同現數(Zero Co-occurrence Counts)

罕見辭彙的同時出現往往會被忽視,因此它們的經驗概率估計值為零,PMI 估計值也未被定義。然而,對於一個固定的字典 E,隨著語料庫或語境窗口的增大,這樣的零計數會減少(如果較遠的單詞向下加權,語境窗口大小可以任意變大,如 Pennington et al. (2014))。

這裡,我們只考慮小詞集 W,並假設

語料庫

和語境窗口足夠大,概率真實值為非零,且其 PMI 值定義良好,即:

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

其中「|W| < l」表示 |W| 充分小於 l。

W 與 C 之間的關係

一些工作(如 Hashimoto et al. (2016),Arora et al .(2016))假設嵌入矩陣 W 和 C 相等,即 w_i = c_i ?_i。這種假設使得參數減半,且簡化了方程,不再需要過多考慮 w_i 和 c_i。

然而,這意味著

ICML 最佳論文提名論文:理解詞嵌入類比行為新方式

,也即要求 PMI 為正半定,這在典型語料庫中是不現實的。因此,w_i、c_i 是不相等的,修改 W2V 來強制它們相等將會帶來不必要的約束,並且很可能使低秩近似惡化。

結論

本文中,研究者通過參考單詞對其周圍的單詞所引起的分布,在單詞和單詞集之間產生等價,推導出意譯的概率定義。

他們證明,在統計依賴關係下,是意譯關係導致了分解 PMI 的詞嵌入(包括 PMI 矩陣的列)與近似分解 PMI 的詞嵌入(如 W2V 和 Glove)之間的線性關係。

意譯可以解釋為單詞轉換,因此我們可以用數學方法定義類比,從而將語義屬性轉換為詞嵌入的屬性。這首次精確地證明了類比詞嵌入之間的線性關係的存在。

在未來的工作中,研究者的目標是將他們對詞嵌入之間關係的理解擴展到其他依賴於底層矩陣分解的離散對象表示應用中,例如圖嵌入和推薦系統。

此外,眾所周知,詞嵌入可以捕捉語料庫中存在的偏見(Bolukbasi et al. (2016)),未來的工作可能會著眼於發展對嵌入組合的理解,以提出糾正或消除帶有偏見的嵌入的方法。

論文鏈接:https://arxiv.org/abs/1901.09813v2

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

AI生成的假新聞難以識別,那就用神經網路來對抗吧
手機搖一搖測體積,2019菜鳥全球科技挑戰賽助力智能物流

TAG:機器之心 |