最佳論文揭曉：詞嵌入獲得的信息遠比我們想像中的要多得多

知識 11-01

作者：Mikel Artetxe 來源:arXiv,機器之心

10月30日，CoNLL 公布了最佳論文，由來自西班牙巴斯克大學 IXA NLP 組的 Mikel Artetxe 等人獲得。該論文展示了詞嵌入模型能夠捕獲不同層面的信息（如語義/句法和相似度/相關度），為如何編碼不同的語言信息提供了新的視角，該研究還研究了內外部評估之間的關係。

近年來，詞嵌入成為自然語言處理的核心主題。業內提出了多種無監督方法來高效地訓練單詞的密集型向量表徵，且成功地應用到語法解析、主題建模、文檔分類等多類任務。

雖然從理論角度理解這些模型是更加活躍的研究路線，但這些研究背後的基本思路都是為類似的單詞分配類似的向量表徵。由此，大部分詞嵌入模型依賴來自大型單語語料庫的共現統計信息（co-occurrence statistics），並遵循分布假設，也就是相似單詞傾向於出現在相似語境中。

然而，上述論點沒有定義「相似單詞」的含義，且詞嵌入模型實際中應該捕捉哪種關係也不完全清楚。因此一些研究者在真正相似度（如 car - automobile）與關聯度（如 car - road）之間進行區分。從另一個角度來說，詞語相似度可聚焦在語義（如 sing-chant）或者句法（如 sing-singing）上。我們把這兩個方面作為相似度的兩個坐標軸，且每一個坐標軸的兩端為兩種性質：語義/句法軸和相似度/關聯度軸。

本論文提出了一種新方法來調整給定的任意嵌入向量集，使其在這些坐標軸中靠近特定端點。該方法受一階和二階共現研究的啟發，可推廣為詞嵌入向量線性變換的連續參數，我們稱之為相似度階（similarity order）。雖然業內提出了多種學習特定詞嵌入的方法，但之前的研究明確地改變了訓練目標，且總是依賴知識庫這樣的外部資源。而本論文提出的方法可用做任意預訓練詞嵌入模型的後處理，不需要任何額外資源。同樣，該研究表明，標準的詞嵌入模型能夠編碼不同的語言信息，但能夠直接應用的信息有限。此外，該研究也分析了該方法與內部評估和下游任務的關係。該論文主要貢獻如下：

1. 提出了一個具備自由參數的線性變換，能夠調整詞嵌入在相似度/關聯度和語義/句法坐標軸中的性能，並在辭彙類推數據集和相似度數據集中進行了測試。

2. 展示了當前詞嵌入方法的性能受到無法同時顯現不同語言信息（例如前面提到的坐標軸）的限制。該研究提出的方法表明，詞嵌入能夠捕獲的信息多於表面顯現出的信息。

3. 展示了標準的內部評估只能給出一個靜態的不完整圖景，加上該研究提出的方法能夠幫助我們更好地理解詞嵌入模型真正編碼哪些信息。

4. 展示了該方法也能運用到下游任務中，但相比於使用一般詞嵌入作為輸入特徵的監督系統，其效果在直接使用詞嵌入相似度的無監督系統上更顯著，因為監督系統有足夠的表達能力來學習最優變換。

總之，該研究揭示了詞嵌入如何表示不同語言信息，分析了它在內部評估和下游任務中所扮演的角色，為之後的發展開創了新機遇。

論文：Uncovering divergent linguistic information in word embeddings with lessons for intrinsic and extrinsic evaluation

論文鏈接：https://arxiv.org/abs/1809.02094

摘要：隨著詞嵌入最近取得成功，有人認為根本不存在詞的理想表徵，因為不同的模型傾向於捕捉不同且往往互不兼容的方面，如語義/句法和相似性/相關性。本論文展示了每個詞嵌入模型捕獲的信息多於直接顯現的信息。線性轉換無需任何外部資源就能調整模型的相似度階，因此能夠調整模型以在這些方面獲得更好的結果，這為詞嵌入編碼不同的語言信息提供了新的視角。此外，我們還探索了內、外部評估的關係，我們在下游任務中的變換效果在無監督系統中的效果優於監督系統。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI講堂 的精彩文章:

※2018諾貝爾經濟學獎得主，一名62歲的Python教徒
※外媒稱對抗性機器學習存漏洞黑客攻擊輕而易舉

TAG:AI講堂 |