阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監督學習框架

最新 03-23

AI 科技評論按：阿里巴巴有 11 篇論文被 AAAI 2018 錄用，分別來自機器智能技術實驗室、業務平台事業部、阿里媽媽事業部、人工智慧實驗室、雲零售事業部，其中有 5 位作者受邀在主會做 Oral&Spotlight 形式報告，另有 1 位作者攜兩篇論文在主會以 Poster 形式做報告。論文內容涉及對抗學習、神經網路、提高輕量網路性能的訓練框架、機器翻譯、聊天機器人、無監督學習框架、極限低比特神經網路等技術方向。

以下為阿里巴巴 AI Lab 與微軟研究院、伊利諾伊大學厄巴納-香檳分校的合作論文解讀投稿。

主要作者（中英文）：鍾澤軒 Zexuan Zhong、曹涌 Yong Cao、郭沐 Mu Guo、聶再清 Zaiqing Nie

論文下載地址：

https://102.alibaba.com/downloadFile.do?file=1518508273059/CoLink%20An%20Unsupervised%20Framework%20for%20User%20Identity%20Linkage.pdf

摘要

將幾個子知識圖譜上的同一實體信息鏈接在一起（也被稱為用戶身份鏈接（UIL）問題）對很多應用而言都至關重要。實體鏈接問題有兩大主要難點。

第一，收集人工鏈接的實體信息對（user pairs）作為訓練數據的成本非常高昂。

第二，不同子知識圖譜的實體屬性通常有非常不同的定義方式和格式，這使得屬性對齊（attribute alignment）非常困難。

我們在本論文中提出了 CoLink，一種用於實體信息鏈接問題的通用型無監督框架。CoLink 使用了一種能同時操作兩個獨立模型（基於屬性的模型和基於關係的模型）的協同訓練演算法，並且能以無監督學習的方式迭代式地讓兩個模型彼此互相增強。我們還提出使用「序列到序列」學習作為基於屬性的模型非常有效，這種方法能將屬性對齊難題當作機器翻譯問題處理。我們將 CoLink 應用到了將企業網路中的員工映射到他們的領英（LinkedIn）個人資料的實體信息鏈接任務上。實驗結果表明 CoLink 在 F1 分數上的表現超過之前最佳的無監督方法的 20% 以上。

引言

將不同子知識圖譜上的同一實體信息鏈接起來（也被稱為用戶身份鏈接（UIL）問題）通常能得到對該實體的更好和更深度的理解，這通常又能進一步得到更好的商業智能。

儘管機器學習演算法已經在實體鏈接問題上得到了廣泛的應用，但訓練數據的標註工作並不簡單。首先，尋找已鏈接實體信息配對是極其耗時的，因為這需要搜索所有子知識圖譜以及仔細評估大量候選配對。另外這個工作還需要人類標註者具有廣泛的領域知識。其次，由於隱私保護的原因，並非所有知識圖譜的實體數據都可以提供給人類標註者，尤其是當這些資料來自個人社交網路或企業內部網路時。

在兩個子知識圖譜之間鏈接實體需要仔細比對兩個子圖譜中的實體屬性，比如名稱、職位、位置等。因此，屬性值的對齊對實體鏈接問題而言至關重要。但是，傳統的字元串相似度函數有兩個不足之處：

沒有一個通用方法可以處理相同屬性在不同實體網路中的變化

無法找到隱式的屬性對應關係

在這篇論文中，我們提出了一種用於實體鏈接問題的通用型無監督框架 CoLink。知識圖譜中的實體數據可以自然地劃分為兩個獨立的角度的特徵：屬性和關係，這完美契合協同訓練（co-training）演算法的要求。

CoLink 使用兩個獨立的模型：一個基於屬性的模型和一個基於關係的模型。基於屬性的模型和基於關係的模型都是二元分類器，決定兩個實體是否能鏈接起來。它們可以基於任何機器學習或啟發式演算法。因此，只要知識圖譜資料中包含屬性和關係，那就可以將 CoLink 應用於該知識圖譜的實體鏈接問題上。

更進一步，我們在 CoLink 的基於屬性的模型的實現中使用了「序列到序列」學習演算法，這為不同實體網路之間的屬性對齊提供了一種通用方法。我們沒有將屬性對齊當成字元串相似度比較而進行處理，而是試圖將一種「語言」（一種特定風格的網路）的屬性值「翻譯」成另一種「語言」。縮略語、縮寫、同義詞甚至隱式對應關係都可被視為翻譯的特殊情況。我們選擇「序列到序列」演算法的原因是其已經表現出了在機器翻譯任務上的有效性。具體而言，「序列到序列」方法有兩種可用於 CoLink 的優勢。首先，它幾乎無需手動提取特徵就能自動得到詞層面的映射和序列層面的映射。其次，它只需要正例（已對齊的屬性對）作為訓練數據，這能減輕採樣負例的工作。

我們將 CoLink 應用到鏈接社交網路的相同用戶的任務上，其中我們試圖將企業網路中的員工和他們的領英個人資料鏈接起來。我們進一步比較了 CoLink 和之前最佳的無監督方法。實驗結果表明 CoLink 在 F1 分數上的表現總體上能超過之前最佳的無監督方法的 20%。我們的貢獻總結如下：

我們最早將協同訓練演算法用在了知識圖譜實體鏈接的問題上。由於實體網路中的實體屬性和實體關係是自然分開的，這使得協同訓練是一種完美且無成本的解決方案。

我們最早將屬性對齊問題建模為機器翻譯。我們使用「序列到序列」方法作為基於屬性的模型的基礎，這幾乎無需提取特徵就能實現很好的泛化。

我們進行了大量實驗，比較了我們提出的方法和之前最佳的無監督方法，列舉了不同的設置和模型，結果表明了我們提出的解決方案的有效性。

CoLink

問題定義

知識圖譜上的實體鏈接問題定義為：其輸入包括一個源知識圖譜和一個目標知識圖譜。其輸出為一個實體鏈接對集合，表示從源圖譜中鏈接到目標圖譜中的實體對。

CoLink 框架

CoLink 框架基於如演算法 1 所示的協同訓練演算法。我們在該框架中定義兩個不同的模型：一個基於屬性的模型 fatt 和一個基於關係的模型 frel。這兩個模型都會進行二元分類預測，將一組給定實體對分類為正例（鏈接的）或負例（非鏈接的）。該協同訓練演算法以迭代的方式不斷增強這兩個模型。在每一次協同訓練迭代過程中，兩個模型都會使用已鏈接配對集 S 進行再訓練。然後使用這兩個模型生成的高質量的已鏈接配對會被合併到 S 中以用於下一次迭代，直到 S 收斂。在最開始時，需要一個初始的已鏈接配對集（簡稱種子集）來啟動這個協同訓練過程，這個集合可以通過一組種子規則生成。根據模型所用的演算法，基於屬性的模型和基於關係的模型的訓練可能會需要負例。演算法 1 中沒有給出採樣負例的過程。

演算法 1：CoLink 中的協同訓練演算法

這個協同訓練演算法不會修改之前的迭代中生成的已鏈接配對。因此由之前的迭代引入的誤差不會在後面得到修復。這種演算法的一種替代方案是在協同訓練收斂之後進行一次最終修改。即使用該協同學習過程所得到的最終模型來重構 S。

種子規則

該協同訓練演算法的啟動需要一個已鏈接實體對構成的小型種子集。獲取種子集的一種簡單直接的方法是根據人工設計的規則來生成，我們稱之為種子規則。這些種子規則可以考慮來自目標知識圖譜的以下事實：

實體名稱唯一性

實體屬性值映射

實體關係傳播

種子規則的選取會直接影響 CoLink 的表現。

基於屬性的模型

基於屬性的模型通過考慮實體的屬性來預測鏈接的實體對。它可以使用任何分類演算法。在這篇論文中，我們嘗試了兩種不同的機器學習演算法：「序列到序列」和支持向量機（SVM）。

序列到序列

由於屬性有不同的變化形式，所以傳統的字元串相似度方法在處理屬性對齊方面表現很差。由於屬性對齊類似於機器翻譯問題，所以我們採用了「序列到序列」方法。縮略語、縮寫、同義詞甚至隱式鏈接都可被視為翻譯的特殊情況。

我們採用了 Sutskever, Vinyals, and Le (2014) 提出的「序列到序列」網路結構。該網路由兩部分構成：序列編碼器和序列解碼器。編碼器和解碼器都使用了深度長短期記憶（LSTM）架構。編碼器深度 LSTM 會讀取輸入序列並求出每個詞位置的表示向量。然後這些向量會被送入一個注意層（attention layer），從而得到一個考慮了輸出詞位置的輸入序列的整體表示。然後解碼器深度 LSTM 的隱藏狀態會進一步被送入一個全連接層（其輸出包含辭彙庫大小的維度信息），進而預測輸出詞。

我們按照之前的工作，使用已鏈接屬性值配對訓練了「序列到序列」網路。但是，我們不是使用網路預測輸出序列，而是在 CoLink 中使用所學習到的「序列到序列」網路來進行二元分類。首先，我們使用該網路求出對於一對屬性匹配的概率。然後，我們選擇一個匹配概率閾值，超過該閾值的實體對被認為是有鏈接的。

支持向量機

SVM 等傳統的分類演算法也可以用在基於屬性的模型中。不同於只需要正例訓練樣本（已鏈接配對）的「序列到序列」方法，SVM 還需要負例。因為用戶配對空間非常大，所以正例在整個空間中實際上非常稀疏。在每次聯合訓練迭代中，給定已鏈接配對，我們還會選擇同等數量的隨機實體對作為負例。

基於關係的模型

基於關係的模型僅使用實體關係來預測鏈接實體對。只根據關係來尋找兩個網路中同等結點的問題通常被稱為網路對齊問題。

基於關係的模型可以使用任何基於關係的網路對齊模型。因為本文的重點是協同訓練演算法和「序列到序列」的基於屬性的模型，所以我們在本論文中使用了一種簡單的啟發式模型，該模型基於一個假設：如果兩個來自不同網路的實體都具有大量互相關聯的已鏈接實體，那麼這兩個實體很可能也是鏈接的。

實驗

數據集

我們選擇了一個真實數據集來評估 CoLink，它包含兩個社交網路。其中一個社交網路是領英，另一個網路是一個企業內部用戶網路。

表 1：數據集總體情況

候選實體對的選擇

我們構建了一個候選實體對過濾器，它能移除大量不可能鏈接的實體對。該候選項過濾器考慮了以下屬性。

實體名

組織機構

在過濾之後，我們得到了 758046 個候選實體對，其涵蓋了測試集合中所有有鏈接的配對。

序列到序列

我們實驗中的「序列到序列」網路由一個帶注意網路的深度 LSTM 編碼器和一個深度 LSTM 解碼器構成。編碼器深度 LSTM 和解碼器深度 LSTM 都有 2 個層疊的 LSTM，因為我們發現對於實體鏈接任務而言，超過 2 層的編碼器或解碼器不能再帶來更多提升。每個 LSTM 的循環單元大小為 512。每個詞在被送入編碼器和解碼器之前都首先會被轉換成一個 512 維的嵌入向量。「序列到序列」模型的訓練時間取決於訓練數據的規模。平均而言，使用一個 Tesla K40 GPU，讓模型在 10 萬個屬性配對上完成訓練需要 30 分鐘。

種子規則

為了測試 CoLink 的穩健性，我們嘗試了下列 3 個種子規則集：

粗略調整的集合

精細調整的集合

有雜訊集合

圖 1：種子集比較；協同訓練迭代開始後的 P/R/F1 趨勢

協同訓練

我們通過將關係特徵和屬性特徵分開而使用了協同訓練。基於屬性的模型和基於關係的模型都能在每次迭代中找到新配對然後增強彼此。圖 2 給出了每個模型所得到的已鏈接配對的統計情況。在這項任務中，基於屬性的模型生成的配對比基於關係的模型多，這是因為我們沒有完整的領英關係數據。我們爬取了公開的領英個人資料中的「人們還看了」列表，這隻能為每位用戶提供不到 10 個關係。