如何找到相似Graph？DeepMind提出超越GNN的圖匹配網路

新聞 05-07

近日，DeepMind 和谷歌聯合進行了一項研究，該研究提出了一種執行相似性學習的新型強大模型——圖匹配網路（GMN），性能優於 GNN 和 GCN 模型。該論文已被 ICML 2019 接收。

DeepMind 和谷歌的這項新研究聚焦檢索和匹配圖結構對象這一極具挑戰性的問題，做出了兩個重要貢獻。

首先，研究者展示了如何訓練圖神經網路（GNN），使之生成可在向量空間中執行高效相似性推理的圖嵌入。其次，研究者提出了新型圖匹配網路模型（GMN），該模型以一對圖作為輸入，通過基於跨圖注意力的新型匹配機制進行聯合推理，從而計算它們之間的相似性分數。

研究者證明 GMN 模型在不同領域中的有效性，包括極具挑戰性的基於控制流圖的函數相似性搜索問題，這個問題在檢索軟體系統的漏洞中起著非常重要的作用。實驗分析表明 GMN 模型不止能在相似性學習的環境下利用結構，還能超越針對這些問題手動精心設計的特定領域基線系統。

如何找到相似Graph？DeepMind提出超越GNN的圖匹配網路

研究主題：圖相似性學習問題

圖是編碼關係結構的自然表徵，常常出現在多個領域中。根據圖結構數據定義的計算可以用在各種領域中，從計算生物學和化學的分子分析到自然語言理解中知識圖或圖結構解析的分析都可以。

近幾年來，圖神經網路（Graph Neural Network，GNN）已經成為可以有效學習結構數據表徵、解決各種基於圖的監督預測問題的模型了。這樣的模型在迭代聚合局部結構信息的傳播過程中設計並計算圖節點表徵，從而對圖元素的排列（permutation）具有不變性。然後直接將這些節點表徵用於節點分類，或者將它們合併到用於圖分類的圖向量中。而 GNN 在監督分類或回歸以外的問題的相關研究相對較少。

DeepMind 的這篇論文研究的是圖結構對象的相似性學習問題，這個問題在現實生活中有很多重要的應用，尤其是在圖資料庫中基於相似性的搜索。還有一個應用是涉及計算機安全的二元函數相似性搜索，給定的二元函數可能包含有已知漏洞的代碼，我們要檢查這個二元函數中是否有和已知易受攻擊的函數相似的控制流圖（control-flow-graph）。這有助於識別閉源軟體中易受攻擊的靜態連結函式庫，這是一個很常見的問題 (CVE, 2010; 2018)，現在還沒有很好的解決方法。圖 1 展示了一個例子，在這個例子中用彙編語言注釋的控制流圖來表示二元函數。這種相似性學習問題極具挑戰性，因為就算是圖之間細微的差別也會造成語義上極大的不同，但結構不同的圖語義上可能非常相似。因此，對這個問題而言，一個成功的模型應該（1）利用圖結構；（2）能從圖的結構和學習到的語義中推導出圖的相似性。

如何找到相似Graph？DeepMind提出超越GNN的圖匹配網路

圖 1：二元函數相似性學習問題。檢查兩個圖是否相似需要推理圖的結構和語義。左邊兩個控制流圖對應使用不同編譯器編譯的相同函數（因此二者比較相似），但右側圖對應的是不同函數。

解決方案

為了解決圖相似性學習問題，該論文研究了 GNN 在這種情況中的使用，探討了如何用 GNN 將圖嵌入到向量空間，並學習這種嵌入模型，從而使向量空間中相似的圖靠近、不相似的圖分開。這個模型的一個重要特性是它可以將每一個圖獨立地映射到一個嵌入向量，然後在向量空間中執行相似性計算。因此，可以預先計算並索引大型資料庫中的圖嵌入，這樣就能用快速的最近鄰搜索數據結構（如 k-d 樹）或局部敏感哈希演算法 (Gionis et al., 1999) 執行高效的檢索。

研究者進一步擴展 GNN，提出新型圖匹配網路（Graph Matching Networks，GMN）來執行相似性學習。GMN 沒有單獨計算每個圖的圖表徵，它通過跨圖注意力機制計算相似性分數，來關聯圖之間的節點並識別差異。該模型依賴成對圖計算圖表徵，因此它比嵌入模型更強大，並在準確率和計算之間做出了很好的權衡。

研究者在三個任務上評估了 GMN 和基線模型：僅捕獲結構相似性的合成圖編輯距離學習任務（synthetic graph edit-distance learning tas），以及兩個現實世界任務——二元函數相似性搜索和網格檢索，這兩項任務都需要推理結構相似性和語義相似性。在所有任務中，GMN 都比基線和結構不可知（structure agnostic）模型的性能更好。在更詳細的模型簡化測試中，研究者發現 GMN 始終優於圖嵌入模型和 Siamese 網路。

該研究的貢獻如下：

展示了如何用 GNN 產生用於相似性學習的圖嵌入；
提出了新型圖匹配網路（GMN），該網路基於跨圖注意力匹配來計算相似性；
實驗證明，該研究提出的圖相似性學習模型 GMN 在多個應用中都有良好的表現，比結構不可知模型和現有的手動建立的基線模型都要好。

深度圖相似性學習

給定兩個圖 G1 = (V1, E1) 和 G2 = (V2, E2)，我們需要一個可以計算兩圖之間相似性分數 s(G1, G2) 的模型。每個圖 G = (V, E) 被表示為節點 V 和邊 E 的集合，每個節點 i∈V 都可以和特徵向量 x_i 相關聯，每條邊 (i, j) ∈ E 都可以和特徵向量 x_ij 關聯起來。這些特徵可以表示節點類型、邊的方向等。如果一個節點或者一條邊不能關聯任何特徵，那麼我們可以將對應向量設置成值為 1 的常量。研究者提出了兩個圖相似性學習模型：一個是基於標準 GNN 的學習圖嵌入的模型；另一個是更為嶄新也更加強大的 GMN。圖 2 展示了這兩個模型：

如何找到相似Graph？DeepMind提出超越GNN的圖匹配網路