AAAI 2019 論文解讀：卷積神經網路繼續進步

新聞 02-02

卷積神經網路（CNN）近年來已經取得了很大的成功，但研究者仍在進一步推進研究前沿，提出新的思路和方法。在本文中，技術分析師 Joshua Chou 將解讀三篇有關卷積神經網路的 AAAI 2019 論文。其中第一篇提出了一種 dropout 改進方法，第二篇和第三篇則是圖卷積網路方面的研究。

分析師簡介：Joshua 已於 2018 年取得多倫多大學應用科學碩士（MASc）學位。他的研究重心是格形碼（lattice codes）、低密度奇偶校驗（LDPC）碼以及編碼理論的其它方面。他也對凸優化和隨機過程感興趣。Joshua 目前在高通工作，是一位機器學習工程師，專註對推理的優化。

前言

我在本文中介紹了選出的三篇 AAAI 2019 論文。所有這三篇論文都是眾所周知的卷積神經網路的變體。第一篇論文是 Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network，利用了一個簡單的觀察來提升 CNN 的表現。第二篇論文 Graph Convolutional Networks for Text Classification 研究了 CNN 的一種擴展——圖卷積神經網路（GCNN）。GCNN 是直接操作圖，是基於近鄰節點和它們的屬性推導節點的嵌入向量。第三篇論文 Bayesian Graph Convolutional Neural Networks for Semi-supervised Classification 討論了貝葉斯框架下的 GCNN。也就是說，因為現實生活應用中使用的圖有時候源自有雜訊的數據或建模假設，所以圖自身含有不確定性。因此，第三篇論文是通過向 GCNN 中引入概率和統計學來解決這種不確定性。下面我們開始詳細解讀。

Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network
地址：http://home.ustc.edu.cn/~saihui/papers/aaai2019_weighted.pdf

引言

近年來卷積神經網路（CNN）實現了很大的發展，這已經顯著提升了很多不同應用的性能表現。深度 CNN 的成功原因很大程度上是其多個非線性隱藏層的結構，其中包含數以百萬計的參數，因此能夠學習輸入和輸出之間的複雜關係。

這項工作由 Hou 和 Wang 完成，受到了以下觀察的啟發。在一個 CNN 的卷積層的堆棧內，所有的通道都是由之前的層生成的，並會在下一層中得到平等的對待。這就帶來了一個想法：這樣的「分布」可能不是最優的，因為事實可能證明某些特徵比其它特徵更有用。當特徵仍然可追溯時，對於更高層（更淺）來說尤其如此。Zhang et al. 2016 更進一步表明了這一點，他們表明，對於每張輸入圖像，更高層中僅有少量通道被激活，同時其它通道中的神經元響應接近於零。

由此，作者提出了一種根據激活的相對幅度來選擇通道的方法，並可以進一步作為一種建模通道之間的依賴關係的特殊方法。他們這項工作的主要貢獻是為 CNN 中卷積層的正則化提出了加權式通道丟棄（Weighted Channel Dropout/WCD）方法。

加權式通道丟棄

基本思想和一些註解

WCD 背後的主要思想如下：

首先，對前一層輸出的通道進行評級，並為每個通道分配一個分數。這個分數是使用全局平均池化（GAP）操作得到的。
其次，會生成一個二元掩碼來指示每個通道是否被選中，分數相對更高的通道有更高的概率得到保留。
最後，使用一個額外的隨機數生成器來進一步為下一層過濾通道。這可以被視為上述步驟中選擇性 dropout 之上的隨機選擇 dropout。

相對而言，常規 dropout 是以隨機方式掩蔽通道。下面的圖 1 給出了傳統 dropout 流程的示意圖。

AAAI 2019 論文解讀：卷積神經網路繼續進步

圖 1：dropout 示意圖

還有幾點值得一提：

WCD 不依賴任何參數，僅用一些（少量）的計算成本就可被添加到訓練階段的網路中。
因為 WCD 僅能加入訓練階段，所以不影響推理。

方法

如前所述，WCD 的目標是為 CNN 中的卷積層堆棧提供正則化。這篇論文的標註方式如下。令 X = [x_1, x_2, ..., x_N] 表示層 I 的輸出，X^ = [x^_1, x^_2, ..., x^_N^] 表示下一層的輸入。N 和 N^ 表示通道的數量，x_i 和 x^_i 表示第 i 個通道。這篇論文考慮了以下情況。

AAAI 2019 論文解讀：卷積神經網路繼續進步

此外，假設 N^ = N 成立。

第一步：通道評級

這一步涉及到為每個通道分配一個分數。這是使用 GAP 完成的。對於每個通道 i，它的分數可使用（2）式計算得到。

AAAI 2019 論文解讀：卷積神經網路繼續進步

其中 W 和 H 分別是所有通道共享的寬度和高度。

第二步：通道選擇

要決定一個通道是否被選中，方法是構建一個二元掩碼。其中 mask_i 要麼為 1，要麼為 0，分別表示選擇或不選擇通道 i。為了構建這個掩碼，首先要計算出一個概率 p_i 並將其分配給每個通道使用，以確定 mask_i。保留通道的概率 p_i 使用（3）式計算。

AAAI 2019 論文解讀：卷積神經網路繼續進步

因為 P(mask_i = 1) = p_i，所以我們得出結論：有更高分數的通道更可能得到保留。

可以觀察到，上述基於分數向量構建掩碼向量的過程是加權式隨機選擇（WRS）的一種特例。由此可以實現這一步驟。演算法 1 展示了 WRS 演算法。更多信息請參閱 Efraimidis and Spirakis, 2006。

AAAI 2019 論文解讀：卷積神經網路繼續進步

對於分數為 score_i 的每個通道 x_i，生成介於 0 和 1 之間的一個隨機數 r_i，從而得到一個鍵值 key_i。接下來，選擇其中 M 個最大的鍵值並將對應的 mask_i 設置為 1。

第三步：隨機數生成器

這一步可被視為一個可選步驟，因為這更面向於更小的數據集。這是為了應對以下情況。在某個預訓練模型的更高的卷積層，通道之間的差異大於更深卷積層中的情況。也就是說，僅有少量通道被分配了較大的激活值，其它激活值很小。如果網路僅根據這些層中的分數選擇通道，那麼有可能對於每張圖像，被選擇的通道序列在每次前向通過時都一樣。因此，通過添加隨機數生成器，即使 mask_i 已被設置為 1，對應的 x_i 仍有可能不被選擇。

總體方法

新提出的方法可總結為圖 2 的形式。

AAAI 2019 論文解讀：卷積神經網路繼續進步

圖 2：加權式通道 dropout 示意圖

應用和評估 WCD

實驗和設置

理論上，WCD 可以插入任意 CNN 中任意的兩個連續層之間。作者提出將 WCD 用於正則化卷積層的堆棧。作者進行了一些實驗，將 WCD 整合進了 VGGNet (Simonyan and Zisserman 2014)、ResNet (He et al. 2016) 和 Inception (Szegedy et al. 2016) 等著名的網路中。

所有的模型都是使用 Caffe（Jia et al. 2014）在 Titan-X GPU 上實現。WCD 被添加到了訓練階段的網路中，原有的層保持不變。正如前面提到的，在早期卷積層中的通道更容易辨別和更好理解，因此作者在每個網路的更高、更淺層之後部署了 WCD。

實驗使用了以下數據集：

CUB-200-2011（Wah et al. 2011）：一個使用廣泛的細粒度數據集，收集了 200 種鳥類的圖像。每一類有大約 30 張圖像可供訓練。
Stanford Cars（Krause et al. 2013）：一個專註於汽車分類的數據集，包含品牌、型號和年份
Caltech-256：一組目標類別數據集的集合，通過從谷歌圖片搜索下載樣本，然後人工去除不符合該類別的圖像而得到。

圖 3 展示了一些用作網路輸入的數據集中的樣本圖像。

AAAI 2019 論文解讀：卷積神經網路繼續進步

圖 3：(a) CUB-200-2011、(b) Stanford Cars 和 (c) Caltech-256 中的圖像示例

結果

下面展示了被測網路（VGGNet、ResNet 和 Inception）的表現。此外，其中加入了基準表現（沒有集成 WCD）以便比較。

AAAI 2019 論文解讀：卷積神經網路繼續進步

可以看到，整合了 WCD 的模型總是優於基準。但是，這並不意味著整合了 WCD 的網路的表現接近當前最佳，比如 RA-CNN（Fu, Zheng, and Mei 2017）和 MA-CNN（Zheng et al. 2017）。這是因為 WCD 是一種相當通用的方法，可用於在小數據集上微調 CNN 時緩解過擬合問題，其可以整合進這些已有的模型中。

下面展示了在 Caltech-256 數據集上的結果。

AAAI 2019 論文解讀：卷積神經網路繼續進步

前兩行是在一個更大的測試集上得到的基準水平以及使用了 WCD 時的表現，而後兩行是在一個包含 20 張圖像的精簡測試集（與訓練集不重疊）上得到的基準水平以及使用了 WCD 時的表現。可以看到，WCD 在 Caltech-256 上也表現良好，能幫助實現優於基礎模型的表現。

進一步討論

現在讀者可能會問：除了額外的計算，在使用 WCD 時還需要什麼權衡？答案是 WCD 在收斂之前會造成更高的訓練（樣本中）誤差。換句話說，使用 WCD 時的收斂速度更慢。作者提供了使用 VGGNet-16 作為基礎模型在 CUB-200-2011 上的結果。圖 4 展示了其表現

AAAI 2019 論文解讀：卷積神經網路繼續進步

圖 4：WCD 對網路訓練的影響，這是使用 VGGNet-16 作為基礎模型在 CUB-200-2011 上的結果

如圖中描述的那樣，使用 WCD 時的訓練誤差曲線下降更慢，同時所得到的測試誤差更低。這個實驗發現支持這一說法：WCD 可以降低訓練階段中的過擬合。

總結

在這篇論文中，作者提出了一種修改版的 dropout 作為一種 CNN 正則化方法。他們提出的方法 WCD 可用於卷積層的堆棧。這是一種輕量級的組件，僅需在訓練階段引入可忽略的少量計算成本，就能將其整合進任意已有模型中。

我認為這篇論文的有趣之處在於其採用了一個非常簡單的觀察，即更高 (更淺) 的卷積層通常更可解釋；另一個觀察是之前一層所生成的當前所有通道都會在下一層中得到平等對待。作者利用了這兩個觀察來取得更優的表現。

隨著深度學習的持續提升，現在更優的表現往往是通過實現更複雜的演算法或使用更多資源而「擠」出來的。看到有人使用這些簡單的觀察來低成本地提升表現，著實讓人眼前一亮。這種類型的改進可能在機制上並不困難，但也確實需要一些運氣和靈感才能想出來。因此，我認為這是一個值得討論的有趣主題。

Graph Convolutional Networks for Text Classification
地址：https://arxiv.org/pdf/1809.05679.pdf

引言

圖神經網路（Graph Neural Networks/GNN）近年來越來越受歡迎。一些作者已經總結出了一些成熟的神經網路模型，比如一個用於處理結構化圖的卷積神經網路（CNN）。Kipf 和 Welling 在 2017 年提出了圖卷積網路（GCN），其在一些基準圖數據集上取得了當前最佳的分類結果。

簡而言之，GCN 是直接操作圖的多層神經網路，並可基於近鄰節點及它們的屬性推導節點的嵌入向量。這是一種很有趣的網路模型，正在快速發展，因此我的目標是幫助讀者進一步理解如何使用 GCN 以及討論它們在文本分類中的一些應用。

方法

術語和表示方法

GCN 本質上是操作圖的 CNN。我們首先來看看一些所需的符號和術語。

圖表示為 G=(V, E)，其中 V 和 E 分別是節點和邊的集合。假設每個節點都與自己相連。
鄰接矩陣 A 定義為一個 |V| x |V| 的方形矩陣，用於表示 V。A 中的元素表示頂點對是否是鄰接的，還是不在圖中。（|V| 是節點的數量，後面將用 n 表示。）
X 是一個特徵矩陣，其維度為 R^(n x m)，其中 n = |V| 是節點的數量，m 是特徵的數量。
D 是度矩陣（degree matrix）。這是一個 n x n 的對角矩陣，其中元素 D_ii 表示每個節點的度。

GCN 操作的是這些信息，因此可以使用一層卷積自然地獲取有關每個節點的直接近鄰節點的信息。這篇論文的重點不是 GCN 的底層機制，而是如何構建要輸入 GCN 的適當輸入。

為文本 GCN構建圖

現在我們進入這篇論文的核心。異構文本圖既包含詞節點，也含有文檔節點。節點之間的邊可分為兩大類。

文檔中的詞出現

這是連接詞節點和文檔節點的邊。詞-文檔邊的權重是詞-文檔的詞頻-逆文檔頻率（TF-IDF）。詞頻是指詞在文檔中出現的次數，逆文檔頻率（IDF）是指包含該詞的文檔數量的對數尺度的逆向分數。

在計算 TF-IDF 時需要注意幾點。在總結文本時，難點是尋找顯著突出的 token。直觀地看，人們可能會認為最常出現的 token 最重要。但是，很多文檔中最常出現的詞往往不能提供較多重要信息，比如 the、to、with、have（而不只是我們關注的詞）。顯著的 token 往往在多個不同文檔中有較低的數量，而在某個文檔中數量較大。TF-IDF 分數可以使用下列公式進行計算。

AAAI 2019 論文解讀：卷積神經網路繼續進步

在這裡 t 表示詞，d 表示單個文本，D 為文本的集合。對此公式的理解如下:

它的第一部分 tf(t，d) 是用來計算每個詞在單個文本中出現的次數。公式第二部分的詳細表達如下，

AAAI 2019 論文解讀：卷積神經網路繼續進步

上式中分子 D 表達文本集合，它也可被表示為 D=d_1, d_2, ... ,d_n，這裡 n 是集合 (corpus) 中文本的數量。

分母的部分| {d ∈ D : t ∈ d} |表示詞 t 出現在多少文本 d 中 (d ∈ D 限制 d 要屬於文本集合 D 中). 這裡需要指出的是，無論詞 t 在某一個文本里出現了多少次，都只會被記錄一次，因為我們只是要統計它是否出現過。分母加 1 的部分是為了避免分母為 0。

詞共現

這是連接一個詞節點與另一個詞節點的邊。連接兩個詞節點的邊的權重使用逐點互信息（PMI）計算。PMI 度量非常類似資訊理論中的互信息，可以很好地直觀理解。

以英語中文本分類或與文本相關的語言處理為例，這往往涉及到尋找簡單的短語或尋找總是出現在一起（共現/ co-occurrence）的 token 對。可以直觀地認為，如果兩個 token 出現在一起的頻率高於「隨機」情況，則它們就是共現的。PMI 是一種描述這一情況的數學方法。因此，語言模型可能為任意的 token 序列分配一個概率 P(x_1, x_2, ..., x_k)，其中更常見的序列有更高的概率。比如 P(「Los Angeles」) 是英語中「Los」和「Angeles」出現在一起的概率。語言模型可能包含不同長度的序列。

現在考慮一個能夠讀取「詞袋（bag of words）」的 unigram（長度僅為 1 的序列）模型，P(「Los」) x P(「Angeles」) 是「Los Angeles」在這個（隨機）unigram 模型中出現在一起的概率。然後可用下式計算 PMI。

AAAI 2019 論文解讀：卷積神經網路繼續進步

PMI 為正表示詞存在共現，也就是會出現在一起；PMI 為負則說明詞沒有出現在一起。

進一步解讀 GCN

構建圖之後，將其輸入 Kipf and Welling (2017) 描述的 Text GCN 中。我們介紹的這篇論文關注的重點不是 GCN 的工作方式，而是要輸入 Text GCN 中立即使用的圖的構建。但是，我認為為了更好地理解這篇論文的結果，仍然需要對 GCN 進行一些介紹。我將在這裡稍做停頓，稍微深度地討論一下 GCN 以及它們實際計算的內容。有關 GCN 的更多細節可參考 Kipf 和 Welling 的另一篇論文：https://openreview.net/pdf?id=SJU4ayYgl

近似圖卷積和逐層信息傳播

GCN 的核心可寫成下列等式：

AAAI 2019 論文解讀：卷積神經網路繼續進步

式（3）。GCN 的逐層傳播規則。

l+1 表示 l 層之後一層。在 l=0 層，H 矩陣是輸入的圖矩陣 G。W 是權重，A 和 D 分別是鄰接矩陣和度矩陣。激活函數 σ 可根據情況選擇，比如 ReLU 函數。

因此，每當信息運動到下一層時，網路都會通過等式（3）傳遞所有信息。取自 Kipf 和 Welling 的論文的下圖 2 展示了這一過程。

AAAI 2019 論文解讀：卷積神經網路繼續進步

圖 2：用於半監督學習的多層圖卷積網路（GCN）的示意圖，其中有 C 個輸入通道，輸出層中有 F 個特徵圖。

從圖 2 中可以看到，輸入層由輸入特徵圖的「堆棧」構成（注意圖中的層疊）。圖的數量與特徵的數量一樣多，其中每個圖都是又一個堆疊了所有屬性的矩陣。GCN 的輸出是特徵圖。

下圖 3 是一個可視化 GCN 的簡單示例。

AAAI 2019 論文解讀：卷積神經網路繼續進步

圖 3：GCN 結構的簡單可視化

圖 3 展示了一個簡單的 GCN，其中有兩個卷積層，帶有 dropout 正則化和 ReLU 激活函數，輸出位置是一個 softmax 分類器。

現在我們已經更清楚地理解了 GCN，下面會介紹實驗結果。但在我們了解結果之前，我想簡單談談我的一點看法。作者沒有提到如何組織圖的結構，即如何在鄰接矩陣中為節點排序。我提到這一點的原因是節點可以代表文檔、文本和單個詞。我們馬上就能看出，不同的節點類型似乎會帶來額外的分析度。但是，給定一個鄰接矩陣 A，以不同的節點順序構建一個新的鄰接矩陣 A"，則 A 和 A" 是同構的。

因此，這讓我相信（3）式中的輸入圖是旋轉不變的（作者沒有提到這一點，但我相信是這個情況）。其更新規則並不在意鄰接矩陣，因為 1）它們與任意其它鄰接矩陣是同構的，2）它們由度矩陣歸一化，3）存在一個參數可訓練的權重矩陣 W。直觀地看，我認為 W 會「學習輸入圖的旋轉」，並由此得到相同的結果。

測試 Text GCN

實驗

作者評估了 Text GCN 執行文本分類的能力。

作者用於比較的基準水平是當前最佳的文本分類和嵌入方法，比如 CNN、LSTM、Bi-LSTM、 PV-DM、fastText、SWEM 以及使用多種過濾器的不同 GCN。

實驗中使用的數據集是 20-Newsgroups（20-NG）、Ohsumed 語料庫、Reuters 21578 的 R52 和 R8、Movie Review（MR）。每個數據集的數據統計情況和詳細描述請參閱下面的表格和鏈接。

AAAI 2019 論文解讀：卷積神經網路繼續進步

20NG - http://qwone.com/?jason/20Newsgroups/
Ohsumed 語料庫 - http://disi.unitn.it/moschitti/corpora.htm
R52 和 R8 - https://www.cs.umb.edu/?smimarog/textmining/datasets/
MR - http://www.cs.cornell.edu/people/pabo/movie-review-data/

實驗設置如下。第一個卷積層的嵌入大小為 200，窗口大小為 20。窗口大小用於 TF-IDF 的計算。回憶一下，詞頻率是詞出現在文檔中的次數。在使用窗口的情況下，文檔是根據窗口大小部分地讀取。如果一個詞出現在給定的窗口中，則計數增加。學習率設置為 0.02、dropout 率設置為 0.5，保留 10% 的訓練集作為驗證集。

結果

實驗結果見下表：

AAAI 2019 論文解讀：卷積神經網路繼續進步

可以看到，除了一個數據集外，Text GCN 的準確度在其它所有數據集上都優於其它模型。作者文中並沒有提供相應的解釋，為何 Text GCN 在 MR 數據集上性能有所落後，我覺得可以從數據集的統計數字略窺倪端，MR 文本平均篇幅較短，可能因此導致其生成的圖包含過少的信息量，影響了圖網路的整體性能。

此外，通過改變窗口大小，作者也能得到不同水平的表現。因此，窗口大小可以被視為一個超參數，我們可以根據驗證測試結果對其進行調整。圖 4 給出了其表現上的差異。

AAAI 2019 論文解讀：卷積神經網路繼續進步

圖 4：不同窗口大小的準確度，（a）R8 數據集，（b）MR 數據集

根據實驗結果，我們可以看到新提出的 Text GCN 實現了很好的文本分類結果。

總結

在這篇論文中，作者提出了一種全新的文本分類方法，即文本圖卷積網路（Text GCN）。Text GCN 能獲取全局詞共現信息以及使用有限標註的文檔來執行所需任務。Text GCN 在多個基準數據集上都優於多種當前最佳方法，表現出色。

我認為這篇論文能幫助讀者了解越來越流行的圖卷積神經網路，這也是我介紹這篇論文的原因。卷積神經網路已經出現了一些時日了，現在已經相當成熟，現在也正得到不斷的擴展和改進。我認為即使最少量的改進也值得關注。

Bayesian Graph Convolutional Neural Networks for Semi-supervised Classification
地址：https://arxiv.org/pdf/1811.11103.pdf

引言

我要介紹的第三篇論文基於圖卷積神經網路（我們將使用該論文的表示方法，將其寫成 GCNN）。如上一篇論文介紹的那樣，GCNN 已被用於解決節點和圖的分類問題，並且相當成功。但是，當前的實現將不確定性整合進圖結構的能力有限，也就是說，GCNN 雖然理解圖的節點和邊，因為這是其中關係的基本真值描述，但應用中使用的圖本身往往源自有雜訊的數據或建模假設，得到的圖有更高的熵。

當我們處理不確定性時，我們自然會想到概率。而當我們想到概率時，我們會想到貝葉斯法則。將貝葉斯框架整合進 GCNN 是這篇論文的重心。這篇論文針對的是某些隨機圖參數和節點標籤的聯合後驗的推斷。作者提出了貝葉斯 GCNN 框架，並開發了一種迭代式的學習流程來到達最終圖。

方法

表示方法和術語

這篇論文的表示方法和術語類似於前一篇論文（也有些許不同），這裡我們簡要介紹一下。我們觀察到的圖為 G_obs = (V, E)，由 N 個節點的集合 V 與邊集合 E 構成。對於每個節點 i，都有一些相關的度量數據（或導出特徵），表示為 x_i。對於節點的某個子集 L ? V, 存在度量標籤 Y_L = {y_i : i ∈ L}。在分類任務中，標籤 y_i 可以意味著類別；在回歸任務中，y_i 可以是實數值。這篇論文的任務目標是使用特徵 x 和觀察到的圖結構 G_obs 來估計無標籤節點的標籤。

GCNN 執行這一任務的方式是在神經網路架構中執行圖卷積運算。收集到的特徵向量將作為矩陣 X 的行，即 GCNN 的層。在每個卷積層，前向傳播都根據等式（1）和（2）定義。

AAAI 2019 論文解讀：卷積神經網路繼續進步

等式 (1) 和 (2)。GCNN 的逐層傳播規則。

等式（1）和（2）是和前一篇論文一致的公式，只有一點不同——沒有度矩陣與 A_G 相乘。但是，解讀仍然是一樣的。一個 L 層網路的最後一層輸出表示為 Z = H^(L)。神經網路權重的訓練通過反向傳播執行，目標是最小化被觀察的標籤 Y 和網路預測 Z 之間的誤差度量。

考慮以下設定。

訓練輸入 X = {x_1, x_2, ... x_n}
對應於輸入的輸出 Y = {y_1, y_2, ..., y_n}
網路試圖學習的函數 y = f(x)
存儲在權重矩陣 W 中的權重

在這裡，權重被建模為貝葉斯方法中的隨機變數，並且有基於它們的一個先驗分布。因為這些權重是隨機變數，輸出 f(x) 也是一個隨機變數。在這一框架下，新輸入 x 的輸出可被視為給定 x、X、Y 並整合了 W 的後驗分布。這可以表示為下面的等式（3）。

AAAI 2019 論文解讀：卷積神經網路繼續進步

p(y|x, W) 這一項可被視為一個似然；在分類任務中，可通過將 softmax 函數應用於神經網路的輸出，使用類別分布來建模這一項。

現在，我們將後驗計算表示為等式（5），等式（5）的目標是計算節點標籤的後驗概率。

AAAI 2019 論文解讀：卷積神經網路繼續進步

其中 W 是一個隨機變數，表示貝葉斯 GCNN 在圖 G 上的權重，λ 表示特徵化一系列隨機圖的參數。在下一節，我們將會看到貝葉斯 GCNN 執行半監督節點分類任務的方式。

實驗結果

實驗設置和數據集

下面我們來看使用貝葉斯框架的 GCNN 在半監督節點分類上的表現。這個實驗測試的是貝葉斯 GCNN 預測未知文檔標籤的能力。這類似於上面的論文 Graph Convolutional Networks for Text Classification 中討論的文本分類。使用的數據集包括引用數據集（Sen, Namata, and others 2008），比如 Cora、CiteSeer 和 Pubmed。在這些數據集中，每個節點表示一個文檔，並且有與其相關的稀疏詞袋特徵向量。每當一個文檔引用另一個文檔時，就會形成邊。忽略引用的方向，並構建一個帶有一個對稱鄰接矩陣的無向圖。表 1 給出了這些數據集的統計情況。

AAAI 2019 論文解讀：卷積神經網路繼續進步

表 1：實驗中使用的數據集的總結概括

作者將他們的工作與最早的 GCNN（Kipf and Welling 2017）ChebyNet（Defferrard, Bresson, and Vandergheynst 2016）和圖注意網路（GAT）（Velickovic et al. 2018）進行了比較。此外，其超參數設置和 Kipf and Welling 的 GCNN 一樣。具體來說，這個 GCNN 有兩層，其中隱藏單元數為 16，學習率為 0.01，L2 正則化參數為 0.0005，dropout 率為每層 50%。除了之前的研究（Kipf and Welling 2017）探索過的每類別 20 個標籤的訓練設置之外，作者還在限制更嚴格的數據場景（每類別僅有 10 或 5 個標籤可用）中測試了這些演算法的表現。

將數據集劃分為訓練集和測試集的方式有兩種，第一種是源自（Yang, Cohen, and Salakhutdinov 2016）的固定式數據分割。第二種劃分類型是隨機的，其中每一輪的訓練集和測試集都是隨機創建的。這能為模型表現提供更為穩健的比較，因為特定的數據劃分方式會在訓練標籤有限的情況中產生顯著的影響。

結果

下列表 2、3、4 展示了實驗的結果。

AAAI 2019 論文解讀：卷積神經網路繼續進步

表 2：在 Cora 數據集上的預測準確度（預測正確的標籤所佔百分比）

AAAI 2019 論文解讀：卷積神經網路繼續進步

表 3：在 Citeseer 數據集上的預測準確度

AAAI 2019 論文解讀：卷積神經網路繼續進步

表 4：在 Pubmed 數據集上的預測準確度

可以看到，GCNN 幾乎在所有實驗中都優於其它網路。值得注意的是，當不確定性較高時（即標籤的數量較少時），更是如此。這一點非常直觀，因為當數據和標籤更少時，貝葉斯 GCNN 在計算沒有標籤的節點的最大後驗（MAP）估計以及選擇最優近似上有優勢。另一方面，其它設置依賴「基本真值」標籤提供有關節點和標籤的信息，在沒有標籤時不會提供任何信息。當然，計算節點的潛在標籤的概率需要額外的計算成本，也就是說，對於有 L 個標籤的每個不確定的節點，網路必須計算出每個標籤的 L 個概率以決定每個不確定節點應該與哪個標籤關聯。

但是，可以預見，隨著給定標籤數量的增長（圖中「基本真值」更多），其它框架將開始優於貝葉斯 GCNN。此外，隨著給定標籤數量的增長，貝葉斯 GCNN 不僅會失去優勢，而且由於計算缺失的標籤的概率需要額外的計算成本，還會具有較大的劣勢。

可以看到，另一個影響結果的因素是圖複雜度（graph complexity）。在 Pubmed 數據集上尤其如此。在使用 Pubmed 數據集時，原始的 GCNN 顯著優於貝葉斯 GCNN。Pubmed 數據集比 Cora 和 CiteSeer 數據集大很多，這會得到更加複雜的圖。我相信這是由於以下直觀原因。邊的數量比節點數量多很多的圖是「連接很緊密的」的圖。在「基本真值」設定中，具有標籤的節點意味著給定的節點-標籤關係是絕對確定的。因為邊的數量遠多於節點的數量，所以每個節點的絕對信息都會被傳播給網路中的更多節點，從而得到「信息更豐富」的圖。我認為這就是貝葉斯 GCNN 在這種情況下優勢不再的原因。

總結

在這篇論文中，作者提出了貝葉斯圖卷積神經網路，提供了一種通過參數隨機圖模型整合不確定圖信息的方法。隨著 GCNN 的繼續普及，我認為值得研究 GCNN 的潛在改進空間。這篇論文本質上是通過引入概率來度量不確定性，添加了一個非常自然的層來求解涉及不確定性的問題。

結語

我選擇評閱的這三篇 AAAI 2019 論文全都與卷積神經網路這一主題有關。卷積神經網路近年來已經取得了非常大的成功，並且已經發展出了取決於當前任務的複雜配置。我會簡單總結一下我在閱讀這些論文時想到的要點。一般來說，我會談到當前的狀態，什麼信息是可用的，我們可以利用這個額外信息嗎，我們要怎麼做以及已經做了什麼？

Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network

dropout 是一種神經網路中使用的常用的正則化技術。其中被丟棄的權重是完全由隨機選擇選出的。
在更高層（淺層），特徵仍然是可追蹤的，可以被解釋。特定的特徵比其它特徵更有用，這能推出以下斷言：我們可以引入一個度量來量化特徵的重要性以及影響 dropout 選擇。
上述要點就引出了這篇論文的主要貢獻。其作者提出了一種量化特徵的重要性的方法，並且表明通過利用這一信息並將其整合進 dropout 中，卷積神經網路的表現可以得到提升。

Graph Convolutional Networks for Text Classification

Kipf 和 Welling 引入了圖卷積網路，能高性能地解決分類問題。GCN 是一種直接操作圖的多層神經網路，並能基於近鄰節點和它們的屬性推導節點的嵌入向量。
要得到有效的 GCN，輸入圖必須要好。這就涉及到這篇論文的貢獻了。作者提出了一種基於文檔中詞出現和詞共現來構建圖的方法；並將該圖用作 GCN 的輸入。
文檔中的詞出現會影響連接詞節點和文檔節點的邊的構建。詞-文檔邊的權重是這組詞-文檔的詞頻-逆文檔頻率（TF-IDF）。
詞共現會影響連接一個詞節點與另一個詞節點的邊的構建。連接兩個詞節點的邊的權重使用逐點互信息（PMI）計算。
結果表明，通過使用一層卷積獲取有關每個節點的直接近鄰的信息，GCN 在分類問題有應用的潛力。這個信息編碼在構造的圖中。

Bayesian Graph Convolutional Neural Networks for Semi-supervised Classification

這篇論文同樣研究的是圖卷積神經網路（GCNN），但額外考慮了有時候現實生活中使用的圖源自有雜訊的數據或建模假設，這意味著這些圖是「不確定的」。為了建模不確定性，我們自然會想到概率和統計，這也導向了這篇論文的主要重點。
這篇論文將貝葉斯框架引入了 GCNN 來解決不確定性問題。通常而言，GCNN 是使用基本真值信息或完全不使用信息構建的，而貝葉斯 GCNN 則會計算有關圖的不完整或缺失信息的後驗概率，並將其用作可靠的信息。
在多項實驗中的結果表明貝葉斯 GCNN 優於其它網路。這是因為貝葉斯 GCNN 在計算沒有標籤的節點的最大後驗（MAP）估計以及選擇最優近似來構建輸入圖上有優勢。當存在大量無標籤節點時（缺失或不完整信息），這樣的優勢最為顯著。
可以推斷出，「不確定節點」的數量和圖複雜度對貝葉斯 GCNN 的表現有貢獻。在某些情況中，原始 GCNN 優於貝葉斯 GCNN。此外，這個框架的表現水平和計算成本之間存在權衡，在使用貝葉斯 GCNN 時需要考慮到這一點。

希望我討論這三篇論文的思路是清晰的。我選擇關注 GCNN 的原因之一是我們可以看到深度學習和傳統分析技術（這裡是基於圖的分析和概率分析）之間的隔離情況正在逐漸消失。這將為不同的領域帶來進一步的合作，並有望在未來創造更激動人心的成果。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※從三大案例，看如何用 CV 模型解決非視覺問題
※Google AI發數據集論文、辦挑戰賽卻拒絕開放數據集？被懟了……

TAG:機器之心 |