張鈸、朱軍團隊最新論文：深度隱式模型 + 概率圖模型 = Graphical-GAN

新聞 05-01

雷鋒網 AI 科技評論按：近日張鈸院士和朱軍教授團隊在 arXiv 上貼出一篇論文《Graphical Generative Adversarial Networks》，論文提出了一種 Graphical-GAN 模型框架，該模型綜合了深度隱式模型（Deep Implicit Model）和概率圖模型（Probabilistic Graphical Models）的優點，能夠利用數據的基本結構來進一步提升生成網路的表現。

一、深度隱式模型和概率圖模型

在談論這個模型之前，雷鋒網先簡單介紹一下深度隱式模型和概率圖模型。

研究機器學習的同學應該對生成模型都不陌生，它是指一系列用於隨機生成可觀測數據的模型。換句話說就是，假設在一個連續的或離散的高維空間 X 中，存在一個變數 X 服從一個未知分布 P_data (X )。我們根據一些可觀測的樣本 x(1),x(2),··· ,x(N) 來估計這個未知分布。生成模型就是建立一個分布模型 P_model (X ) 來近似未知的數據分布 P_data (X )，並可以用這個模型來生成一些樣本，使得「生成」樣本和「真實」樣本儘可能地相似。但在實際中，觀測到的樣本往往只是真實樣本的一部分變數，叫做可觀測變數。除了可觀測變數外，還有一些變數是不可觀測的，叫做隱藏變數 (Latent Variables)，或隱變數。假設隱變數 Z 是另外一個相對低維的空間 Z 中的變量，完整的生成式模式應該是建模 P_model(X,Z)。根據鏈式法則 P_model(X,Z) =P_model (Z )P_model (X |Z )，生成式模式可以轉換為對兩個分布的建模：一個是觀測變數 X 的條件分布 P_model (X |Z )，另一個是隱變數的先驗分布 P_model (Z )。

生成模型有兩種，一種是 prescribed 模型，一種是 Implicit 模型。本文提到的深度隱式模型，即為後者與深度學習的結合，就是利用神經網路的方式來隱式地建模條件分布 p（x | z）。而其中所謂的隱式建模，是指並不對條件分布 p ( x | z ) 本身進行建模，而是建模生成過程，即學習一個映射函數 g : z → x。神經網路的輸入為隱變數 z，輸出為觀測變數 x。本質上來說，GAN 也是深度隱式模型的一種形式，這裡就不再詳細敘述。

據本篇論文作者表示，目前已知的深度隱式模型能夠生成相當真實的圖像，但是沒有能夠很好地利用數據中的基本結構，例如圖像的離散語義信息、視頻幀之間的連續性等。

另一方面，在概率論和統計學中，概率圖模型是指一種用圖結構來描述多元隨機變數之間條件獨立關係的概率模型。圖，是由節點和節點之間的邊組成。在概率圖模型中，每一個節點都表示一個隨機變數 (或一組隨機變數)，邊表示這些隨機變數之間的概率依賴關係。

張鈸、朱軍團隊最新論文：深度隱式模型 + 概率圖模型 = Graphical-GAN

常見的概率圖模型可以分為兩類：有向圖模型和無向圖模型。前者也叫做貝葉斯網路，為有向非循環圖，邊的方向代表了因果關係。本篇文章所採用的即貝葉斯網路。無向圖模型也叫做馬爾可夫隨機場，每條邊代表來兩個變數之間有概率依賴關係，但是並不表明任何因果關係。對於一個非全連接的圖模型，都可以根據條件獨立性將聯合概率分布進行因子分解，表示為一組局部的條件概率分布的乘積。下面為貝葉斯網路的嚴格定義：

張鈸、朱軍團隊最新論文：深度隱式模型 + 概率圖模型 = Graphical-GAN

在機器學習中，很多機器學習模型都可以看作是概率模型，也即將學習任務歸結於計算輸入和輸出之間的條件概率分布。概率圖模型顯然可以表示數據中結構，但是它的缺點是隨著節點數的增加，演算法將會變得非常複雜，因此它無法處理圖像這類複雜的數據。

二、Graphical-GAN

Graphical-GAN，如上面所說，結合了深度隱式模型和概率圖模型兩者的優點。具體來說，作者在 Graphical-GAN 中使用貝葉斯網路來表示變數間的結構；另一方面，用深度隱似然函數來為複雜數據建模。

張鈸、朱軍團隊最新論文：深度隱式模型 + 概率圖模型 = Graphical-GAN

表示成數學形式，隱式模型中的條件分布可寫為：

其中X、Z如上所說為可觀測變數和隱變數，而G表示關聯有向無環圖（也即貝葉斯網路）。由於貝葉斯網路的局部結構性質，分布可以進一步分解為：

這裡的 Pa_G(x)（x 包含可觀測變數和隱變數）即為前面貝葉斯定義中的 x_pi_k，表示了關聯圖 G 中 x_j 的父節點。當給定依賴性結構的情況下，變數之間的依賴函數就可以參數化為深度神經網路，進而來擬合複雜的數據。這種結合了圖的深度隱式模型，作者將之稱為圖生成對抗網路（Graphical-GAN）。

由於模型本身是高度非線性的，這導致計算後驗概率 p(z|*) 難以計算。為了解決這個問題，作者採用一個神經網路來近似計算，這在統計中稱做推理網路；換句話說就是，利用一個神經網路來估計 p(z|x; θ) 的近似分布 q(z|x; φ)，這裡φ是網路參數。這裡的細節類似於上面的過程，在此就不再展開。

張鈸、朱軍團隊最新論文：深度隱式模型 + 概率圖模型 = Graphical-GAN

剩下的工作就是同時學習生成模型和識別模型中的參數，讓 p 和 q 儘可能地相似。作者提出兩種基於散度最小化的演算法，一種為全局演算法，一種為局部演算法。如圖所示：

張鈸、朱軍團隊最新論文：深度隱式模型 + 概率圖模型 = Graphical-GAN

在全局演算法中直接忽略數據中的結構信息，去最小化 p(X , Z) 和 q(X , Z) 之間的散度。最小化問題就變成了：

寫成 GAN 的形式就是：

另一方面，局部演算法考慮數據中的結構信息，將前面 P_G(X，Z) 簡化寫為

這裡，A 為前面 (x | Pa_G(x)) 或（z | Pa_G(z)）的縮寫，F_G 是相應的因子集合。於是這裡的最小化問題以 GAN 的形式寫出即為：

張鈸、朱軍團隊最新論文：深度隱式模型 + 概率圖模型 = Graphical-GAN

三、兩個案例

在實際中，涉及到結構化數據，有兩種常見的典型案例，上面的圖例中也有提到。一種情況是，數據集由具有離散屬性或類的圖像組成，例如 MNIST（數字）、SVHN（彩色背景數字）、CIFAR10（自然）、CelebA（人臉）等數據集；一種情況是具有時間依賴性的圖像序列組成的數據集，例如 Moving MNIST、3D chairs 等。

作者根據 Graphical-GAN，針對這兩類數據集設計了兩個模型 GMGAN 和 SSGAN，從而來生成有意義的樣本。

1、離散特性的數據集

模型：GMGAN

結果：以 MNIST 數據集為例。GAN-G 和 GMVAE 為對照模型。GMGAN-G 和 GMGAN-L 分別代表全局演算法模型和局部演算法模型。k 表示固定混合度。

張鈸、朱軍團隊最新論文：深度隱式模型 + 概率圖模型 = Graphical-GAN