當前位置:
首頁 > 知識 > 深度學習的幾何理解(3)-概率變換的幾何觀點

深度學習的幾何理解(3)-概率變換的幾何觀點

作者:顧險峰

(最近,哈佛大學丘成桐先生領導的團隊,大連理工大學羅鍾鉉教授、雷娜教授領導的團隊應用幾何方法研究深度學習。老顧受邀在一些大學和科研機構做了題為「深度學習的幾何觀點」的報告,彙報了這方面的進展情況。這裡是報告的簡要記錄,具體內容見【1】。)

圖1. 流形結構。

我們前面闡述過深度學習成功的核心原因可以部分歸結為流形分布律和聚類分布律(深度學習的幾何觀點(1) - 流形分布定律),深度學習的基本任務就在於從數據中學習流形結構,建立流形的參數表達;和變換概率分布。

如圖1所示,假設概率分布的支集是流形。我們上一講(深度學習的幾何理解(2) - 學習能力的上限)分析了深度學習如何計算流形的參數化映射(即編碼映射),;和參數化表示(解碼映射),。編碼映射將流形上的概率測度映射到參數域(隱空間)上,「推前」概率測度記為。在工程應用中,我們希望能夠完全控制隱空間上的(推前)概率分布,使之等於高斯分布或者均勻分布,為此,我們構造隱空間到自身的同胚映射,,滿足等於高斯分布或者均勻分布。

圖2. 隱空間的同胚映射,改變概率分布。

如圖2所示,我們將米勒佛曲面映射到平面圓盤,;在平面圓盤上均勻採樣,再映射回米勒佛曲面,。上面一行顯示圓盤上的均勻分布映回曲面後不再是曲面上的均勻分布。下面一行顯示,我們建立平面圓盤到自身的同胚映射,,這樣平面圓盤上的均勻分布被映射到曲面上的均勻分布。核心問題在於如何構造隱空間的自同胚,實現兩個概率測度間的變換。這方面已經有相對成熟的最優傳輸理論。

最優傳輸理論

給定歐氏空間中的兩個區域和定義其上的概率測度和,總測度相等。假設是一個區域間的映射,如果對於任意的可測集合,都有

,

那麼我們說此映射保持測度,記成。對於任意,,它們之間的距離為,那麼映射的傳輸代價定義為:

.

法國數學家蒙日(Monge)於1781年提出了著名的最優傳輸問題:尋找保持測度的傳輸映射,使得傳輸代價最小,。這個映射被稱為是最優傳輸映射,最優傳輸映射的傳輸代價被稱為是兩個概率測度之間的Wasserstein距離,記為。

Kantorovich將傳輸映射(transportation map)減弱為傳輸規劃(transportation scheme),用聯合概率分布來表示傳輸規劃,其邊際概率分布等於和,即對於任意可測集合,,,,記為,。Kantarovich將最優傳輸問題轉化成Kantarovich問題,Wasserstein距離等於

如果最優傳輸映射存在,那麼最優聯合概率分布的支集為對角線。Kantarovich發明了線性規劃來求解這一問題,由此得到1975年的諾貝爾經濟獎。

Kantarovich問題等價於其對偶形式, Wasserstein距離等於

,

這裡是的c-變換,

我們將稱為Kantarovich勢能函數。如果距離函數為,那麼可以證明,並且是1-Lipsitz函數。

二十世紀八十年代,Brenier進一步發展了Kantarovich的理論。如果採用距離函數,,那麼存在一個凸函數,其梯度映射給出了最優傳輸映射,。我們稱這個凸函數為Brenier勢能函數。那麼由最優傳輸映射保測度,我們得到Brenier勢能函數滿足蒙日-安培方程,

更進一步,在距離下,最優傳輸映射的Kantarovich勢能函數和Brenier勢能函數滿足簡單的等式:

凸幾何理論

最優傳輸的理論天然地和凸幾何閔可夫斯基理論等價,因此我們可以用更為直觀的幾何觀點來分析概率變換問題,從而可以將深度學習中的黑箱部分用透明的數學模型來取代。

圖3. 閔可夫斯基定理。

如圖3所示,給定一個凸多面體,每個面的法向量已知,面積已知,所有面的面積和法向量的乘積之和等於0,閔可夫斯基(Minkowski)定理證明這樣的凸多面體存在,並且彼此相差一個平移。

圖5. 亞歷山大定理。

閔可夫斯基的學生亞歷山大(Alexandroff)將閔可夫斯基的結果推廣到開的凸多面體,如圖5所示。給定凸多面體每個面的法向量,和每個面向平面圓盤的投影面積,總投影面積等於平面圓盤面積,那麼這樣的凸多面體存在,並且彼此相差一個垂直平移。亞歷山大在1950年給出的證明是基於代數拓撲原理,從中無法構造演算法。2013年,丘成桐先生,羅鋒,孫劍和老顧給出一個基於變分法的證明【2】。證明的大致思路如下:每個面的線性方程記為,這裡梯度已知,截距未知。每個平面將三維歐氏空間分成上下兩個半空間,所有上半空間的交集叫做這些平面的上包絡,上包絡的邊界即為凸多面體。我們通過改變截距來調節每個面的投影面積。亞歷山大定理中的截距優化下面的凹能量,

,

這裡是每個面的目標投影面積,是每個面的當前面積。可以證明,這個能量在子空間上是嚴格凹的,其梯度和海森矩陣都有明確的幾何意義,因此可以用牛頓法快速求解。

這一理論可以直接推廣到任意維,證明不需要改動。

Brenier理論,Alexandroff理論的等價關係

最優傳輸的Brenier理論和凸幾何的Alexandroff理論本質上是等價的。下面我們來具體分析。

圖6. 離散最優傳輸問題。

圖6顯示了離散最優傳輸問題。目標概率測度為離散的Dirac測度,

,

源概率測度是單位圓盤上的均勻分布。我們希望找到單位圓盤上的一個剖分,每個胞腔映射到一個目標點,,並且胞腔的面積等於目標測度。在所有的這種剖分中,找到一個特定的剖分,極小化傳輸代價,

圖7. 離散Brenier勢能函數的構造。

根據Brenier理論,存在一個凸函數,其梯度映射給出最優傳輸映射。對於每一個目標點,構成一個平面其梯度等於,,其上包絡給出Brenier勢能函數,每個面的投影面積等於。由此我們看到Brenier定理和Alexandroff定理本質相同。

圖6. 最優傳輸映射的計算實例。

圖6顯示了這種方法的一個計算實例,首先我們將滴水獸曲面用黎曼映照映射到平面單位圓盤,黎曼映射的像如下行左幀所示,那麼曲面的面元誘導了平面圓盤上的一個測度。平面圓盤上的歐氏面元定義了均勻測度。我們用上面講述的變分法來構造平面圓盤到自身的最優傳輸映射,最優傳輸映射的像如下行右幀所示。那麼最優傳輸映射的結果給出了從曲面到平面圓盤的保面元映射。

對抗生成網路(GAN)

2014年,Goodfellow 提出了GAN的概念,他的解釋如下:GAN的核心思想是構造兩個深度神經網路:判別器D和生成器G,用戶為GAN提供一些真實貨幣作為訓練樣本,生成器G生成假幣來欺騙判別器D,判別器D判斷一張貨幣是否來自真實樣本還是G生成的偽幣;判別器和生成器交替訓練,能力在博弈中同步提高,最後達到平衡點的時候判別器無法區分樣本的真偽,生成器的偽造功能爐火純青,生成的貨幣幾可亂真。這種計算機左右手互搏的對抗圖景,使得GAN成為最為吸引人的深度學習模型。

圖7. WassersteinGAN的理論框架。

圖7顯示了Wasserstein GAN的理論框架。假設在隱空間有一個固定的概率分布,例如高斯分布或者均勻分布。我們用一個深度神經網路來逼近解碼映射,將映成了圖像空間中的概率分布

,

我們稱為生成分布。判別器的核心任務是計算訓練數據分布和生成分布之間的距離;生成器的目的在於調節使得生成分布盡量接近數據分布。換言之,判別器計算Wasserstein距離;生成器計算最優傳輸映射。

判別器計算測度間的Wasserstein距離,等價於求解Kantarovich勢能函數。如果距離函數為,Kantorovich勢能為1-Lipsitz,並且。這裡Kantorovich勢能由一個深度神經網路來計算,記為。Wasserstein距離為

生成器極小化Wasserstein距離,。所以整個WGAN進行極小-極大優化:

生成器極大化,判別器極小化,各自由一個深度網路交替完成。在優化過程中,解碼映射和Kantorovich勢能函數彼此獨立。

如果,我們用距離函數,,那麼Wasserstein距離由Kantarovich勢能函數給出,最優傳輸映射由Brenier勢能給出。在距離下,最優傳輸映射的Kantarovich勢能函數和Brenier勢能函數滿足簡單的等式:

這意味著:在最優情況下,判別器D由生成器G的結果直接給出;生成器G由判別器D的結果直接給出;判別器D和生成器G之間的對抗是虛擬的;判別器網路和生成器網路是冗餘的。這和人們對於GAN模型生成器、判別器相剋相生的想像大相徑庭。

半透明深度網路模型

圖8.半透明深度網路模型

傳統的變分自動編碼器VAE核心想法是將隱空間的概率分布變換成高斯分布,手法相當曲折。

因為概率變換可以用最優傳輸理論來清晰闡釋,並且用牛頓法優化凸能量可以保證全局最優性,和高階收斂速度,我們可以將深度學習中的概率變換部分分離出來,用透明的數學模型來取代,其他部分依然用傳統的黑箱來運算,如此得到了半透明的網路模型【4】。

如圖8所示,我們將GAN和VAE進行改進,流形的編碼解碼映射依然用autoencoder來計算,數據分布被編碼映射推前到隱空間,得到分布。我們再計算隱空間的最優傳輸映射,,將均勻分布變換成推前概率分布。隱空間的最優傳輸映射可以用透明的幾何方法計算。

real digits and VAE results

WGAN and AE-OMT

圖9. 半透明網路的計算結果和其他模型的計算結果比較。

我們將半透明網路做為生成模型,在手寫體數據集合上進行測試。如圖9所示,半透明網路的計算結果優於傳統的VAE和WGAN結果。

圖10. VAE和半透明網路比較。

我們將半透明網路做為生成模型,在人臉圖片數據集合上進行測試。如圖10所示,半透明網路的計算結果優於傳統的VAE結果。

小結

最優傳輸理論可以用於解釋深度學習中的概率分布變換。最優傳輸的Brenier理論和凸幾何中的Alexandroff理論等價,我們的理論結果給出了基於變分法的構造。在這種情形下,生成器和判別器彼此等價,它們之間的對抗不再需要,網路體系結構可以大幅簡化。在深度學習中,我們可以將流形降維和概率變換分開,用透明的最優傳輸模型來部分取代黑箱,得到半透明網路模型。

References

Na Lei, Zhongxuan Luo, Shing-Tung Yau and David Xianfeng Gu. "Geometric Understanding of Deep Learning".arXiv:1805.10451?.

https://arxiv.org/abs/1805.10451

Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. "Variational principles for minkowski type problems, discrete optimal transport", and discrete monge-ampere equations. Asian Journal of Mathematics (AJM), 20(2):383-398, 2016.

Na Lei,Kehua Su,Li Cui,Shing-Tung Yau,David Xianfeng Gu, "A Geometric View of Optimal Transportation and Generative Model", arXiv:1710.05488. https://arxiv.org/abs/1710.05488

Huidong L,Xianfeng Gu, Dimitris Samaras, "A Two-Step Computation of the Exact GAN Wasserstein Distance", ICML 2018.

- 加入AI學院學習 -


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI講堂 的精彩文章:

機器也能感知時間,AI系統可預測5分鐘內的未來!
20億cocos幣免費領——註冊就送1000幣!

TAG:AI講堂 |