深度學習和量子物理的共同點，或可用物理學打開深度學習黑箱

新聞 04-10

選自arXiv

作者：Yoav Levine等

機器之心編譯

參與：吳攀

深度學習和量子物理是兩個看似關聯很小的領域，但研究者還是找到了它們之間的共同之處。近日，耶路撒冷希伯來大學的幾位研究者的一篇論文《Deep Learning and Quantum Physics : A Fundamental Bridge》介紹了他們的發現：深度卷積算術電路（ConvAC）所實現的函數和量子多體波函數之間存在某種等價性。機器之心在本文中簡要地編譯介紹了這項研究，論文原文可點擊文末「閱讀原文」查閱。

深度學習和量子物理的共同點，或可用物理學打開深度學習黑箱

深度卷積網路已經在許多不同的機器學習應用中取得了前所未有的成功。是什麼讓這些網路如此成功？研究正在逐漸揭開其中的秘密，但其中大部分仍然還是有待揭秘的重要奧秘。歸納偏置（inductive bias）就是其中之一，其反映了嵌入在網路架構中的先驗知識（prior knowledge）。在這項研究成果中，我們建立了量子物理學領域和深度學習領域的一種基本（fundamental）聯繫。我們使用這種聯繫斷言了全新的理論觀察，該觀察是關於卷積網路每一層的通道（channel）的數量在整體的歸納偏置中的作用。具體來說，我們給出了深度卷積算術電路（ConvAC：convolutional arithmetic circuit）所實現的函數和量子多體波函數（quantum many-body wave function）之間的等價性，這取決於它們共同的基礎張量結構。這有助於將量子糾纏度量（quantum entanglement measures）用作深度網路表達能力（以建模其輸入的複雜相關性結構）的定義良好的度量方法。最重要的是，構建張量網路（Tensor Network）方面的深度 ConvAC 成為了可能。這種描述讓我們可以進行一個卷積網路的圖論分析（graph-theoretic analysis），通過這種方式我們展示了一種通過深度網路的通道數量直接控制深度網路的歸納偏置的方法，這些通道是其基本圖中的相關最小切割（related min-cut）。對任何為特定任務設計卷積網路的實踐者來說，這個結果是有用處的。我們對 ConvAC 進行了理論上的分析，並且在更常見的卷積網路（ConvNet）（涉及到 ReLU 激活和最大池化）上通過實驗驗證了我們的發現。除了上面描述的結果，這項工作也提出了兩個跨學科的橋樑：用良好定義的圖論工具對深度卷積網路的描述和與量子糾纏的形式連接。

深度學習和量子物理的共同點，或可用物理學打開深度學習黑箱

圖 1：Cohen et al. (2016b) 提出了原本的卷積算術電路網路（Convolutional Arithmetic Circuits network）

3. 量子波函數與卷積網路

當描述一個由多個相互作用的粒子所構成的系統（被稱為多體量子系統（many-body quantum system））的量子力學性質時，物理學家需要使用能夠表示許多輸入和一個輸出之間的複雜關係的函數。類似地，監督學習或無監督學習等機器學習任務也需要使用能夠表示許多輸入（如圖像的許多像素）和一個輸出之間的複雜關係的函數。這一章我們將對這種類比進行公式化。在簡單介紹了物理學家用來描述多體系統的量子力學性質的符號之後，我們說明了如何將 ConvAC 所實現的函數（式 2 和式 3）與 N 個粒子的量子波函數在數學上等價起來。通過由 ConvAC 所帶來的對深度卷積網路的張量描述，這在機器學習和量子物理這兩個看似無關的領域之間構建了一種可靠的結構聯繫。我們遵循了 Preskill (1998) 中的相關推導，感興趣的讀者可參閱 Hall (2013) 獲取對量子力學的全面數學介紹。

4. 糾纏和相關性的測量

深度學習和量子物理的共同點，或可用物理學打開深度學習黑箱

多體波函數和 ConvAC 所實現的函數之間的形式聯繫（如式 8 所示）讓我們有機會使用已有的物理見解和工具來分析卷積網路。對於表徵多體波函數的粒子間的相關性結構，物理學家給予了特別的關注，因為其對被觀測系統的物理性質有廣泛的影響。儘管機器學習領域對這個問題的關注較少，但我們可以直觀地理解：在解決一個機器學習問題時，應該考慮表徵該問題的相關性，比如數據集中典型圖像的像素之間的相關性。我們應該看到，對於函數的「表達力（expressiveness）」的需求實際上是對該函數建模相關複雜相關性結構的需求，不管這個函數是卷積網路實現的，還是等價的多體波函數。在這一節，我們首先介紹了物理學家量化相關性的方法，然後討論了可以如何將這些方法用於機器學習領域的分析。

深度學習和量子物理的共同點，或可用物理學打開深度學習黑箱

圖 2：圖片為 8×8 大小。a) 交錯分區的圖示，b) 左右分區的圖示。如果你希望建模圖像（比如面部圖像）的兩邊之間的複雜相關性結構，那麼該網路應該支持左右分區的高糾纏測量（high entanglement measure）；如果你希望對鄰近像素這樣做（如自然圖像），那麼應該選擇交錯分區。在第 7 節，我們說明了這種對卷積網路的歸納偏置的控制可以如何通過適當調整每一層的通道數量來實現。

5. 張量網路和張量分解

深度學習和量子物理的共同點，或可用物理學打開深度學習黑箱

圖 3：張量網路（TN/Tensor Networks）的簡單介紹。a) 該張量網路中的張量用節點表示，節點的度（degree）對應於由其所表示的張量的階數。b) 用 TN 符號表示的一個矩陣乘一個張量。收縮（contracted）指數用 k 表示並且相加。開放（open）指數用 d 表示，它們的大小等於由整個網路所表示的張量的階數。所有這些指數的值都在 1 到它們的連接維度（bond dimension）之間。收縮（contraction）用虛線標示。c) 一個更加複雜的例子——一個網路使用在稀疏互連的低階張量上的收縮表示一個更高階的張量。該網路是一種分解（decomposition）的簡單案例，其在張量分析社區被稱為張量訓練（tensor train，Oseledets (2011)），而在凝聚態物理學界則被稱為矩陣積態（matrix product state，參見 Orús (2014)）。

6. 一個用作張量網路的卷積網路

深度學習和量子物理的共同點，或可用物理學打開深度學習黑箱