當前位置:
首頁 > 新聞 > 阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

通過類比平面CNN,本文提出一種稱之為球面CNN的神經網路,用於檢測球面圖像上任意旋轉的局部模式;本文還展示了球面 CNN 在三維模型識別和霧化能量回歸問題中的計算效率、數值精度和有效性。

1 引言

卷積神經網路(CNN)可以檢測出圖像任意位置的局部模式。與平面圖像相似,球面圖像的局部模式也可以移動,但這裡的「移動」是指三維旋轉而非平移。類比平面 CNN,我們希望構造一個神經網路,用於檢測球面圖像上任意旋轉的局部模式。

如圖 1 所示,平移卷積或互相關的方法不適用於分析球面信號。那麼最明顯的解決辦法是改變互相關的定義,將濾波器平移改為濾波器旋轉。然而這時我們會遇到問題,平面和球面之間存在一個細微卻重要的差異:平面的移動空間(二維平移)與該平面是同構的,而球面的移動空間(三維旋轉)是一個與球面不同構的三維流形,稱為 SO(3)。因此球面互相關的結果(即輸出的特徵映射)是 SO(3) 上的信號,而非球面 S^2 上的信號。鑒於此,我們在一個球面 CNN 較高的幾層中實現 SO(3) 群內的互相關(Cohen and Welling, 2016)。

阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

圖 1:對球面信號的平面投影都會產生畸變。球面信號的旋轉效果無法用其平面投影的平移效果來模仿。

球面 CNN(S^2-CNN)的實現存在兩大挑戰。首先,平面上像素組成的方形柵格具有離散的平移對稱性,而球面上不存在完全對稱的柵格,所以很難對球面濾波器旋轉一個像素的距離作出簡單定義。為了旋轉球面濾波器,我們需要做某種形式的插值。另一個挑戰是計算效率,由於 SO(3) 是一個三維流形,簡單實現 SO(3) 群內的互相關,演算法的時間複雜度為 O(n^6)。

本文採用非交換諧波分析領域的方法(Chirikjian and Kyatkin, 2001; Folland, 1995)解決上述問題。這一領域給出的廣義傅里葉變換影響深遠,不僅適用於球面信號,也適用於旋轉群上的信號。已知 SO(3) 群內互相關關於 SO(3) 群內的傅里葉變換滿足傅里葉定理,而本文對球面(S^2)互相關的定義也滿足傅里葉定理,因此可以用廣義的快速傅里葉變換(FFT)演算法高效實現 S^2 的互相關和 SO(3) 的群內互相關。

本文是首個在多層神經網路中針對連續群做互相關的研究,因此就連續理論預測的數學性質在實際離散化實現中的適用程度,我們進行了嚴格的評估。

同時,通過對三個數據集的實驗,本文展示了球面 CNN 在旋轉不變分類問題和回歸問題中的應用。第一項實驗顯示,球面 CNN 對球面 MNIST 圖像做旋轉不變分類的效果遠優於平面 CNN;第二項實驗採用 CNN 實現三維形狀的分類;第三項實驗將球面 CNN 模型用於分子能量回歸分析,這是計算化學中的一類重要問題。

貢獻

本文的主要貢獻如下:一是球面 CNN 理論;二是對於球面 S^2 和三維特殊正交群 SO(3) 的廣義傅里葉變換,本文給出了首個可自動微分的實現,開源的 PyTorch 代碼使用簡單、運算快速,且內存使用效率高。三是就球面 CNN 對旋轉不變類學習問題的適用性,本文給出了實證支持。

阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

圖 2:頻域內實現球面互相關。信號 f 和局部支持的濾波器 ψ 經過傅里葉變換,分塊表示為張量,在各輸入通道上求和,最終做傅里葉逆變換。注意,由於濾波器是局部支持的,用矩陣乘法(離散傅里葉變換 DFT)比用 FFT 演算法更快。本文用球坐標 α 和 β 將球面參數化,用 ZYZ(外旋)歐拉角 α,β 和 γ 將 SO(3) 參數化。

阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

圖 3:? 作為柵格解析度和網路層數的函數

阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

圖 4:用球極平面投影將兩個 MNIST 數字投影到球面。如果再投影回平面,則會產生非線性畸變。

阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

圖 5:光線從球面向球心投射,與模型(椅子)的第一個交匯點處可計算球面信號值。右側兩幅圖是用球坐標 (α, β) 表示的兩個球面信號。右上:從球面到模型第一個交匯點處的光線線段長度。右下:光線與模型法線夾角的餘弦;紅點對應左圖中投射的紅色光線。

阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

表 1:平面 CNN 與球面 CNN 在球面 MNIST 數據集上的精度。這裡 R 表示經過旋轉的圖像,NR 表示未旋轉的圖像,X/Y 表示網路用 X 數據集訓練,用 Y 數據集評估。

阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

表 2:SHREC17 競賽(三維形狀分類)最佳方法與本文方法的結果對比

阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

圖 6:勢函數 Uz 產生五通道的球面信號。分子中可包含的五類原子:H(紅色)、C(綠色)、N(橙色)、O(棕色)和 S(灰色),對應原子序數 z ∈ {1, 6, 7, 8, 16}。

阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

表 3:左:QM7 任務(對分子的原子化能做回歸預測)實驗結果,作者 (a) 為 Montavon et al. (2012),作者 (b) 為 Raj et al. (2016)。右:用於分子能量回歸任務的 ResNet 架構。

論文:SPHERICAL CNNS

阿姆斯特丹大學&ICLR 2018論文提出球面CNN:可用於3D模型識別

論文鏈接:https://openreview.net/pdf?id=Hkbd5xZRb

卷積神經網路(CNN)已成為二維平面圖像學習問題的首選方法。然而,近期研究中出現的大量問題需要面向球面圖像的分析模型,應用包括無人機、機器人和自動駕駛汽車的全向視覺,分子能量的回歸分析,以及全球氣象建模等。將卷積神經網路簡單應用於球面圖像的平面投影這一方法註定會失敗,因為投影時的空間變化會引入變化的畸變,在平移卷積核時,權值共享不再有效。

本文提供了構建球面 CNN 的基本要素,並提出了球面互相關的定義,表達力強且具有旋轉等變性。如此定義的球面互相關滿足廣義傅里葉定理,因此可以用廣義(非交換的)快速傅里葉變換(FFT)演算法高效計算。本文展示了球面 CNN 在三維模型識別和霧化能量回歸問題中的計算效率、數值精度和有效性。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

谷歌雲TPU服務正式全面開放:「AlphaGo背後的晶元」進入商用化
如何通過距離度量學習解決Street-to-Shop問題

TAG:機器之心 |