當前位置:
首頁 > 新聞 > NYU Courant 二年級博士生薑仲石:網格曲面的神經網路

NYU Courant 二年級博士生薑仲石:網格曲面的神經網路

雷鋒網 AI 科技評論按:網格是幾何數據的常用高效表示, 在幾何曲面構建的機器學習方法對計算機圖形學,3D 計算機視覺以及幾何分析和處理有著重要的意義。

近期,在雷鋒網 GAIR 大講堂上,來自紐約大學科朗數學研究所 (NYU Courant) 二年級博士生薑仲石同學將介紹 Surface Networks 這一定義在網格曲面上的神經網路結構,該工作發表在 CVPR 上,並被選為 oral presentation,視頻回放地址:http://www.mooc.ai/open/course/510。

分享主題:網格曲面的卷積神經網路

分享提綱

1. 幾何曲面的離散表示

2. 一種圖神經網路 (GNN) 的簡要介紹

3. 離散微分幾何中的 Laplace 與 Dirac 算符

4. 網格曲面的時域預測與生成型模型

5. 穩定性證明

分享內容


一、幾何曲面的離散表示

三維數據的表示方法包括上圖中的三類。左邊的 Voxel(體素)的優點是結構化,看起來很規整(Minecraft 風),並且可以用傳統的圖像處理方法去處理。但是在同等的存儲條件下,Voxel 的解析度相對較低,也無法準確的刻畫曲面表面的形狀。右邊的點雲表示方法相較於 Mesh 來說存儲的信息量少了很多。比如說有很多工作研究如何在點雲上估計法向量,但網格數據則是自帶了這些數據。所以網格數據是現在圖形學中主要的研究內容之一。


二、一種圖神經網路 (GNN) 的簡要介紹

我們用 M 來表示網格——V(點),E(邊),F(三角面片)。在 Mesh 上處理數據時,我們可以很自然的聯想到 graph,所以我們簡單的回顧一下會用到的圖神經網路結構。我們只簡單介紹一層,這一層的輸入是 graph,上面每個點都會規定一個信號。A,B 是兩個可訓練的單一參數(single parameters),通過 A,B 可以把 xin 這個信號映射到高維空間里。至此還未涉及鄰居信息。

然後我們用 Laplacian 矩陣乘以信號的第一部分(xinA),這樣就可以聚合鄰居信息,最後再乘以ρ(激活層)。這個式子表示單個層,通過疊加多層神經網路,信號可以在更大的 Context 上傳輸來得到圖的全局信息。

我們再來看一下 Laplacian 矩陣(邊權重相同),用這種表示方法處理圖沒什麼問題,但是對於網格曲面來說,這種方法存在問題。如上圖所示(中左),兔子的耳朵產生形變時,曲面產生了變化,但 Laplacian 矩陣並沒有變化。而將兔子離散化處理時(中下),曲面未變,但 Laplacian 矩陣卻不再相同。所以我們首先需要將 Laplacian 矩陣替換成微分幾何里可以包含幾何信息的 Laplace 算符。


三、離散微分幾何中的 Laplace 與 Dirac 算符

微分幾何中的 Laplace 算符表示梯度的散度,將其推廣至連續曲面上,就得到了 Laplace-Beltrami 運算元,再將曲面離散化,使之變為三角網格,相當於給 Laplacian 矩陣里的每條邊加上和邊長有關的權重,這樣我們就得到了第一個網格神經網路——Laplacian Surface Networks。但是我認為 Laplace 算符依舊是不完美的,因為它是一個內蘊幾何量。舉例說明,我們捲起一張紙,由於對應的 Laplacian 矩陣只刻畫了度量,所以紙被卷後信息不變,而要處理這種情況,我們可以引入 Dirac 算符。

Dirac 運算元引自量子力學,它在某種意義上相當於 Laplace 的平方根。通過 Laplace 運算元的譜分解可以得到主曲率方向等外蘊幾何量,而且由於我們將 Laplace 分為兩步,也就具有更多的自由度。所以我們認為 Dirac 運算元是 Laplace 神經網路的嚴格推廣。而且它還能刻畫外蘊幾何量,所以它在某種情況下可以更好的表示信息。最後,Dirac 算符是在四元數空間里定義的,如上圖第三個式子表示將點信號映射到面上,從而可以看出它不是方塊矩陣而是長方形矩陣,同時它還有個自伴運算元,可以將面上的信號再映射回點上。

我們用 Dirac 運算元構造網路時需要分成兩步,第一步是將點上的信號 x 變為面上的信號 y,再用自伴運算元把面上的信號 y 變為點上信號,這樣就算得到了一層點到點的信號變換,並且其中有四個可訓練的矩陣,可以通過網路的反向傳播去訓練這些矩陣。而且我們要注意矩陣的維度只和 feature 的維度有關,與 Mesh 上有多少個點無關,所以我們可以將不同 Mesh 上的不同 Dirac 算符放到一起訓練來得到 A、B、C、E。


四、網格曲面的時域預測與生成型模型

由於我們只是在方法層面上提出了一種新架構,所以我們採用了一些比較簡單的評估方法來保證公平評價。上圖中的綠色方框(Lap/AvgPool)表示上文提到的式子所代表的那一層神經網路,下面的 Dirac 算符由於要在點信號和面信號間交替,所以結構更加複雜。我們使用了兩種種評估方法來評估我們的架構,一個是在每個點上做 MLP,第二個是當做點雲處理。

我們第一個評估實例是預測曲面運動。我們從 MPI-Faust 數據集的曲面上隨機選一些點,再提取以這些點為中心的 15-ring 的 patches(一萬個)。然後再用圖形學中的 Deformation 方法將其模擬為橡皮材質並賦予重力。接著進行 50 次迭代(50 幀),再將前兩幀作為神經網路的輸入,讓模型去預測接下來的 40 幀,最後用 smooth-L1 loss 來衡量最後的結果。

視頻展示可以看出 Laplace 和 Dirac 比左邊三種 baseline 方法要好,特別是 Dirac 在高曲率的地方(腳跟)處理效果很好。

通過放大最後一幀,我們可以明顯看出 Dirac 在腳跟和腳趾兩處處理效果很好,這也和我們的預期相符合。

通過量化比較,我們還能發現 Dirac 優於 Laplace。

第二個實例我想介紹一個 Mesh 的生成模型。這個任務的數據集相對簡單,首先生成 2D 的網格(左下角),再從 MNIST 中選取一些數字,將數字的灰度當成高度,接著調整 Mesh 的 z 軸就可以得到一個數據集。其中的數據都是 Mesh,每個都代表一個數字。生成型模型的架構如上右圖所示。

結果分布中的採樣顯示模型學習效果很好。而且對於不同的網格離散化結構,同樣的隱向量也能還原相同的數字。


五、穩定性證明

我們想將 Laplace 和 Dirac 算符的適應幾何形狀的特性,對微小形變和離散化的穩定性擴展到用它們所定義的神經網路上,所以我們證明了上圖兩個定理。

最後總結一下,如上圖所示。

以上就是雷鋒網整理的全部內容。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

為自動駕駛而生,拜騰豪華轎車概念車 K-Byte Concept 亮相魔都
貝索斯該頭疼了:還要不要把面部識別技術賣給警方?

TAG:雷鋒網 |