SO-Net：用於點雲分析的自組織網路

Abstract

本文提出SO-Net，一種用於無序點雲深度學習的置換不變網路結構。 SO-Net通過構建自組織映射（SOM）來模擬點雲的空間分布。基於SOM，SO-Net對單個點和SOM節點進行分層特徵提取，最終用單個特徵向量來表示輸入點雲。網路的感受野可以通過進行點對節點的KNN(k近鄰搜索)系統地調整。在識別點雲重建，分類，對象部分分割和形狀檢索等任務中，我們提出的網路表現出的性能與最先進的方法相似或更好。另外，由於所提出的架構的並行性和簡單性，所以訓練速度比現有的點雲識別網路快得多。我們的代碼可在項目網站上找到https://github.com/lijx10/SO-Net。

經過多年的深入研究，卷積神經網路（ConvNets）現在成為許多最先進的計算機視覺演算法的基礎，例如，圖像識別，對象分類和語義分割等。儘管ConvNets在二維圖像方面取得了巨大成功，但在3D數據上使用深度學習仍然是一個具有挑戰性的問題。雖然3D卷積網路（3D ConvNets）可以應用於光柵化為體素表示的3D數據，但由於大多數3D數據的稀疏性，大多數計算都是冗餘的。此外，不成熟的3D ConvNets的性能很大程度上受到解析度的損失和呈指數級增長的計算成本限制。同時，深度感測器的加速發展以及自動駕駛汽車等應用的巨大需求使得高效處理3D數據成為當務之急。包括ModelNet [37]，ShapeNet [8]，2D-3D-S [2]在內的3D數據集的最新可用性增加了3D數據研究的普及。

為了避免簡單體素化的缺點，一種選擇是明確利用體素網格的稀疏性[35,21,11]。雖然稀疏設計允許更高的網格解析度，但其誘導的複雜性和局限性使其難以實現大規模或靈活的深度網路[30]。另一種選擇是利用可伸縮索引結構，包括kd-tree [4]，八叉樹[25]。基於這些結構的深度網路顯示出令人鼓舞的結果。與基於樹的結構相比，點雲表示在數學上更簡潔和直接，因為每個點僅由3維向量表示。此外，藉助運動結構（SfM）演算法，可以使用流行的感測器（如RGB-D相機，LiDAR或常規相機）輕鬆獲取點雲。儘管點雲被廣泛使用，也能夠輕鬆獲取，但點雲識別任務仍然具有挑戰性。傳統的深度學習方法如ConvNets不適用，因為點雲在空間上是不規則的，並且可以任意排列。由於這些困難，很少有人嘗試將深度學習技術直接應用到點雲，直到最近的PointNet [26]。

儘管作為將深度學習應用於點雲的先驅，PointNet仍無法充分處理局部特徵提取。後來PointNet++[28]被提出來通過構建一個類似金字塔的特徵聚合方案來解決這個問題，但[28]中的點採樣和分組策略並沒有揭示輸入點雲的空間分布。Kd-Net [18]從輸入點雲構建kd樹，然後進行從樹葉到根節點的分層特徵提取。Kd-Net明確地利用點雲的空間分布，但是仍然存在諸如感受野不重疊等限制。

在本文中，我們提出SO-Net來解決現有基於點雲的網路中的問題。具體而言，建立SOM [19]來模擬輸入點雲的空間分布，這使得在單獨的點和SOM節點上進行分層特徵提取成為可能。最終，輸入點雲可以被壓縮成單個特徵向量。在特徵聚合過程中，通過在SOM上執行點到節點的k-近鄰（KNN）搜索來控制感受野重疊。理論上，SO-Net通過特殊的網路設計以及我們的置換不變SOM訓練來保證對輸入點的順序保持不變。我們的SO-Net的應用包括基於點雲的分類，自動編碼器重建，零件分割和形狀檢索，如圖1所示。

本文的主要貢獻如下：

我們設計了置換不變網路 - 顯式利用點雲空間分布的SO-Net。

通過在SOM上進行點到節點的KNN搜索，可以系統地調整感受野重疊來執行分層特徵提取。

我們提出一種點雲自動編碼器作為預訓練，以改善各種任務中的網路性能。

與最先進的方法相比，在各種應用中獲得相似或更好的性能，並且訓練速度顯著加快。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 3D點雲深度學習 的精彩文章:

TAG:3D點雲深度學習 |

SO-Net：用於點雲分析的自組織網路

Abstract

Introduction