3D模型分割新方法解放雙手！不用人工標註，只需一次訓練

科技 03-25

丁潤語投稿
量子位 | 公眾號 QbitAI

3D模型分割現在也解放雙手了！

香港大學和位元組夢幻聯動，搞出了個新方法：

不需要人工標註，只需要一次訓練，就能讓3D模型理解語言並識別未標註過的類別。

比如看下面這個例子，未標註的（unannotated）黑板和顯示器，3D模型經過這個方法訓練之後，就能很快「抓准」目標進行劃分。

再比如，給它分別輸入sofa、cough這類同義詞刁難一下，也是輕鬆拿下。

甚至連浴室（bathroom）這類抽象分類也能搞定。

這個新方法名叫PLA （Point-Language Assocation），是一種結合點雲（目標表面特性的海量點集合）和?然語?的方法。

目前，該論文已經被CVPR 2023接收。

不過話說回來，不需要??標註，只進行?次訓練，同義詞抽象分類也能識別……這可是重重buff疊加。

要知道一般方法使用的3D數據和?然語?並不能夠直接從?上免費獲取，往往需要昂貴的??標註，而且一般方法也?法根據單詞之間的語義聯繫識別新類別。

那PLA又是如何做到的呢？一起來看～

具體原理

其實說白了，要成功實現3D模型劃分，最重要的一步就是讓3D數據也能理解?然語?。

專業點來說，就是要給3D點雲引??然語?的描述。

那怎麼引入？

鑒於目前2D圖像的劃分已經有比較成功的方法，研究團隊決定從2D圖像入手。

首先，把3D點雲轉換為對應的2D圖像，然後作為2D多模態?模型的輸?，並從中提取對於圖像的語?描述。

緊接著，利?圖?和點雲之間的投影關係，圖?的語言描述也就自然能夠關聯到3D點雲數據了。

並且，為了兼容不同粒度的3D物體，PLA還提出了多粒度的3D點雲-?然語?關聯方法。

對於整個3D場景??，PLA將場景對應所有圖?提取的語?描述進?總結，並?這個總結後的語?關聯整個3D場景。

對於每個圖像視?對應的部分3D場景??，PLA直接利?圖像作為橋樑來關聯對應的3D點雲和語?。

對於更加細粒度的3D物體??，PLA通過?較不同圖像對應點雲之間的交集和並集，以及語?描述部分的交集和並集，提供了?種更加細粒度的3D-語?關聯?式。

這樣一來，研究團隊就能夠得到成對的3D點雲-?然語?，這一把直接解決了人工標註的問題。

PLA用得到的「3D點雲-?然語?」對和已有的數據集監督來讓3D模型理解檢測和分割問題定義。

具體來說，就是利?對?學習來拉近每對3D點雲-?然語?在特徵空間的距離，並推遠不匹配的3D點雲和?然語?描述。

講了這麼多原理，那PLA在具體分割任務中表現到底如何？

研究?員通過測試3D開放世界模型在未標註類別的性能作為主要衡量標準。

先是在ScanNet和S3DIS的語義分割任務上，PLA超過以前的基線?法35%～65%。

在實例分割任務中，PLA也有提升，對比之前的方法，PLA提升幅度15%～50%不等。

這個項目的研究團隊來自香港大學的CVMI Lab和位元組跳動。

CVMI Lab是香港大學的一個人工智慧實驗室，實驗室2020年2月1日成立。

研究範圍涵蓋了計算機視覺與模式識別，機器學習/深度學習，圖像/視頻內容分析以及基於機器智能的工業大數據分析。

論?地址:
https://arxiv.org/pdf/2211.16312.pdf
項?主?:
https://github.com/CVMI-Lab/PLA

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: