3D模型分割新方法解放雙手!不用人工標註,只需一次訓練
丁潤語 投稿
量子位 | 公眾號 QbitAI
3D模型分割現在也解放雙手了!
香港大學和位元組夢幻聯動,搞出了個新方法:
不需要人工標註,只需要一次訓練,就能讓3D模型理解語言並識別未標註過的類別。
比如看下面這個例子,未標註的(unannotated)黑板和顯示器,3D模型經過這個方法訓練之後,就能很快「抓准」目標進行劃分。
再比如,給它分別輸入sofa、cough這類同義詞刁難一下,也是輕鬆拿下。
甚至連浴室(bathroom)這類抽象分類也能搞定。
這個新方法名叫PLA (Point-Language Assocation),是一種結合點雲(目標表面特性的海量點集合)和?然語?的方法。
目前,該論文已經被CVPR 2023接收。
不過話說回來,不需要??標註,只進行?次訓練,同義詞抽象分類也能識別……這可是重重buff疊加。
要知道一般方法使用的3D數據和?然語?並不能夠直接從?上免費獲取,往往需要昂貴的??標註,而且一般方法也?法根據單詞之間的語義聯繫識別新類別。
那PLA又是如何做到的呢?一起來看~
具體原理
其實說白了,要成功實現3D模型劃分,最重要的一步就是讓3D數據也能理解?然語?。
專業點來說,就是要給3D點雲引??然語?的描述。
那怎麼引入?
鑒於目前2D圖像的劃分已經有比較成功的方法,研究團隊決定從2D圖像入手。
首先,把3D點雲轉換為對應的2D圖像,然後作為2D多模態?模型的輸?,並從中提取對於圖像的語?描述。
緊接著,利?圖?和點雲之間的投影關係,圖?的語言描述也就自然能夠關聯到3D點雲數據了。
並且,為了兼容不同粒度的3D物體,PLA還提出了多粒度的3D點雲-?然語?關聯方法。
對於整個3D場景??,PLA將場景對應所有圖?提取的語?描述進?總結,並?這個總結後的語?關聯整個3D場景。
對於每個圖像視?對應的部分3D場景??,PLA直接利?圖像作為橋樑來關聯對應的3D點雲和語?。
對於更加細粒度的3D物體??,PLA通過?較不同圖像對應點雲之間的交集和並集,以及語?描述部分的交集和並集,提供了?種更加細粒度的3D-語?關聯?式。
這樣一來,研究團隊就能夠得到成對的3D點雲-?然語?,這一把直接解決了人工標註的問題。
PLA用得到的「3D點雲-?然語?」對和已有的數據集監督來讓3D模型理解檢測和分割問題定義。
具體來說,就是利?對?學習來拉近每對3D點雲-?然語?在特徵空間的距離,並推遠不匹配的3D點雲和?然語?描述。
講了這麼多原理,那PLA在具體分割任務中表現到底如何?
語義分割任務超越基準65%
研究?員通過測試3D開放世界模型在未標註類別的性能作為主要衡量標準。
先是在ScanNet和S3DIS的語義分割任務上,PLA超過以前的基線?法35%~65%。
在實例分割任務中,PLA也有提升,對比之前的方法,PLA提升幅度15%~50%不等。
研究團隊
這個項目的研究團隊來自香港大學的CVMI Lab和位元組跳動。
CVMI Lab是香港大學的一個人工智慧實驗室,實驗室2020年2月1日成立。
研究範圍涵蓋了計算機視覺與模式識別,機器學習/深度學習,圖像/視頻內容分析以及基於機器智能的工業大數據分析。
論?地址:
https://arxiv.org/pdf/2211.16312.pdf
項?主?:
https://github.com/CVMI-Lab/PLA
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)