Facebook最新開源，普通RGB相機即可實時映射3D模型

科技 06-23

我們已經介紹過很多僅用RGB相機進行動作捕捉的研究了，其中大多數是模擬出骨骼進行追蹤，少數則是通過模擬出的骨骼套上一個粗糙的模型，便可稱為3D模型了。

近日，Facebook AI Reaserch（FAIR）開源了一項將2D RGB圖像的所有人類像素實時映射至3D模型的技術——DensePose，而且採用的也不是我們經常介紹的骨骼追蹤，而是一種十分密集的方案追蹤來構建3D模型。

在戶外和穿著寬鬆衣服的也表現良好。

還支持多人同時追蹤。

那這個密集如何來理解呢？

對於一般的骨骼追蹤，追蹤的點大多在十到二十個之間，再多也沒有多少實際的效果。而DensePose所追蹤的點一共有336個，密密麻麻全身都是點。（密集恐懼症退避）

之所以要追蹤這麼多的點，是構建一個平滑流暢的3D模型所必須的數據。

辛苦的付出也是值得的，DensePose無論是在戶外還是多人下都表現良好，還能實時更換場景中人的衣服。

那就來看看他們是怎麼做到的吧。

為了讓機器可以學習，研究人員手動標記了5萬張照片中的336個點，光這個步驟就是一個巨大的工程了，如果按部就班的標記注釋，不知道要到什麼時候完成了。

研究人員將一個人拆分成了24個部分，分別為頭、軀幹上部、軀幹下部、大臂、小臂、大腿、小腿、手、腳。每個部分標記14的點。

對於頭部、手部、腳部都由人手動標記。同時還要求注釋者在標記的時候標出被衣物掩蓋住的部位，比如寬鬆的裙子。

這些工作做完後進入第二階段，研究人員對每一個展開部位區域進行採樣，會獲得6個不同的標記圖，提供二維坐標地圖使標記者更直觀的判斷哪個標記是正確的。

最後再將平面重新組合成3D模型，進行最後一步校準。

這樣兩步下來，研究人員得以高效準確的獲得了準確的標記。不過在軀幹、背部還有臀部有較大的誤差。

接下來就是深度學習的階段了，這時一個好的方案就好比性能優越的催化劑。

研究人員採用與Mask-RCNN架構的DenseReg類似的方法，構成了"DensePose-RCNN"系統，還進一步開發使得訓練的準確度提高。首先由外觀粗略的估算像素所在的位置，然後將其與準確的坐標對齊。

DenseReg MaskRCNN的關鍵點分支中使用相同的體系結構，由8個交替的3×3完全卷積和512個通道的ReLU層組成。得益於Caffe2，所產生的架構實際上與Mask-RCNN一樣快。

為了降低錯誤率，還訓練了一個「教師」網路來重建地面，部署它完整的圖像域，產生一個密集的監督信號。研究人員將人類監督者半自動監督和「教師網路」進行對比，結果是「教師」完勝。

研究人員還將其方法與SMPLify進行了對比，在模型的模擬方面，研究人員的自下而上的前饋方法在很大程度上勝過了迭代的模型擬合結果。

同時在多人處理時，FCN明顯差於"DensePose-RCNN，再與其他方案比較時優勢也十分突出。

最後，整體呈現的效果如開頭所講，能夠處理大量遮擋物，成功的模擬出了衣服後面的人，但有一點需要注意，那就是所有人都是通過固定的曲率擬合的。而且在多人狀況下表現十分良好。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AR醬 的精彩文章:

TAG:AR醬 |