當前位置:
首頁 > 科技 > FAIR聯合INRIA提出DensePose-RCNN,更好地實現人體姿態估計

FAIR聯合INRIA提出DensePose-RCNN,更好地實現人體姿態估計

圖:pixabay

原文來源:arXiv

作者:R?za Alp Guler、Natalia Neverova、Iasonas Kokkinos

「雷克世界」編譯:嗯~阿童木呀

在這項研究中,我們在RGB圖像和人體表面表示之間建立了密集對應,我們將該任務稱為密集人體姿態估計(dense human pose estimation)。首先,我們通過引入一個有效的注釋管道(annotation pipeline),以收集COCO數據集中出現的50000個人的密集對應關係。然後,我們使用我們的數據集對基於CNN的系統進行訓練,以交付自然環境中(即存在背景、遮擋和尺度的變化)的密集對應關係。我們通過訓練「修補」網路(inpainting network)來提高訓練集的有效性。其中,該修補網路能夠填充缺失的對照標準值(ground truth values),並對過去可以達到的最佳結果的明顯改進做出報告。我們使用完全卷積網路和基於區域的模型進行實驗,並觀察後者的優越性。通過級聯,我們進一步地提高了精確度,獲得一個實時交付高精度結果的系統。相關補充材料和視頻可進入項目頁面http://densepose.org獲取。

密集姿態估計旨在將RGB圖像中的所有人類像素映射到人體的三維表面。我們引入了DensePose-COCO,這是一個大型的對照標準數據集,通過圖像到表面的對應關係,對50000 COCO圖像進行了手動標註,並訓練DensePose-RCNN,以每秒多幀的速度在每個人類區域內密集回歸特定部分的UV坐標。左圖:由DensePose-RCNN處理的圖像和回歸對應,中間:密集的COCO數據集注釋,右圖:身體表面的分區和UV參數化。

實際上,這項研究旨在通過建立一個從二維圖像到三維,人體表面表示的密集對應,從而進一步推動人類對圖像理解的進展。我們可以把這個任務理解為涉及若干諸如目標檢測、姿態估計、局部和實例分割的問題,或者將其視為特殊情況或先決條件。而想要解決這個問題不僅僅需要諸如圖形、增強現實或人機交互等普通的特徵點定位方法,它也可能是通用基於三維目標理解的奠基石。

其實,從一個圖像到基於表面的模型之間密集對應關係的建立,主要是在深度感測器可用的環境中完成的。如《維特魯威流形(vitruvian manifold):獨熱人體姿態估計的密集對應關係的推測》中的度量回歸森林(metric regression forests),或者最近的《使用卷積神經網路建立密集人體對應關係》中的密集點雲對應(dense point cloud correspondence)。相比之下,在我們的示例情況下,我們考慮使用一個單一的RGB圖像作為輸入,基於此我們建立表面點和圖像像素之間的對應關係。

我們通過要求注釋者將圖像分割成語義區域,然後在每個呈現的部分圖像中對每個採樣點的對應表面點進行定位,從而對圖像和三維表面模型之間的密集對應進行注釋。紅十字表示當前注釋的點。所呈現視圖的表面坐標對在三維模型上收集的二維點進行定位。

最近,其他幾個研究工作的目標是在無人監督的環境中復原RGB圖像對或圖像集之間的密集對應關係。最近,J. Thewlis、H. Bilen和A. Vedaldi在《從密集的等變換圖像標籤中進行無監督目標學習》中使用等方差原理(equivariance principle)以將圖像集對齊到一個公共坐標系中,同時遵循groupwise圖像對齊的通用思想。

雖然這些研究針對的是一般類別,但我們的研究聚焦在可以說是最為重要的視覺類別——人類。對於人類來說,可以通過利用參數可變形表面模型(parametric deformable surface models)對任務進行簡化,如人皮膚的多線性模型(Skinned Multi-Person Linear(SMPL)model)或最近通過仔細控制三維表面獲取獲得的Adam模型。在文獻《保持它的SMPL:從單個圖像中自動估計三維人體姿態和形狀》中,作者提出了一個兩階段的方法,首先,通過CNN檢測人類特徵點,然後通過迭代最小化將參數可變形表面模型擬合到圖像上。與我們的研究同時進行的是,《人體形狀和姿態的端到端復原》中開發了一種方法,以端到端方式從單個圖像中自動估計三維人體姿態和形狀,將迭代重投影誤差最小化為深度網路的模塊,其能夠復原三維相機姿態和低維的身體參數化。

注釋可視化:圖像(左)、U(中)和V(右)所收集點的值

我們的方法與所有這些研究都有所不同,因為我們採取全面的監督式學習方法,收集圖像和詳細、精確的人體參數化表面模型之間的標準對照對應關係:而不是在測試中使用SMPL模型,我們只將其用作定義訓練期間定義問題的一種手段。在Fashionista、PASCAL-Parts和Look-Into-People(LIP)數據集中,已經提供了人體部分分割掩模,這些可以被理解為為圖像—表面對應提供了一個粗糙版本,而不是一個可以預測離散部分標籤的連續坐標。在這項研究中,我們引入了一種新的注釋管道,使得我們能夠收集COCO數據集的50000張圖像的對照標準值對應關係,而不是損害我們訓練集的範圍和真實性,從而產生我們新的DensePose-COCO數據集。

從理論上來說,我們的研究與最近的DenseReg框架最為接近,在這個框架中,CNN經過訓練能夠成功地在三維模型和自然環境圖像之間建立密集對應關係。這項研究主要集中在人臉上,並在具有適度姿勢變化的數據集上對其結果進行評估。然而在我們的這個研究中,由於人體的複雜性和靈活性較高,姿勢變化較大,我們面臨著新的挑戰。我們通過設計適當的體系結構來解決這些挑戰。通過將我們的方法與最近的Mask-RCNN系統相結合,我們展示了一個有經過鑒別式訓練的模型,它可以為包括數十人在內的複雜場景以實時速度復原高精度對應域:在GTX 1080 GPU上,對於一張240×320的圖像,我們的系統能以每秒20-26幀運行,或對於一張800×1100的圖像,以每秒4-5幀運行。

平均人類注釋誤差作為表面位置的函數

我們的貢獻可以總結為三點。首先,我們通過收集SMPL模型和出現在COCO數據集中的人之間的密集對應關係,引入了第一個用於任務的手動收集的對照標準數據集。這是通過一個全新的注釋管道,在注釋過程中利用三維表面信息來實現的。

其次,我們使用結果數據集對基於CNN的系統進行訓練,通過在任何圖像像素處對身體表面的坐標進行回歸操作,以交付自然環境中的密集對應關係。我們使用兩個依賴於Deeplab 的完全卷積架構,以及依賴於MaskRCNN的基於區域的系統進行了實驗,觀察了基於區域的模型在完全卷積網路上的優越性。我們也考慮了我們方法的級聯變體,對現有體系結構有了進一步的提升改進。

DensePose-RCNN架構

第三,探索了多種利用我們構建的對照標準信息的不同方式。我們的監督信號在每個訓練樣本中隨機選擇的圖像像素子集上得以定義。我們使用這些稀疏的對應關係對「teacher」網路進行訓練,從而在圖像域的其餘部分「修復」監督信號。與其他稀疏點或任何其他現有數據集相比,使用此修復後的信號可以顯著獲得較好的性能表現。

在這項研究中,我們已經解決了使用鑒別式訓練模型進行密集人體姿態估計的任務。我們引入了COCO-DensePose,一個大規模的對照標準圖像—表面對應關係的數據集,並開發了一種新的架構,使得我們能夠以每秒多幀的速度復原圖像和身體表面之間高度精確的密集對應關係。我們預計這將為增強現實或圖形的接下來的任務鋪平道路,同時也幫助我們解決將圖像與語義三維目標表示相關聯的一般性問題。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

谷歌大腦提出MaskGAN,可更好地實現文本生成

TAG:雷克世界 |