當前位置:
首頁 > 知識 > 6D目標姿態估計,李飛飛夫婦等提出DenseFusion

6D目標姿態估計,李飛飛夫婦等提出DenseFusion

選自arxiv

作者:Chen Wang 等

機器之心編譯

機器之心編輯部

根據 RGB-D 圖像進行 6D 目標姿態估計的一個主要技術挑戰是如何充分利用兩個互補數據源——顏色和深度。為此,李飛飛夫婦等研究者提出了 DenseFusion——一種可單獨處理兩個數據源的異質架構。實驗表明,DenseFusion 在 YCB-Video 和 LineMOD 兩個數據集上的表現都優於當前最先進的方法。此外,研究者還將該方法應用於真實的機器人上,使其可以根據估計的姿態來抓取和操縱目標。

1 引言

6D 目標姿態估計對許多重要的現實應用都很關鍵,例如機器人抓取與操控、自動導航、增強現實等。理想情況下,該問題的解決方案要能夠處理具有各種形狀、紋理的物體,且面對重度遮擋、感測器雜訊、燈光條件改變等情況都極為穩健,同時還要有實時任務需要的速度。RGB-D 感測器的出現,使得在弱燈光環境下推斷低紋理目標姿態的準確率比只用 RGB 方法的準確率更高。儘管如此,已有的方法難以同時滿足姿態估計準確率和推斷速度的需求。

傳統方法首先從 RGB-D 數據中提取特徵,完成對應的分組和假設驗證。但是,對手動特徵的依賴和固定的匹配程序限制了它們在重度遮擋、燈光變化環境下的表現。近來在視覺識別領域取得的成果激發了一系列數據驅動方法,即使用 PoseCNN[40] 和 MCN [16] 這樣的深度網路對 RGB-D 輸入做姿態估計。

但是,這些方法需要精心製作後分析微調步驟,從而完整利用 3D 信息,例如 PoseCNN 中生成的高級定製的迭代最近點(ICP)和 MCN 中多視角假設驗證規劃。這些微調步驟不能與最終目標函數聯合優化,在現實應用中也極為緩慢。在自動駕駛中,有一種第三方解決方案被提出,它能夠通過 Frustrum PointNet[22] 和 PointFusion[41] 這樣的端到端深度模型很好地利用 RGB-D 數據中顏色和深度信息的補充性質。在駕駛場景中,這些模型取得了非常好的表現,也有很好的實時推理能力。但是,根據經驗可知,這些方法在重度遮擋環境下不符合標準,這是實際操控領域中非常常見的一種情況。

在本文中,研究者提出一種端到端的深度學習方法,對 RGB-D 輸入的已知物體進行 6D 姿態估計。該方法的核心是在每個像素級別嵌入、融合 RGB 值和點雲,這和之前使用圖像塊計算全局特徵 [41] 或 2D 邊界框 [22] 的研究相反。這種像素級融合方法使得本文的模型能夠明確地推理局部外觀和幾何信息,這對處理重度遮擋情況至關重要。此外,研究者還提出了一種迭代方法,能夠在端到端學習框架中完成姿態微調。這極大地提高了模型性能,同時保證了實時推理速度。

研究者在兩個流行的 6D 姿態估計基準——YCB-Video 和 LineMOD 上評估了他們的方法。結果表明,在經過 ICP 改進後,該方法的性能超越了當前最佳的 PoseCNN,其姿態估計準確率提高了 3.5%,推斷速度提高了 200 倍。值得一提的是,這一 dense fusion 新方法在高度凌亂的場景中表現出了魯棒性。最後,研究者還在一個真實的機器人任務中展示了它的用途,在這項任務中,機器人估計目標的姿態並抓取它們以清理桌面。

總而言之,本文的貢獻主要分為兩個方面:首先,研究者提出了一種將 RGB-D 輸入中的顏色和深度信息結合起來的原則性方法。他們利用為該任務學習的嵌入空間中的 2D 信息來增加每個 3D 點的信息,並使用這個新的顏色深度空間來估計 6D 姿態。其次,他們在神經網路架構中集成了一個迭代的微調過程,消除了之前的後處理 ICP 步驟方法的依賴性。

論文:DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion

論文地址:https://arxiv.org/abs/1901.04780

摘要:根據 RGB-D 圖像進行 6D 目標姿態估計的一個主要技術挑戰是如何充分利用兩個互補數據源。先前的研究要麼分別從 RGB 圖像和深度中提取信息,要麼使用代價較高的後處理步驟,限制了它們在高度混亂的場景和實時應用中的性能。在本文中,研究者提出了 DenseFusion。這是一個用於估計 RGB-D 圖像中已知目標 6D 姿態的通用框架。DenseFusion 是一種異質架構,可單獨處理兩個數據源,並且使用新穎的 dense fusion 網路來提取像素級的密集特徵嵌入,從中估計姿勢。此外,研究者整合了端到端的迭代姿態微調程序,該程序進一步改善了姿態估計,同時實現了近實時推理。研究實驗表明 DenseFusion 在 YCB-Video 和 LineMOD 兩個數據集上的表現優於當前最先進的方法。研究者也將該方法應用於真實的機器人上,使其可以根據估計的姿態來抓取和操縱目標。

3 模型

研究者的目標是在混亂場景的 RGB-D 圖像中估計出一組已知目標的 6D 姿態。通常情況下,將 6D 姿勢視為齊次變化矩陣,p ∈ SE(3)。換句話說就是,6D 姿態是由旋轉 R ∈ SO(3) 和平移 t ∈ R 3 , p = [R|t] 組成的。既然是從拍攝圖像中對目標進行 6D 姿態的估計,那麼目標姿態就要相對於相機的坐標框架來定義。

要想在不利的條件下(例如,重度遮擋,光線不足等)估計已知目標的姿態,只有結合顏色和深度圖像通道中的信息才有可能。但是,這兩個數據源是不同空間的。因此,從異質數據源中提取特徵並把它們恰當地融合在一起是這個領域中的主要技術挑戰。

研究者通過以下方式來應對這一挑戰:(1)一個能夠分別處理顏色和深度圖像信息並且可以保留每個數據源原始結構的異質框架;(2)一個通過利用數據源間的內在映射融合顏色-深度圖像信息的密集像素級融合網路。最後,姿態估計可以通過可微分的迭代微調模塊進一步微調。相較於昂貴的事後微調步驟,本文中的微調模塊能夠和主架構一起訓練,並且只會佔用總推理時間的一小部分。

3.1 架構概覽

圖 2. 本研究中的 6D 姿態估計模型概覽。該模型從 RGB 圖像中生成目標分割掩碼和邊界框。深度圖中的 RGB 顏色和點雲被編碼為嵌入並在每個對應的像素上進行融合。

上述模型的架構主要包含兩個階段。第一個階段將彩色圖像作為輸入,為每個已知的目標類別執行語義分割。接下來,對於每個分割後的目標,研究者將掩碼深度像素(轉換為 3D 點雲)及掩碼邊框裁剪的圖像塊導入到第二階段。

第二個階段處理分割的結果並估計目標的 6D 姿態。它包含四個部分:a)一個處理顏色信息的全卷積網路,該網路將圖像塊中的每個像素映射到一個顏色特徵嵌入中;b)一個基於 PointNet 的網路,該網路將帶有掩碼的 3D 點雲中的每個點處理為一個幾何特徵嵌入;c)一個像素級的 fusion 網路,該網路將兩個嵌入結合起來並基於無監督置信度得分輸出目標的 6D 姿態估計;d)一個迭代的自微調方法,該方法以課程學習的方式對網路進行訓練,并迭代地微調估計結果。a、b、c 見圖 2。d 見圖 3。

圖 3:迭代姿態微調。研究者引入了一個網路模塊來改進迭代過程中的姿態估計。

4 實驗

在實驗部分,研究者想解答以下幾個問題:1)dense fusion 網路與單純的整體 fusion-by-concatenation 相比如何?2)dense fusion 和預測方案對重度遮擋和分割誤差是否魯棒?3)迭代微調模塊能夠改善最終的姿態估計嗎?4)本文的方法對下游任務(如機器人抓取)來說是否足夠魯棒和高效?

為了回答前面三個問題,研究者在兩個具有挑戰性的 6D 目標姿態估計數據集上評估了這一方法:YCB-Video 數據集 [40] 和 LineMOD [12] 數據集。YCB-Video 數據集包含不同遮擋程度、形狀和紋理級別的目標。因此它對該抗遮擋、多模態融合的方法來說是一個理想的試驗台。LineMOD 數據集是一個廣泛使用的數據集,允許我們與更多現有方法進行比較。研究者將本文的方法與最先進的方法 [14, 30] 以及模型變體進行比較。為了解答最後一個問題,研究者在真實的機器人平台上部署其模型,然後在使用該模型預測的任務中評估了機器人在抓取任務中的性能。

圖 1:研究者開發了一個端到端的深度網路模型,用於根據 RGB-D 數據進行 6D 姿態估計。該模型能夠在實時應用(如機器人抓取和操控)中進行快速準確的預測。

表 1:在 YCB-Video 數據集上對 6D 姿態(ADD-S[40])進行定量評估。加粗的目標是對稱的。

圖 5:遮擋程度不斷加大時模型性能的變化。通過計算圖像幀中每個目標不可見表面的百分比來估計遮擋程度。與基線方法相比,本文的方法在重度遮擋的情況下表現更穩健。

表 3:運行時分解(YCBVideo 數據集上每幀的秒數)。本文的方法幾乎比 PoseCNN ICP 快了 200 倍。Seg 表示 Segmentation(分割),PE 表示 Pose Estimation(姿態估計)。

圖 4:在 YCB-Video 數據集上的定性結果。用和 PoseCNN 中相同的分割掩碼對三種方法進行測試。不同顏色中的每個目標點雲通過預測的姿態來變換,然後投影到 2D 圖像幀上。上兩行用的是以前的 RGB-D 方法,最後一行用的是本文提出的 dense fusion 與迭代微調方法(迭代 2 次)。

表 2:在 LineMOD 數據集上對 6D 姿態(ADD[13])進行定量估計。加粗的目標是對稱的。

圖 6:在 LineMOD 數據集上的迭代微調性能。可視化該研究中的迭代微調程序如何糾正最初的次優姿態估計。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

資源 | 伯克利2018秋季課程:人工智慧導論(視頻+PPT+作業)
深度學習時代的圖模型,清華髮文綜述圖網路

TAG:機器之心 |