當前位置:
首頁 > 最新 > UIUC&Zillow提出LayoutNet:從單個RGB圖像中重建3D房間布局

UIUC&Zillow提出LayoutNet:從單個RGB圖像中重建3D房間布局

選自arXiv

作者:Chuhang Zou等

機器之心編譯

參與:Geek Ai、路

近日,來自 UIUC 和 Zillow 的研究者在 arXiv 上發布論文,提出 LayoutNet——一種僅通過單張透視圖或全景圖就能估算室內場景 3D 布局的深度卷積神經網路(CNN)。該方法在全景圖上的運行速度和預測精度比較好,在透視圖上的性能是最好的方案之一。該方法也能夠推廣到非長方體的曼哈頓布局中。目前,該論文已經被 CVPR 2018 接收。

引言

對於機器人和虛擬現實、增強現實這樣的應用來說,從圖像中估算出房間的三維布局是一個重要的任務。房間的布局指牆壁相對於相機中心的位置、方向以及高度。布局可以表示為一組經過投影處理的角落位置或邊界,或者表示為一個 3D 網格。現有的研究被應用於一些特定的問題,例如通過透視圖或全景圖預測長方體形狀的室內布局。

本論文提出了 LayoutNet,它是一個僅通過單張透視圖或全景圖(如圖 1 所示)就能估算室內場景 3D 布局的深度卷積神經網路(CNN)。該方法在全景圖上的運行速度和預測精度比較好,在透視圖上的性能是最好的方案之一。該方法也能夠推廣到非長方體的曼哈頓布局中,例如「L」形的房間。

代碼地址:https://github.com/zouchuhang/ LayoutNet

圖 1. LayoutNet 根據單張等距柱狀投影的全景圖預測一個非長方體房間的布局。

LayoutNet 方法的工作流程包含三個步驟(如圖 2 所示)。首先,系統分析消失點,並且將圖像與地面對齊在一條水平線上(見 Sec. 3.1)。這種對齊方式確保了牆與牆的邊界是垂直的線,根據實驗結果,該操作大大降低了誤差。第二步,使用一個帶有編碼器-解碼器結構和跳躍連接的卷積神經網路直接預測圖像上的角(布局中的連接處)和邊界的概率圖。每個角落和邊界都提供了房間布局的完整表示。研究者發現,在單個網路中一起預測它們將得到更好的估計結果。最終,研究者對三維布局參數進行了優化,用於擬合預測出的角落和邊界(見 Sec. 3.4)。最後三維布局優化過程的損失很難在網路中進行反向傳播,但是訓練過程中對 3D 參數執行的直接回歸(direct regression)起到了有效的替代作用,這最大化提升了最終預測的準確度。

本文的突出貢獻有:

提出了一種更加通用的根據 RGB 圖像推斷出布局的演算法,它適用於曼哈頓布局的透視圖和全景圖。該系統在全景圖像上有較好的運行速度和預測準確度,在透視圖圖像上取得了第二優的綜合預測性能和最優的運算速度。

展示了利用預先計算出的消失點線索、幾何約束以及後處理優化的好處,說明深度神經網路方法仍然能夠從幾何線索和約束中受益。研究者還展示了添加目標函數以直接回歸 3D 布局參數,從而更好地預測用於最終解決布局預測問題的邊界和角落。

擴展了斯坦福「2D-3D」數據集的注釋 [1],提供了可用於後續工作的房間布局注釋。

圖 2. 概述。LayoutNet 遵循編碼器-解碼器策略。網路的輸入是單張 RGB 全景圖和曼哈頓線圖的級聯。該網路將一同預測布局的邊界和角落的位置。3D 布局參數損失使得預測準確率最大化提升。最終的預測結果是一個曼哈頓約束下的布局重建。

網路架構

LayoutNet 網路架構如圖 2 所示。該網路遵循編碼器-解碼器策略。深度全景編碼器:輸入為一個 6 通道的特徵映射,即使用 Sec. 3.1 中提到的對齊方法將解析度為 512*1024 的單個 RGB 全景圖(或者解析度為 512*512 的透視圖)和三個正交消失方向上的曼哈頓線圖的特徵映射級聯起來。編碼器包含 7 個卷積層,卷積核的大小為 3*3。每個卷積之後會跟隨一個 ReLU 操作和最大池化層,其下採樣因子為 2。第一個卷積層有 32 個特徵,研究者在每次卷積操作之後將特徵規模擴大到之前的兩倍。這個深度神經網路結構確保從高解析度圖像中學習到更好的特徵,有助於簡化解碼步驟。研究者嘗試在每一個卷積層之後進行批量歸一化操作,但是發現這樣做預測準確率降低。研究者還探索了另一種網路結構,單獨將一個編碼器應用於輸入圖像和曼哈頓線圖上,但它與研究者目前使用的簡單設計相比,性能沒有得到提升。

表 1. 使用 PanoContext 數據集 [33] 從全景圖中得到的長方體布局量化預測結果。研究者比較了 PanoContext 方法,並且在本文提出方法的各種配置參數上引入了模型簡化分析。粗體數字表示訓練 PanoContext 數據時得到的最佳性能。

表 3. 在研究者標註的斯坦福 2D-3D 注釋數據集上的模型評估結果。研究者通過對各種變數的模型簡化分析評估了 LayoutNet 方法。粗體數字表示僅僅在斯坦福 2D-3D 訓練數據集上的最佳訓練結果。

圖 3. 在 PanoContext 數據集 [33] 上對長方體布局預測的定性分析結果(隨機抽樣)。研究者展示了其方法(偶數列)和當前最優方法 [33](奇數列)的性能。每個圖像由給定計算方法預測出的布局(橙色的線)和標定的真實布局(綠色的線)組成。本文方法在像素層面上是十分準確的,但是正如定量分析結果中交並比(IoU)這一測度所顯示的那樣,三維布局預測對即使是很小的二維預測誤差都很敏感。

圖 4. 在斯坦福 2D-3D 注釋數據集上對長方體布局預測的定性分析結果(隨機抽樣)。與 PanoContext 數據集相比,這個數據集更加棘手,因為它垂直方向的視場更小,而且更加閉塞。研究者展示了其方法預測出的布局(橙色的線),並將其與真實的布局(綠色的線)進行了對比。

圖 5. 對透視圖的定性分析結果。研究者展示了輸入的 RGB 圖像,預測了邊界/角落圖以及最終估算出來的分布(橙色的線),並將其與真實的布局(綠色的線)進行了對比。

論文:LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image

論文鏈接: https://arxiv.org/abs/1803.08999

摘要:我們提出了一種根據單張圖像預測房間布局的演算法,它能夠被推廣到全景圖、透視圖、長方體布局和更一般化的布局中(如 L 形房間)。我們的方法可直接在全景圖像上運行,而不是像近來的一些研究那樣將全景圖分解成多個透視圖。我們的網路架構類似於 RoomNet,但是我們展示了一系列改進:根據消失點將圖像對齊、預測多個布局元素(角落、邊界、大小和圖像轉化),並且將一個帶約束的曼哈頓布局和最終的預測結果進行了擬合。在全景圖上,我們的方法在運算速度和預測準確度上有較好的性能;在透視圖上,我們方法的預測準確度是最優方法之一,並且能夠處理長方體形狀布局和更一般的曼哈頓布局。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

入門深度學習必備乾貨:這是一份適合所有人讀的綜述論文
CMU&谷歌Spotlight論文:超越卷積的視覺推理框架

TAG:機器之心 |