聖路易斯華盛頓大學劉晨：室內場景的結構化重建

新聞 09-14

雷鋒網AI研習社按：隨著增強現實，家務機器人等應用的普及，室內場景重建研究正在得到越來越廣泛的關注。與傳統底層密集重建方法不同，講者的研究集中在分析重建場景中的高層結構化信息。

在本次AI研習社大講堂上，來自聖路易斯華盛頓大學的計算機系在讀博士劉晨分享了其結構化重建的最新工作。

分享嘉賓：

劉晨，聖路易斯華盛頓大學計算機系在讀博士，導師是Yasutaka Furukawa教授，主要研究方向為三維視覺，場景理解等。其研究工作曾在 CVPR、ICCV、ECCV等會議發表。

分享主題：室內場景的結構化重建

分享提綱：

結構化場景重建的定義及意義

單目結構化重建

俯視圖結構化重建

多目結構化重建

雷鋒網AI研習社將其分享內容整理如下：

非常高興能在這個平台上和大家分享我們組的最新研究成果，這次的分享題目是《室內場景的結構化重建》。

大家都知道，從一個場景中理解分析三維的幾何信息是一個非常重要的計算機視覺問題。傳統的方法多是用一些底層次的三維表示，比如說密集的點雲、密集網格模型或者是深度圖。這些低層次的三維表示雖然看起來很美觀，但是卻不好分析和理解，因此並不是很實用。

我們的研究希望出一個中看也中用的表示。作為人類，我們會及時辨別一個場景中哪些部分是完整的地面，哪些部分是完整的牆，我們希望計算機也能做到。

在俯視圖結構化重建上，由於牆和地面往往是垂直的，所以俯視圖能夠給我們提供非常多的信息，我們的目標是希望能夠得到矢量圖形平面圖，主要是基於牆角的點以及所有牆角之間的連線，這將對我們理解整個室內結構提供非常多的有用信息。

為了獲得矢量圖形平面圖，我們會考慮使用 PNG 圖像、點雲、鐳射掃描作為輸入。

對於結構化的定義，有以下這三點：

一、場景與結構的表示是簡潔的

二、場景是根據語義來分割的

三、分析理解的方式與人類保持一致

結構化表示可以在機器人導航、室內裝飾、虛擬購房導航以及虛擬現實效果優化等方面起作用。

單目結構化重建

目前實現結構化表示方面我們遇到哪些挑戰呢？

首先，高層次的場景理解需要提取整個平面；

其次，室內存在許多造成干擾的遮擋物體；

最後，室內場景的平面往往缺乏紋理。

為了應對挑戰，我們提取了室內場景的特性：平面性與正交性，利用這兩點來做單目結構化重建的工作。我們試圖從照片中提取出所需要的平面，並估計每個平面的三維參數，進而確定平面的三維結構信息。

過去雖然有一些底層次的三維重建工作也取得了不錯的效果，卻面臨著不夠直觀和平滑的問題。

在我們的工作中，我們假定一個圖像擁有十個平面，每個平面分別用三維空間中的三個參數來表示，最終確定三維結構；為了進一步確認在三維空間中的範圍，我們會計算 segmentation masks；至於非平面區域，則估算 pixel-wise 的 depth map。

這三種信息合起來便是圖片的三維場景信息。

這樣做會遇到什麼挑戰呢？那就是我們無法確認第一個輸出的平面長什麼樣，因為我們是根據 geometry 來做分割。

於是我們使用set matching解決以上問題——在確認 prediction 以後，我們在 Ground truth 里為每個 prediction 找到最近零作為監督。為了進一步提升重建效果，我們還用ground truth 的 text來做監督學習。

此外，我們使用了包含多種三維模型的ScanNet 數據集作為訓練網路，結合相機參數，將三維空間中的平面投映到二維上來，以獲得最終需要的訓練數據——plane parameters, segmentation masks 和非平面區域的 depth map。

這份工作的意義在於，我們可以在平面圖上添加一些虛擬元素（電視、動態 logo、遊戲），以增強虛擬現實的呈現效果。

從上圖來看，我們的演算法對於大平面的檢測質量還是比較穩定的，只是在一些邊緣部分或者小平面還存在一些問題。

另外，我們最終獲得的 depthmap，不單能夠保證內部的絕對平滑，且在精度上也不比其他演算法差。

關於這項工作，我們未來試圖探索的方向有：

一、如何將單幅圖像結構重建拓展到多幅圖像；

二、考慮分析遮擋信息；

三、用於室外場景；

四、考慮更複雜的表面表示信息。

俯視圖結構化重建

關於俯視圖結構化重建，我將著重分享如何從Jpeg 圖像和點雲中進行恢復重建。

這種矢量圖的價值在於：

可以幫助我們對建築做出直觀的分析理解；

在有需要時可以將結構圖轉成三維空間實現渲染效果；

如果你是一名建築師，還可以隨時修改自己的設計圖。

為了獲取矢量圖，我們借鑒了Human pose estimation 方法，並解決了所面臨的任意拓撲挑戰。在我們的工作中，會先通過深度網路找到圖中的關鍵元素（牆角、門、物體……），然後再利用 Integar Programming（IP）進行優化。總的來說，前者構成了我們的中間層表示，後者最終優化出最終的結構圖。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※黑客組織 Darkhotel 疑與朝鮮有關，借 VBScript 漏洞盯上「人上人」

TAG:雷鋒網 |