單個運動攝像頭估計運動物體深度,谷歌挑戰新難題
雷鋒網 AI 科技評論按:人類視覺系統有一個我們習以為然但其實極其強大的功能,那就是可以從平面圖像反推出對應的三維世界的樣子。即便在有多個物體同時移動的複雜環境中,人類也能夠對這些物體的幾何形狀、深度關係做出合理的推測。
然而類似的事情對計算機視覺來說就有相當大的挑戰,在攝像頭和被拍攝物品都靜止的情況下尚不能穩定地解決所有的情況,攝像頭和物體都在空間中自由運動的情況就更難以得到正確的結果了。原因是,傳統的三維重建演算法依賴三角計算,需要假設同一個物體可以從至少兩個不同的角度同時觀察,通過拍攝的圖像之間的區別(視差)解算三維模型。想要滿足這樣的前提,要麼需要一個多攝像頭陣列,要麼要保持被拍攝物體完全靜止不動,允許單個攝像頭在空間中移動觀察。那麼,在只有單個攝像頭的情況下,深度計算中要麼會忽略掉移動物體,要麼無法計算出正確的結果。
在谷歌的新研究《Learning the Depths of Moving People by Watching Frozen People》中,他們提出了一種新的基於深度學習的方法來解決單個攝像頭 攝像頭和物體都在移動的狀況下的深度預測,在任意視頻上都有很好的效果。這個方法中用人類姿態、常見物體形態的先驗學習替代了對於圖像的直接三角計算。雷鋒網 AI 科技評論介紹如下。
值得指出的是,用機器學習的方法「學習」三維重建/深度預測並不是什麼新鮮事,不過谷歌的這項研究專門針對的是攝像頭和被攝物體都在移動的場景,而且重點關注的被攝物體是人物,畢竟人物的深度估計可以在 AR、三維視頻特效中都派上用場。
巧妙地尋找訓練數據
正如絕大多數此類方法一樣,谷歌選擇了用有監督方法訓練這個模型。那麼他們就需要找到移動的攝像頭拍攝的自然場景視頻,同時還帶有準確的深度圖。找到大量這樣的視頻並不容易。如果選擇生成視頻的方法,這需要非常逼真的建模,而且在多種場景、光照、複雜度的組合下呈現自然的人物動作,不僅有很高的難度,而且想要泛化到真實場景中仍然有一定難度。另一方法是在真實世界中拍攝這樣的視頻,需要攝像頭支持 RGBD (彩色圖像 深度圖),微軟的 Kinect 就是一種常用的低價方案;但這個方案的問題是,這類攝像頭通常只適用於室內環境,而且在三維重建過程中也通常有各自的問題,難以得到理想的精度。
機智的研究人員們想到了利用 YouTube 上面的視頻。YouTube 上的海量視頻中,各種題材、場景、拍攝手法的都有,有一類視頻對這個任務極其有幫助:視頻中的人假裝時間靜止,保持位置和姿態不動,然後一個攝像機在空間中移動,拍下整個場景。由於整個場景中的物體都是固定的,就可以用傳統的基於三角計算的方法精確地還原整個三維場景,也就得到了高精度的深度圖。谷歌的研究人員們搜集了大概 2000 個這樣的視頻,包括了不同數量的人們在各種各樣不同的真實場景中擺出各種姿勢。
為正在移動的人估算距離
上面說到的「時間靜止」視頻提供了移動的攝像頭 靜止的物體的訓練數據,但是研究的最終目標是解決攝像頭和物體同時運動的情況。為了應對這個區別,谷歌的研究人員們需要把網路的輸入結構化。
一種簡單的解決方案是為視頻中的每一幀分別推理深度圖(也就是說模型的輸入是單幀畫面)。雖然用「時間靜止」視頻訓練出的模型已經可以在單幀圖像的深度預測中取得頂尖的表現,但谷歌的研究人員們認為,他們還可以利用多個幀的信息進一步提升模型的表現。比如,對於同樣的固定物體,攝像頭的移動形成了不同視角的兩幀畫面,就可以為深度估計提供非常有用的線索(視差)。為了利用這種信息,研究人員們計算了每個輸入幀和另一幀之間的二維光流(兩幀之間的像素位移)。光流同時取決於場景的深度和攝像頭的相對位置,不過由於攝像頭的位置是未知的,就可以從光流場中消去兩者間的依賴,從而得到了初始深度圖。這樣得到的深度圖只對場景中靜態的部分有效,為了還能處理移動的人,研究人員們增加了一個人物分割網路,把人從初始深度圖中遮蔽掉。那麼,網路的輸入就由這三部分組成:RGB 彩色圖像,人物掩蔽,以及通過視差計算的帶有掩蔽的深度圖。
對於這樣的輸入,網路的任務就是補上有人的區域的深度圖,以及對整幅畫面的深度圖做一些完善。由於人體有較為固定的形狀和尺寸,網路可以很容易地從訓練數據中學到這些先驗,並給出較為準確的深度估計。在訓練完畢後,模型就可以處理攝像頭和人物動作都任意變化的自然拍攝視頻了。
與當前的其它優秀方法的對比如下圖。
通過深度圖實現三維視頻效果
得到準確的深度圖之後,一種簡單、常見的使用方法就是實現景深和虛焦效果,如下圖。
其它的用法還比如可以用原圖結合深度圖進行小幅視角變換,合成「三維畫面」,如下圖;甚至在畫面中增加具有準確深度和尺寸的三維元素也不難。


※極棒·華為智能設備安全挑戰賽招募選手:200萬獎金,送華為設備
※Windows 10 大進化:微軟正式宣布將打造一款 Modern OS
TAG:雷鋒網 |