谷歌預測景深新研究:即使相機人物都在動,單一視點也能合成3D深度圖
銅靈 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
一個你邊走邊拍得到的普通視頻,現在也能重建出精準的3D世界了。
這一次,谷歌用深度學習的方法,不僅從視頻中重建了移動對象的景深圖,而且效果精準驚艷。即使拍攝相機和人物同時在運動,也能很好重建景深圖。
輸入這樣的視頻:
就能輸出這樣的3D景深版:
谷歌在博客中表示,這是世界首個在攝像機和人體同時運動情況下的深度學習景深預測演算法,優於製作深度圖的最先進工具。
半天時間,推特有近千次的點贊,網友表示:「超級酷」。
研究論文也被CVPR 2019 接收,脫穎而出成為一篇Oral論文。
學習先驗
讓網友high起來的點在於,傳統的創建景深圖的方法,需要至少兩個視點同時捕捉影像。通過兩個不同的視角在同一時間段的變化軌跡,才能拼接重建出3D的影像。
就像下面這樣:
而谷歌的這項研究,只需要用一個視點的影像即可預測位置關係進行重建,比傳統方法簡化了不是一星半點,變成了下面這樣:
在論文Learning the Depths of Moving People by Watching Frozen People中,研究人員介紹了具體的設計細節。
和傳統方法最大的改進在於,谷歌的新方法可以用深度學習,從數據中學習人體姿態和形狀的先驗知識,避開了直接的3D三角測量(3D triangulation)。
這個模型應該如何去構建?
如何獲取訓練數據是擺在前面的第一個問題,在這個數據集中,需要移動的攝像機拍攝的自然場景視頻,以及精確的深度圖。這樣的數據集,似乎在谷歌家族產品中就能找到。
研究人員選取了YouTube上關於#假人挑戰#(Mannequin Challenge)話題的數據,在這種類型的視頻中,被拍攝者需做出一個定格動作,且要表現與人體模型一樣靜止不動,並由攝影師透過移動鏡頭的技巧進行拍攝:
有了這些數據,再利用多視角立體( Multi-View Stereo,MVS)演算法,就可以獲取到包含其中人物在內整個場景的深度圖了。
合成景深圖流程
搞定數據集後,第二個問題來了,如何能在人物和攝像機同時移動的情況下構建景深圖呢?
此前,谷歌在展示過在Pixel 3手機中,通過單目攝像頭確定景深圖的研究。但在這個項目中,只有手機鏡頭在動,被拍攝的人靜止。
但這個研究的難度顯然升級了。
研究人員針對視頻中的單個幀,單獨進行深度推斷。他們計算了視頻中每一幀和其他幀之間的2D光流(2D optical flow),用來表示兩幀之間的像素位移。
為了在測試時處理移動的人物,他們採用了人像分割網路( human-segmentation network)來掩蓋初始深度圖中的人類區域。整個網路的完整輸入包括:
RGB圖像
人物mask
來自視差的mask深度圖
此外,通過學習人類姿態和人體形狀的先驗,研究人員細化了景深圖中各種細節。
經過大量訓練後,這個模型可以處理任意相機位置和人體運動的自然視頻。
研究人員將這個新模型與此前DORN DeMoN等類似演算法進行了測評對比,結果如下:
此外,除了合成景深圖,這個新模型還能應用到將合成的CG對象插入到視頻場景中。
結果顯示,即使晃動攝像機改變其位置,也能用視頻其他幀的像素填充人物後面的背景區域。
傳送門
谷歌官方博客:
https://ai.googleblog.com/2019/05/moving-camera-moving-people-deep.html
論文地址:
https://arxiv.org/abs/1904.11111
作者系網易新聞·網易號「各有態度」簽約作者
—完—
小程序|get更多AI學習乾貨
加入社群
量子位AI社群開始招募啦,社群矩陣:AI討論群、AI 行業群、AI技術群;
目前已有4萬AI行業從業者、愛好者加入,AI技術群更有來自海內外各大高校實驗室大牛、各明星AI公司工程師等。自由互相交流AI發展現狀及趨勢。
歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「微信群」,獲取入群方式。(技術群與AI 行業群需經過審核,審核較嚴,敬請諒解)
喜歡就點「在看」吧 !


※TensorFlow也可以做圖形渲染了:當神經網路遇上計算機圖形學
※現實版「柯南變聲領結」!搜狗輸入法「變聲」功能發布,千人千聲一鍵轉換
TAG:量子位 |