當前位置:
首頁 > 科技 > Google能以深度學習重建動態人物視頻的深度信息

Google能以深度學習重建動態人物視頻的深度信息

Google發布了最新的計算機視覺研究,現在他們能夠使用深度學習,良好地推測出一般視頻中人物與場景深度信息,而這個深度信息能夠進一步應用在合成視頻中,產生像是散焦視頻,或是加入搖擺鏡頭等特效。Google提到,之前雖然有其他研究對視頻場景深度進行預測,但這項研究是第一個,能夠處理攝影機以及物體同時移動的視頻。

人類的眼睛與大腦可以從2D投影回推3D世界,即便在多個移動物體的場景,也能夠理解物體幾何形狀的變化以及深度排序(Depth Ordering),而過去在計算機視覺發展的過程,人類以2D圖像數據重建3D場景幾何結構,試圖讓計算機也擁有相同的能力,但是在部分的案例上,依然很難取得足夠穩定的成果,Google提到,特別是在場景的物體以及攝影機都在移動的時候,計算機特別難以正確計算深度。

因為基於三角測量的3D重建演算法前提,同一物體至少要被兩個不同的視點觀察到,而要滿足這樣的條件,需要使用攝影機數組,如果只使用單一攝影機拍攝,則需要且只能移動攝影機,並保持其他場景物體靜止。不過,無論什麼方法,對於場景中移動的物體,現有的演算法皆無法良好的處理。

Google最新研究成果的特別之處,在於他們使用深度學習,讓模型習得人類的姿勢與形狀,由模型填補人物區域的深度值,避免進行直接3D三角測量而導致錯誤的結果,Google表示,這篇論文之所以針對人物研究,是因為人是增強實境與3D圖片效果的重要主題。

研究人員使用YouTube上視頻,他們找到兩千個以手持攝影機,拍攝人類以各種靜止姿勢,模仿衣服模特兒假人的視頻,讓模型進行監督式學習,習得人類各種靜止的自然姿勢,且由於整個場景都是靜止的,只有攝影機在移動,因此Google可以取得包括人物在內,整個場景精確的深度信息。

Google提到,要以監督式的方法訓練深度模型,需要提供模型場景視頻以及精確的深度圖(Depth Map),除了要取得自然的人類行為,還要將真實的場景納入考量,以虛擬建模後渲染,以取得大量訓練數據有其困難度,而使用像是Kinect這類RGBD感測器,通常僅限於室內場景,並且該領域還有其他待解決的3D重建挑戰,因此Google最終考量,還是使用YouTube視頻。

計算訓練數據深度信息由兩個步驟組成,先找出靜態的深度,再算出動態的部分。Google使用運動視差,就能從兩個視點觀測單一靜態物體,以取得深度信息,Google計算了不同時的兩個影格像素位移量(2D Optical Flow),而決定該位移量的變數有場景的深度,以及相機的相對位置,而由於相機位置為已知信息,因此模型就能推算出初始的深度圖。

而初始的深度圖僅包含靜止的部分,為了要處理視頻中移動的人物,Google會先將初始深度圖的人物以遮罩遮掉,作為輸入信息的一部分,完整輸入回歸網路的數據,包含RGB圖像、人物遮罩,以及用遮罩處理過的視差深度圖,而該回歸網路的工作,就是用來修復人物區域的深度值,Google提到,由於人物具有大同小異的形狀以及尺寸,因此網路經過樣本學習後,就能推測出人物的深度信息。

經過訓練之後的模型,可以處理相機與人物隨意運動的視頻,而找出人物和場景的深度值,就能為視頻加入3D感知的特效,像是為視頻加入景深,合成散焦特效,也能進一步重置為立體的視頻,或是將CG對象放到視頻中,而結合不同影格的圖像信息,還能做出搖擺攝影機的功能(下圖)。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 十輪網科技 的精彩文章:

Kingston展示新一代SSD固態硬碟及全方位存儲解決方案

TAG:十輪網科技 |