挑戰相機、人物同時移動，谷歌實現高質量3D深度信息重建，避免直接3D三角測量

科技 05-28

人類視覺系統非常強大，它能夠根據二維投影理解我們的三維世界。即使是在具有多個移動對象的複雜環境中，人類都能夠解釋對象的幾何形狀和深度排序。長期以來，計算機視覺一直在研究如何通過從二維圖像數據來計算重建場景幾何，從而復刻人類的這項獨特能力。但在大多數情況下，計算機視覺系統都難以實現穩定的重建。

當攝像頭和場景對象都能自由移動時，這將變得特別具有挑戰性。因為它會混淆基於三角測量的傳統三維重建演算法：它假設可以同時從至少兩個不同的視點感知相同的對象。滿足這個假設需要一個多攝像頭陣列（如谷歌Jump）；或者需要場景保持靜止，並且只有單個攝像頭移動。因此，大多數現有方法要麼是過濾掉移動對象（將它們指定為「零」深度值），要麼忽略它們（導致不正確的深度值）。

在《Learning the Depths of Moving People by Watching Frozen People》這篇論文中，谷歌的研究團隊應用了基於深度學習的解決方案。所述方法可以根據攝像頭和對象都能自由移動的普通視頻生成深度圖，並且通過關於人體姿勢與形狀的機器學習來避免直接的3D三角測量。儘管業界近來已經開始利用機器學習進行深度預測，但谷歌表示，他們的研究是首個為攝像頭和對象自由移動的情況而開發的深度學習方案。對於這項研究，谷歌主要專註於人類，因為它們適用於增強現實和3D視頻效果。

1. 獲取訓練數據

谷歌採用了監督式深度預測模型訓練方案，這需要通過移動攝像頭來捕獲自然場景視頻，以及精確的深度圖。關鍵的問題是，從哪裡獲取這類數據。合成數據需要對各種場景和自然人類行為進行逼真的建模和渲染，這非常具有挑戰性。另外，基於這種數據進行訓練的模型可能難以推廣到真實場景。另一種潛在的方法是利用RGBD感測器（如微軟Kinect）來記錄真實場景，但深度感測器通常僅限於室內環境，而且它們存在自己的三維重建挑戰。

谷歌選擇了利用現有的數據源：YouTube視頻。YouTube存在大量的假人挑戰：每個人擺出特定的造型，然後不眨眼、不出聲、一動不動，就像玻璃櫥窗里的假人模特。因為整個場景都是靜止（只有攝像頭在移動，所以基於三角測量的方法行之有效，而我們可以獲取包含真人在內的整個場景的精確深度圖。我們採集了大約2000的視頻，它們涵蓋了各種逼真的場景，而且人們自然地以不同的群體配置擺造型。

2. 推斷移動對象的深度

假人挑戰視頻為移動攝像頭和「假人」提供了深度監督，但我們的目標是處理包含移動攝像頭和移動對象的視頻。為了跨越這一障礙，我們需要構建網路輸入。

一種可能的方法是，分別為視頻的每個幀推斷深度（即，對模型的輸入僅是單個幀）。儘管這種模型已經優化了用於深度預測的單圖像方法，但我們可以通過考慮來自多個幀的信息來進一步改善結果。比方說運動視差，即兩個不同視點之間的靜態對象的相對明顯運動，這可以提供強烈的深度線索。為了利用這些信息，谷歌計算視頻中每個輸入幀和另一幀之間的2D光流，後者表示兩幀之間的像素位移。所述流場取決於場景的深度和攝像頭的相對位置。但由於攝像頭位置已知，谷歌可以從流場中移除它們的依賴關係，這能夠產生初始深度圖。所述的初始深度僅對靜態場景區域有效。為了在測試時處理移動的人類對象，谷歌應用人工分割網路來掩模初始深度圖中的人類區域。然後，所述網路的完整輸入包括RGB圖像，人類掩模，以及來自視差的掩模深度映射。