為實現單目鏡頭3D測距，谷歌AI部門竟調用「假人挑戰」視頻

新聞 05-25

人眼通過雙目視覺可實現精準的3D測距，即使在周圍的人或物不斷活動的複雜情況下，效果也足夠穩定。市面上的3D感測器也是一樣，通常需要搭載不只一顆攝像頭，但是用單目攝像頭能不能通過平面圖像實現準確度較高的3D測距呢？

為了探索這一課題，谷歌的AI科研人員利用YouTube上的大量「假人挑戰」視頻數據，訓練了一款3D建模演算法。他們在博客中表示：計算機視覺可通過計算2D圖像數據來重建3D立體場景，但很多時候效果不夠穩定，周圍環境自由移動的時候，容易混淆傳統3D重建演算法。

混淆的原因是，傳統3D重建演算法基於三角測量法，也就是說要麼就是使用多攝像頭陣列（比如谷歌Jump技術），要麼場景必須保持靜止。現有的三角測量法通常會濾掉移動的物體，將其深度值視為零或錯誤。

那谷歌AI科研人員用「假人挑戰」視頻來訓練深度學習演算法又是為什麼呢？原來是因為，這個挑戰需要多人參與，每個人都要模仿假人一動不動，然後由攝影師拍下全過程，這個挑戰曾經非常火爆，以至於在YouTube上可以搜到大量資源。

通過學習人物靜止的視頻，深度學習演算法可了解到大量的人體姿勢和形態數據，從而模擬攝像頭和人的移動，並推斷搞準確度的3D深度。

這種演算法的好處是，可以讓你通過單目攝像頭捕捉到效果足夠好的深度信息，可應用在3D視頻、AR、容積攝影等場景。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 青亭網 的精彩文章: