Deepano專家詳解360°視頻深度信息及6自由度VR
術,具象或者實際的釋義是技藝,比如技術、藝術、學術,或者武術。抽象和哲學地說就是方法論,戰術、權術。古人用以指代城市中的道路。用今天的話說,數術即演算法,古人很科技。在所有講究「術」的行業,越大眾越反科學。創建【術說】欄目,就是想邀請一線的工程師、開發人員、技術精英,從技術思維出發,用科學邏輯去分析科技趨勢、行業現象,論述觀點、點評產品。跟大家一起來聊聊VR/AR,人工智慧——這些原本就建立在極高技術基礎上的「西部世界」。
上個月末,Facebook在開發者大會上曝光了Surround 360系列的升級版相機x24和x6,可以通過演算法和雲端處理生成360°視頻的深度信息,實現6自由度的3D 360°視頻。無獨有偶,一直致力於光場技術的Lytro公司也在同期曝光光場相機Immerge升級版的Demo信息。一時間,深度信息和6自由度(6DOF)成為VR影像領域的熱點話題。IN2近日採訪到Deepano(狄拍科技)的創始人李翔和CTO徐抗,請兩位專家詳解關於360°視頻深度信息和6自由度視頻等技術問題,以及相關技術在VR視頻領域的應用。
術說人:徐抗 Deepano CTO
徐抗,Deepano(狄拍科技)公司CTO,曾就職於聯想、日本施樂等大公司,多視幾何專家,上海交大碩士,海外留學,6年+計算機視覺研究經驗,擁有多篇專利。
關於360°視頻深度信息的基礎知識
問題:什麼是深度信息?360°視頻中的深度信息指的是什麼?
徐抗:深度信息是指視頻/照片中每個像素在具有色彩信息以外,還帶有一個深度信息,即我們通常所說的RGBD,表示的是該像素距離相機成像平面的距離。
而360度視頻的深度信息則是周圍360度空間中的所有像素點,都帶有距離信息,即提供了豐富的360度場景結構信息。
問題:深度信息產生/生成的方式有哪些
徐抗:深度信息的捕獲主要分為主動和被動兩種,主動方式包括激光雷達和結構光(Kinect一代)和ToF(Kinect One)等。HypeVR前段時間展示的六自由度視頻則是採用激光雷達的方式獲取場景深度,據其介紹數據量達到了3GB每幀。
被動方式則主要通過計算機視覺的方式(Multi View Stereo, MVS),利用多張照片來計算出場景深度,Lytro的Immerge,Facebook的x24,Google的Jump都屬於這種方式。
問題:準確的深度信息捕捉/生成的技術難點在哪裡
徐抗:不同的技術方案都存在各自的局限性,目前並沒有一種各方面都明顯優於其他方案的深度獲取方式。
主動式深度獲取設備根據其類型不同,存在成本高(LiDAR),室外不工作(紅外結構光),多徑干擾(ToF),多個設備之間互相干擾的問題。
被動式獲取方式,這裡主要討論基於三角測量的多視立體匹配(Multi View Stereo,MVS)。MVS作為一個古老的計算機視覺領域,已經有了幾十年的研究歷史,這也是Facebook x24,Google Jump和Deepano所採用的深度獲取方式。其技術難點主要包括計算量大、優秀的MVS演算法很難實時處理、魯棒性受環境影響大、暗光環境下不工作等。其中,魯棒性是制約MVS演算法的一大因素,也是近年來各界一直在努力提升的方面。
場景中的低紋理區域(一整面白牆),重複性紋理區域(比如一整面馬賽克的牆),透明物體(玻璃),高反光物體(鏡子)、前後景之間的遮擋(occlusion/disocclusion)等都對MVS演算法的魯棒性提出了挑戰,另外,相機陣列之間的空間位置關係標定、不同相機之間的ISP(曝光,白平衡)一致性、鏡頭畸變校正、廣角/魚眼鏡頭的漸暈現象校正、相機幀同步等也都對MVS演算法有著重要影響。
Facebook、Lytro和Adobe等公司的解決方案
問題:Facebook的x24和Lytro公司的Immerge相機的深度信息產生的不同?
徐抗:Facebook並沒有對其相機x24的深度獲取方式進行過多的闡述,其表示在一定時間內甚至不會對外出售,而是通過授權的方式與其他商業夥伴進行合作。不過,由於在x24上並沒有看見任何主動式深度獲取設備,以及考慮到Facebook之前開源的Surround 360項目,很大概率上x24還是採用了前文提到的MVS方式,即通過特定演算法直接從每個鏡頭拍攝的視頻中計算像素深度,這也是Deepano目前所採用的深度獲取方式。
Lytro的Immerge是一款光場相機,通過多個微透鏡陣列加上特定演算法計算場景深度。
問題: Adobe曝光了視頻,用移動的360°視頻畫面計算出深度信息,轉換成6自由度 360°視頻,對此Deepano怎麼看?
徐抗:我們看到視頻後立即對Adobe發表的論文進行了研究。
Adobe以2D移動的全景視頻作為輸入,通過離線運算生成新的六自由度視頻。在Demo視頻中我們可以看到畫面可以對用戶的頭部移動產生響應,即我們所說的「6自由度全景視頻」。
Adobe提出的演算法大大降低了六自由度視頻的製作門檻,其中,其提出的實時新視點生成演算法是其工作中的亮點。一旦演算法發展成熟,可以將目前大量存在的2D全景視頻轉換成六自由度的VR視頻,是非常有意義的一件事情,
不過,Adobe的做法還存在一定的局限。
Adobe採用的 「運動推斷結構」(Structure from Motion, SfM)演算法要求相機一定要運動,且這種運動越大越好,才能產生足夠的視差來提供深度信息,而我們知道在VR裡面運動與眩暈有比較大的相關性,劇烈的相機運動通常是不被建議的。
2. 由於採用幀間匹配計算場景深度,該演算法要求場景中不能有太多劇烈運動的物體(較少的運動物體可以有一定的trick解決)。
3. 在播放時,Adobe利用每一幀的相機姿態、場景深度及當前用戶頭部的位置,將當前幀重新投影(Warp)到用戶所在部分,得到六自由度的虛擬視點。由於warp演算法是直接採用當前幀進行,用戶從物體正面移動到側面時,看到的僅僅是正面圖像的扭曲/拉伸到側面,而不是像Lytro等公司發布的六自由度視頻一樣可以真正看到物體側面乃至背面的圖像。
問題:如果用演算法或者軟體能夠實現6自由度視頻,像Facebook、Lytro這樣的高端拍攝硬體是否還有必要存在?
徐抗:利用Adobe這種演算法的方式,首先就存在著上面提到的幾個限制情況。其次,演算法也僅僅是生成高質量VR內容工作流的一環,一個高端的VR視頻工作流,還包括優秀的相機成像質量,方便的素材管理,相機硬體同步、ISP一致性調教以及大量的後期工作。
因此,深度恢復演算法和高端拍攝硬體並不是競爭關係,而是相輔相成的依賴關係。優秀的演算法通常會針對特定的拍攝設備進行大量的fine-tune,而高端的拍攝設備也離不開背後運行的拼接演算法。
深度信息在360°視頻中的應用
問題: 360°視頻/VR視頻如果有了深度信息,能夠達到什麼樣的效果?
徐抗:深度可以有很多應用,對應於全景視頻,至少可以解決如下幾個方面,
第一:拼縫,基於深度進行拼接可以解決近距離物體穿縫的問題。
第二:用戶只能被局限在一個固定的視點旋轉頭部而無法進行移動,基於深度可以生成可自由移動的6自由度視頻。
第三:視頻防抖,視頻防抖的一種做法是利用跟蹤攝像機路徑後進行路徑平滑,平滑過程中需要生成新的視點,基於深度可以更自然地做到新視點的生成。
第四,提升後期特效的工作效率,基於深度可以方便地區分前景/背景,以及添加光源、虛化等特效。
針對第一個問題,首先跟大家講一個生活中很常見的現象,當我們坐車望向窗外時,遠處的大樓緩慢的向後方移動,近處的樹木飛馳而過,而天上的太陽則永遠懸掛在固定的位置。這是一個蠻文藝的畫面,但在這裡我想說的則是360度視頻中存在的一個問題:視差。
運動就會產生視差,前面提到的現象,就是人眼的運動導致的視差投影在視網膜上形成的畫面,物體距離越近,視差越大,則在畫面中位移越大:近處的樹木移動最快,遠處的樓房移動緩慢,太陽則似乎紋絲不動。
全景相機採用多鏡頭(大於等於2)採集,再將採集到的畫面通過演算法進行拼接。由於全景相機的鏡頭光心在物理上無法做到完全重合,則相當於相機之間產生了「運動」,由於鏡頭之間存在「運動」,則會導致兩個鏡頭拍到的畫面會有微小的差異,即:近處的物體與遠處物體之間存在視差。演算法若選擇在接縫處將近處物體拼好,則遠處物體會出現「重影」,反之,近處物體則會缺失。這就是全景視頻中人穿縫的時候,人會出現「跳變」的原因了。
那麼既然知道了視差產生的原因,我們怎麼消除視差呢?人們自然而然想到了前面場景中的太陽:太陽為什麼紋絲不動呢?如果所有物體都跟太陽一樣紋絲不動,那不就很好拼接了嗎?答案前面已經提到,越近的物體在畫面中位移越大,越遠的物體位移越小,太陽對於人類來說,那自然是無窮遠了,當然就會掛在天上一動不動了。可是現實中我們拍的物體離我們很近啊,怎麼辦呢?
我們將攝像機靠到無窮近,那樹木、大樓相對於這幾個攝像機之間的「運動」來說,不就是無窮遠了嗎?這也是最早一批全景相機在設計上的一個指導原則,那就是鏡頭要靠的足夠的近。理光的Theta更是採用了稜鏡反射的方式,將鏡頭完全背靠背放在一起,通過將感光元件放在別的地方,來減少鏡頭體積,從而使鏡頭靠近。這裡就引申出了另一個概念:安全距離。
當鏡頭距離一定時,超過某個距離的物體在每個鏡頭中的成像視差小於一個像素,則該距離是安全的,鏡頭越近,則安全距離越小,出現接縫的概率越低。而我們又知道,鏡頭的大小與進光量存在直接關係,鏡頭越大,則進光量越大,成像質量越高,而專業的VR拍攝又需要非常高的成像質量(專業拍攝總是長槍短炮,咱總不能拿個Theta去好萊塢拍電影吧)。
再回到視差產生的原因,第一:運動,第二:拍攝物距離。既然專業的VR拍攝中鏡頭之間的運動無法消除,那我們能不能得到拍攝物體的距離呢?
這就是深度的作用了。深度直接表示出了每個像素到攝像機的距離,通過這些距離,我們則可以直接計算出該像素在全景視頻中的真實位置,深度準確時,同一個物體在所有攝像機中的成像都會投影到全景視頻中的同一個點:拼縫自然而然的就消除了。這就是我的第一個結論:深度可以消除全景視頻中的第一大痛點——視差導致的拼縫,從而生成一個完全無縫的全景視頻。
全景視頻的第二大痛點是,用戶被固定在一個視點無法自由移動,即只有三個旋轉自由度(roll/yaw/pitch,單純的旋轉不會產生視差,因此沒有問題),喪失了另外三個移動自由度,這也是為什麼全景視頻一直被質疑不是真正的VR視頻:不能移動怎麼能叫VR呢?
那麼,在全景視頻中為什麼不能移動呢?前面提到,運動就會產生視差,在日常生活中,當我們移動眼睛時,身邊的物體在視網膜上的成像會根據距離不同程度的移動,從而對人眼產生反饋,除了雙目視覺外,這也是人眼感受深度的一個重要方式。
傳統的全景視頻中,計算機是不知道每個像素的距離的,當人們在場景中想要移動時,下一個畫面應該是什麼樣的呢?計算機是不知道的,因此,索性就不對移動進行響應了,而將人眼固定在拍攝位置。
講到這裡,大家自然就知道了深度在全景中的另外一個重要應用,這也是近期比較火的一個話題:六自由度(DoF,Degree of Freedom)的VR視頻。一旦計算機知道場景中每個物體的深度,那計算出下一幀應當長什麼樣則是GPU尤其擅長的事情了。因此,我的第二個結論是:深度能為六自由度VR視頻提供最重要的數據,使得六自由度VR視頻成為可能。
另外,在場景三維重建,後期特效等之前通過CG建模才能完成的任務,深度都能在裡面找到用武之地。
技術先行 Deepano專註VR視頻技術
Deepano上海狄拍科技公司成立於2016年,創始人李翔曾經擔任聯想AR/VR 產品經理及核心技術負責人,是聯想樂phone核心技術負責人。團隊的核心成員力來源於聯想核心計算機視覺研發團隊,國內最早從事AR/VR核心技術研發的團隊之一,2012年以來,就一直在聯想研究院負責ARVR相關核心技術的研發工作。
由於團隊成員在圖像演算法、深度恢復、感測器、光學等多方面有很深的技術積累,同時VR視頻還有很多技術提升的空間,未來和CV有很多的結合點,並且VR視頻要比遊戲更容易普及,所以Deepano團隊選擇了VR視頻作為創業方向。
在產品方面,團隊基於自主研發的全景圖像拼接和處理演算法,搭建了一整套VR視頻直播解決方案,其拼接演算法效率要由於目前主流的Vahana VR方案。Deepano還研發了類似Google的等角立方體貼圖的像投影編碼方案,在不改變畫面總體解析度的情況下,能夠節省60%的帶寬。
Deepano正在研發基於全景圖進行深度恢復。該技術基於多視幾何演算法計算稠密深度,利用全景相機拍攝的全景圖生成場景的全景深度圖,不僅可以解決全景視頻處理的接縫,360度3D等問題,後續還可以進行空間建模,製作自由漫遊視頻等。
除了深厚的技術積累,Deepano在市場上同樣有出色表現,從成立以來,團隊已經承接了亞布力企業家峰會,第三屆烏鎮互聯網大會的VR直播活動,並與優酷、愛奇藝、微鯨等直播平台建立了深入的合作關係。另外,團隊已經合作了北京積水潭醫院、301醫院、上海復旦五院、巴德醫療等眾多醫院和機構,進行了十數場VR手術的拍攝、直播和視頻製作。
相關閱讀
【術說】三大天王影業導演王晨:VR敘事 好戲才剛剛開始
Facebook新VR相機詳解:深度信息如何產生 6DOF如何實現
詳解Facebook聯手OTOY推光場相機 6DOF VR視頻不是夢
[IN2原創資訊未經許可請勿轉載 圖片來自網路]


※一出神劇:一把解鎖沉浸敘事的秘鑰
※Nurulize獲GTC VR大獎 程序員+視效發力VR製作
※百部好萊塢大片登陸Oculus VR不夠2D電影來湊?
※十八禁的血腥和毛骨悚然 這才是我們最喜歡的VR短片
TAG:IN2虛擬現實影像 |
※發力360度VR視頻,英偉達推VRWorks 360 Video SDK v1.5
※詳細介紹Visbit 360度視頻基準測試VB2018VR
※Facebook推出360度視頻傳輸質量評估標準:SSIM360和360QVM
※Viveport商店將提供8K 360°3D視頻播放器
※MolanisVR推出360度視頻編輯工具
※小度在家 NV5001 智能視頻音箱 圖集「Soomal」
※Lumia 950安裝Windows 10 ARM視頻
※Summit Tech在MWC 2018展示VR視頻通話
※VideoLAN VLC發布3.0版HDR和360度視頻
※ASPEED發布360度視頻的球形圖像處理器Cupola360
※NTT Docomo推出8K 360視頻解決方案
※Windows 10 Build 17093版本更新上手體驗視頻
※LG G7 ThinQ獲更新:能拍4K 60fps視頻了
※提供24小時視頻諮詢,在線醫療平台 Doctor On Demand獲7400 萬美元融資
※Christie Apex 0.9 LED拼接視頻牆
※為4K視頻而生,SanDisk推出更快的400GB microSD卡
※Oculus:99% Gear VR用戶看視頻,83%使用時間流向媒體娛樂
※Facebook Messenger發布更新,支持360°全景照片及高解析度視頻
※Canonical邀請Ubuntu 18.04用戶測試反饋視頻播放性能
※Vivo X20 Plus獲得DxOMark評分90分:拍照和視頻表現一致