當前位置:
首頁 > 科技 > Facebook的AI變焦渲染系統DeepFocus到底是什麼

Facebook的AI變焦渲染系統DeepFocus到底是什麼

文丨Roger

今年5月底,FacebookReality Labs推出了Half Dome原型機。這是業界首款集成了眼動追蹤相機、寬視場光學系統和可獨立變焦顯示器的VR頭顯,展示了VR體驗發展方向。

Half Dome的變焦設計可以根據用戶眼球的運動來顯示相應的畫面,使每個虛擬物體都能清晰聚焦。這種更加先進的顯示方法可以在VR中創造更舒適、自然和富有沉浸感的真實畫面。但要充分發揮其潛力,Half Dome不僅需要更高級的硬體,同樣需要具有創新性的軟體。

於是DeepFocus應運而生。這是一種新的人工智慧渲染系統,可與Half Dome配合使用,模仿我們在日常生活中觀察世界的方式,創建逼真的散焦效果。DeepFocus是第一個能夠產生這種效果的系統,它以一種實時的、逼真的且依賴於凝視方式來對VR頭顯佩戴者沒有聚焦的場景部分進行模糊。

本月在東京舉辦的SIGGRAPH Asia大會上Facebook Reality Labs展示了該研究論文,目前DeepFocus正在進行開源,開源內容包括系統代碼和我們用來訓練它的數據集,以幫助更廣泛的VR研究人員將模糊畫面的效果融入他們的工作中。

下面的動圖演示了一款使用了DeepFocus技術的Half Dome原型,該頭顯與Oculus Rift擁有相同的視場角。紅色游標表示佩戴者的注視位置。


模糊渲染對於極其逼真的VR至關重要

DeepFocus由Facebook Reality Labs的多學科研究團隊開發,與電影美學或引人注目的視覺效果無關。實際上,模糊渲染越精確,觀察者就越不可能注意到它。「我們的最終目標是提供與現實無法區分的視覺體驗」,Facebook Reality Labs的視覺科學家Marina Zannoli表示,他很早就加入了DeepFocus項目。

真正逼真的體驗的關鍵是聚焦(Focused)和散焦(Defocused)視覺效果的組合。「我們的眼睛就像微小的相機:當它們聚焦在一個特定的物體上時,視野中處於其他景深的部分場景看起來很模糊。那些模糊的區域有助於我們的視覺系統理解世界的三維結構,並幫助我們決定下一步關注的焦點。

雖然可變焦VR頭顯可以在觀看者看向場景中任何地方時提供清晰的圖像,DeepFocus允許我們以現實世界中的外觀呈現場景的其餘部分:自然模糊。「

此動圖演示了DeepFocus系統如何呈現模糊,頭顯佩戴者的焦點(由紅色游標表示)在場景中的不同元素之間移動。

逼真的視網膜模糊的最大潛在好處之一是更舒適的VR體驗。Facebook Reality Labs顯示系統研究總監Douglas Lanman說:「這種技術可以實現全天沉浸。無論你是玩電子遊戲幾個小時還是看一個無聊的電子表格到眼睛和視覺疲勞,又或者只是花一天的時間來陪伴著一幅美景,DeepFocus對所有這一切都很重要。」

在2015年Half Dome項目的早期階段,Lanman已經認識到了模糊渲染的必要性。那時他剛加入該項目幾個月,早期的Half Dome原型展示了在VR中創造清晰焦點的希望。然而,基於軟體的散焦被證明是實現這一希望的主要障礙之一。

Facebook Reality Labs想要實現的方法無法利用用於渲染非VR遊戲中的實時模糊的現有技術,這些非VR遊戲更多地需要產生引人注目的電影效果(如漂亮的散焦背景)而不是真實感。這些快速但不準確的創造遊戲里的背景模糊的方法與Half Dome的目標背道而馳,Half Dome想要重現光線傳播時落在人類視網膜上的方式。

經過幾個月對傳統技術的探索,Facebook Reality Labs優化了計算機處理後的顯示畫面,但這一處理過程仍然不夠快,無法實時生成能準確匹配物理現實的模糊效果。

這些早期的努力暴露了在VR中渲染真實且逼真的模糊所遇到的雙重挑戰——要實現這樣的效果需要將令人難以置信的高渲染速度與先進的VR頭顯所需的圖像質量水平相結合。

模糊渲染不是在場景開發時或觀看者第一次進入某一場景時應用於場景的一次性過程。依賴於人眼凝視目標的模糊渲染要求設備必須提供快速且近乎即時的散焦處理,以匹配每隻眼睛的運動,這種擬真程度的模糊渲染不能簡單的通過拉低頭顯佩戴者焦點以外物體的解析度來實現。

Lanman意識到在這個問題上投入更多的計算機處理能力是不可行的。2016年的Half Dome在演示中通過被稱為「累積緩衝區渲染(Accumulation Buffer Rendering)」的過程實現了實時模糊,每隻眼睛對應的每一個場景都被渲染了32次。但使用這種方法只是因為整個場景很簡單,它不可能應用於更廣泛的VR體驗,而Lanman專註於為整個VR社區提供軟體解決方案。

「我想要的是可以立即用於每一個遊戲的東西,這樣我們就不必要求開發人員改動他們的作品,只需要打開箱子使用 Half Dome即可」,Lanman說。


將深度學習帶入VR應用中

Lanman決定開發由AI驅動的軟體,而不是等待未來的處理器滿足我們的需求或要求客戶為更多的總處理能力支付更多的資金。具體而言,他希望探索深度學習的使用,這是一種通過使用大量相關數據進行訓練來學習執行特定任務的方法的AI系統。

深度學習演算法通常用於分析甚至是生成圖像。晶元製造商一直在朝這個方向發展,它們為其最新的顯卡添加了與AI兼容的學習核心來提高圖像質量的上限,但度學習在VR相關係統中的應用卻相當少見。

「我們決定利用那些推動行業趨勢的人工智慧工具」,Lanman說,「不僅僅是生成畫面,還要真正讓畫面比你以前看到的更真實。」

Lanman在其深度學習戰略開始時,聘請了剛剛博士畢業的人工智慧研究員Lei Xiao。Lei Xiao讀博士期間的研究包括數值優化和針對計算機攝影的機器學習。「我相信從Lei在實驗室工作的第一天,我就告訴他,『我想開發首個能像Half Dome那樣實時運行的計算顯示方案"」,Lanman說,「該解決方案必須適用於Oculus Store中的每一款體驗,且不需要開發人員重新編譯。」

Lei Xiao現在是Facebook Reality Labs的研究科學家,他的任務是拋開一系列複雜的、與焦點相關的參數,僅僅通過已經應用於ASW 2.0幀率平滑技術中的顏色與深度(RGB-D)輸入數據,來生成逼真的模糊效果,這些輸入數據大多數遊戲引擎中也有提供。

此領域先前的工作一直受到虛擬場景深度不連續處出現的偽影以及在主流VR頭顯解析度下運行時的性能不足困擾。理論上,對散焦有充分理解的AI系統可以預測相鄰像素應該如何混合在一起,無論它們的相對深度是多少或注視位置(例如VR頭顯佩戴者的視點)位於三維空間中的哪裡。

圖片中紅圈的位置在渲染過程中出現了偽影

如果這種技術可以使用簡單的RGB-D輸入就能實現逼真的模糊效果,那它對於幾乎任何VR體驗都是可行的。

上面的動圖演示了DeepFocus如何結合輸入的顏色、深度和混淆圓(Circle of Confusion)數據,快速模糊處於各種焦距的物體。CoC圖確定每個像素位置所需的散焦水平,以模擬視網膜上的模糊形狀。

為了實現這種複雜的圖像理解和直接數據輸入的組合,Lei Xiao建立了一個全新的神經網路架構,專門針對實時模糊渲染進行了優化。與傳統的基於深度學習的圖像分析AI系統不同,該系統可以在處理視覺效果的同時保持高質量VR所需的超清晰圖像解析度。

但與所有深度學習AI系統一樣,Facebook Reality Labs需要大量的訓練數據來供AI系統學習。具體來說,DeepFocus需要通過查看數千個以不同距離放置各種物體的圖像來形成對聚焦和散焦的理解。沒有現成的數據集具有DeepFocus團隊所需的各種曲面和形狀。所以Lei Xiao和Facebook Reality Labs的技術美術Matt Chapman創造了一個數據集。

Facebook Reality Labs的DeepFocus團隊(從左上角開始順時針方向):Douglas Lanman,Matthew Chapman,Lei Xiao,Salah Nouri,Alexander Fix,Marina Zannoli,Anton Sochenov,Anton Kaplanyan,Paul Linton。

Chapman從Oculus產品團隊來到Facebook Reality Labs,在那裡他製作了一些我們最知名和最優秀的演示。對於DeepFocus,Chaperman將美學放在一邊,並給Lei Xiao一個滿是虛擬對象的互動場所。Chaperman的隨機場景生成器生成了由大量對象組成的場景,包括來自盧浮宮雕塑的3D掃描以及合成球體、立方體和3D曲線。物體隨機放置在3D空間中,深度範圍從25厘米到10米不等。

由此產生的對象集合令人眼花繚亂,但這是一種可以解決隨機場景生成器視覺問題的瘋狂方法。這種不自然且豐富的幾何形狀和遮擋物具有比現實生活中更多種類的紋理、表面和其他特徵,可以作為DeepFocus深度學習系統的一個焦點分析訓練營,讓DeepFocus能夠為它未見過的VR體驗渲染模糊效果。

「這是我第一次與技術美術密切合作」,Lei Xiao說。像Matt Chapman這樣的技術美術在研究機構中很少見,但對於Facebook Reality Labs的AR和VR創新方法至關重要。

「Matt和我進行了大量的迭代來改進隨機場景生成器,從微調物體分布、紋理和材料到減少渲染真實圖像所需的時間」,Lei Xiao說。總的來說,他們使用隨機場景生成器繪製了19.6萬張圖像對系統進行訓練,使DeepFocus能夠理解如何在最多變和最不熟悉的VR環境中進行模糊渲染。

在接下來的一年中,DeepFocus團隊成長為包括視覺科學家Zannoli以及研究科學家Alexander Fix和Anton Kaplanyan的團隊,他們幫助設計了系統的深度學習方法。

Facebook Reality Labs的圖形研究團隊負責人Kaplanyan表示:「所有先前渲染高度逼真的模糊物體的方法都是基於人工數學模型,在一些極端情況和限制下會導致低質量的結果和偽影。通過深度學習,我們的系統能夠掌握複雜的效果和關係,例如前景和背景散焦,以及遮擋邊界處的正確模糊處理。通過生成豐富的實例資料庫,我們能夠覆蓋更廣泛的散焦效應,並為景深合成設立了新的標準。」

Facebook Reality Labs的軟體研發工程師Salah Nouri也參與了該項目,以幫助證明DeepFocus實際上可以在Half Dome上運行,並能夠使用當前的處理器以適合VR的解析度實時渲染模糊效果。

「當我加入團隊時,神經網路架構已經建立起來了,它的表現不錯,能夠以1080p解析度運行常規PC或主機遊戲」,Nouri說道,他在加入Facebook Reality Labs之前曾參與過3A遊戲製作。「但我們至少需要將性能提高四倍,因為VR的需求更高。」

Nouri能夠在擁有四塊GPU的電腦上演示DeepFocus和Half Dome,儘管這樣的電腦配置比消費者目前使用的主流配置要高得多,但仍然是一項重大的技術壯舉。「我們需要非常小心地在四個GPU之間進行並行工作,讓它們之間的內存傳輸形成一個流水線,這樣四個GPU之間的並行工作才不會引入任何額外的延遲或者是計算開銷」,Nouri說。

Facebook Reality Labs並沒有滿足於這項技術的軟硬體,他們的最終目標是在單個GPU上以VR頭顯目前的解析度進行實時模糊渲染。但他們在SIGGRAPH Asia大會上展示的四GPU渲染演示和研究代表了一個重要的里程碑,無論是在將人工智慧技術集成到圖形渲染的層面,還是開發新的更具沉浸感更逼真的VR體驗層面。

「我們想看看實時模糊渲染可以為VR帶來些什麼」,Lanman說,「所以它需要被用於真正的VR遊戲中。我們做到了,這解鎖了一個認知上的新宇宙。「

散焦模糊渲染技術的未來是光明的

藉助DeepFocus和Half Dome這兩樣工具,我們現在可以更好地了解真實性對於用戶在VR和AR中的體驗做出了怎樣的貢獻。雖然我們目前在Half Dome上使用DeepFocus這項技術,但DeepFocus這一基於深度學習的散焦渲染系統是與硬體無關。

Facebook Reality Labs的研究報告顯示,除了在變焦顯示器上進行實時模糊渲染外,DeepFocus還可以支持高質量的多焦點和光場顯示圖像合成。這使這一系統適用於所有將被廣泛使用的下一代頭戴式顯示器技術。

將DeepFocus的源代碼和訓練數據開源,不僅為開發新VR系統的工程師提供了框架,也為視覺科學家和長期研究感知問題的其他研究人員提供了框架。例如,我們的視覺系統如何利用環境中的模糊畫面來重新讓我們的眼睛聚焦?模糊的畫面可以告訴我們的大腦哪些關於世界三維結構的信息?

DeepFocus可能是實時模糊渲染的最後一塊拼圖,但這套系統所能提供的尖端研究才剛剛開始。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 87870虛擬現實 的精彩文章:

《潛行騎士》:用一萬種方法玩死你的敵人
最萌肥宅喜提大朋E3C+NOLO「有氧燃脂套裝」

TAG:87870虛擬現實 |