當前位置:
首頁 > 知識 > 中科大&微軟提出立體神經風格遷移模型,可用於3D視頻風格化

中科大&微軟提出立體神經風格遷移模型,可用於3D視頻風格化

近年來,在自然圖像上再現名畫風格的風格轉換技術成為內容創作的熱門話題。例如,最近的電影「至愛梵高」是第一部完全由訓練有素的藝術家製作的動畫電影。然而,目前還沒有將風格轉換應用於立體圖像或視頻的技術。現有的風格遷移方法會使左右視圖不一致的風格化紋理,研究者通過解決該問題,突破了立體風格遷移的一大瓶頸。

立體 3D 正在成為一種大眾消費媒體,例如 3D 電影、電視以及遊戲。現在,隨著頭戴式 3D 顯示器(例如 AR/VR 眼鏡)和雙鏡頭智能手機的發展,立體 3D 越來越受關注,並激發了許多有趣的研究工作,例如立體修復 [36,27]、視頻穩定 [15],以及全景 [39]。在這些研究中,創建立體 3D 內容總是令人感興趣的。

近年來,在自然圖像上再現名畫風格的風格轉換技術成為內容創作的一個熱門話題。例如,最近的電影「至愛梵高」是第一部完全由訓練有素的藝術家製作的動畫電影。受卷積神經網路 ( CNN ) 能力的啟發,Gatys 等人的開創性工作 [ 13 ] 提出了一種將指定作品的風格自動轉換為任何圖像的通用解決方案。[ 21,19,34,12,11 ] 提出了許多後續工作,以改進或擴展該項目。這些技術還被應用於許多成功的工業應用 (例如,Prisma [ 1],Ostagram [2] 和 Microsoft Pix [3])。

然而,據作者介紹,目前還沒有將風格轉換應用於立體圖像或視頻的技術。在這篇論文中,作者通過首次提出立體神經風格轉換演算法來應對這種新興 3D 內容的需求。他們首先獨立地仔細檢驗了現有的風格轉換方法在左視圖和右視圖上的簡單應用。

他們發現往往這些方法很難在兩個視圖上產生幾何一致的風格化紋理。結果就是,它會引起有問題的深度感知,並且造成觀看者的 3D 疲勞(如圖 1 所示)。因此我們需要生成和和兩個視圖一致的風格化紋理。此外,還需要一個快速的解決方案,尤其是在實際的實時 3D 顯示中(例如 AR/VR 眼鏡)。最後但不是最不重要的一點,作為進一步擴展的立體視頻中的風格轉換應當同時滿足時間的連貫性。

本文提出了第一個用於快速立體風格轉換的前饋網路。除了廣泛使用的風格損失函數 [13,19] 之外,作者還引入了一個附加的視差一致性損失,用它來懲罰風格化結果在非遮擋區域的偏差。具體而言,在給定雙向視差和遮擋掩膜的情況下,可以建立左視圖和右視圖之間的對應關係,並且懲罰了兩個視圖中都可見的重疊區域的風格不一致。

作者首先在基於優化的解決方案 [13] 中驗證了這個新的損失項。如圖 1 所示,通過在優化過程中聯合考慮風格化和視差一致性,該方法可以為兩個視圖生成更加一致的風格化結果。然後作者進一步將這種新的視差損失結合在了為立體風格化所設計的前饋深度網路中。

圖 1. 圖(a)給出立體圖像對和一副風格圖像,立體圖像的左右視圖都被進行了風格化(第一行),左視圖的風格化結果(b)和右視圖的風格化結果(c)會在空間對應區域(d)不一致。這會導致不期望的垂直差異和不正確的水平差異,進而在立體圖像(e)中造成 3D 疲勞。相對而言,通過引入新的視差一致性約束,本文的方法(第二行)可以為兩個視圖生成一致的風格化結果。

本文提出的網路由兩個子網路組成。一個是風格化子網路 StyleNet,它使用了和 [19] 中一樣的架構。另一個是視差子網路 DispOccNet,它可以估計出輸入立體圖像對的雙向視差圖和遮擋掩膜。這兩個子網路被集成在特徵級別的中間域中。它們首先分別接受各自任務的獨立訓練,然後作為一個整體接受聯合訓練。

該新視差子網路具有兩個優點:

1 ) 與使用緩慢全局優化技術的一些最先進的立體匹配演算法 [ 33,22 ] 相比,它能夠實現實時處理;

2 ) 它是第一個同時估計雙向視差和遮擋掩模的端到端網路,而其它方法 [ 26,38 ] 在每個前向過程中僅估計單個雙向視差圖,並且需要後處理步驟來獲得遮擋掩模。文章的 5.2 部分展示了這種雙向設計優於單向設計的原因。

該網路還可以很容易地通過集成 [10] 中的子網路擴展到立體 3D 視頻中。這樣,最終的風格化結果不僅可以保持每個時間步的水平空間一致性,而且可以保持相鄰時間步之間的時間連貫性。這項工作可能會啟發電影創作者考慮自動地將 3D 電影或電視轉變為名畫風格。

實驗結果表明,該方法無論在數量上還是在質量上都優於這個領域中的基準結果。總體而言,本文主要貢獻由以下四部分組成:

通過將新的視差一致約束結合到原始的風格損失函數中,本文提出了第一個立體風格轉換演算法。

本文提出了第一個用於快速立體風格轉換的前饋網路,它把風格化、雙向視差和遮擋掩碼結合成了一個端到端系統。

本文提出的視差子網路是第一個可以同時估計雙向視差圖和遮擋掩碼的端到端網路。

考慮到視差一致性和時間連貫性,本文通過集成一個附加的子網路把該方法擴展到了立體視頻的風格轉換上。

本文的剩餘部分將首先總結一些相關的工作。在該方法中,研究者使用了基於基線優化的方法驗證了新提出的視差約束,然後介紹了快速立體風格轉換的前饋網路,並將其擴展到立體視頻。實驗結果表明了該方法的有效性,還展示了對該方法的一些控制變數分析。在本文最後作者作了進一步討論。

圖 2. 左視圖、右視圖的風格化比較(第一行);結合了一致性約束的風格化結果(中間行)。前一種方法(沒有結合一致性約束)往往會在遮擋掩碼邊界附近產生紋理不連續。最下行是右視圖遮擋掩碼和放大的風格化圖片。

4. 立體風格轉換網路

本文提出了一個快速立體風格轉換的前饋網路。整個網路由兩個子網路組成:一個是與現有的風格化網路 [ 10,11,12,16 ] 相似的風格化網路 StyleNet,另一個是同時估計雙向視差圖和遮擋掩碼的 DispOccNet。這兩個子網路被集成在一個特徵級中間域中,使左視圖和右視圖完全對稱。

StyleNet:作者使用了 [19] 最早提出的,並在其他工作中 [10, 11, 12, 16] 得到廣泛應用的默認風格網路結構。該架構基本上類似圖像自動編碼器,它由若干個指定步幅的卷積層 (將圖像編碼到特徵空間中)、五個殘差模塊和少數指定步幅的卷積層 (將特徵解碼為圖像) 組成。在該實現中,遵循了與 [ 10 ] 相同的設置,其中第三個殘差塊 (包括第三個殘差塊) 之前的層被視為編碼器,而剩餘層被視為解碼器。

DispOccNet:最近,Mayer 等人引入了稱為 DispNet 的端到端卷積網路,它被用於視差估計 [26]。然而,它只能預測每個前向的單向視差圖 DI ( lr )。在本文中,作者使用類似的網路結構,但在擴展部分中為每個解析度 ( 1 / 64,...1 / 2 ) 增加了三個分支。這三個分支用於回歸視差 Dr 和雙向遮擋掩碼 Ml 和 Mr。

圖 3. 快速立體風格遷移的總體網路結構。它包含兩個子網路:StyleNet 和 DispOccNet,它們被集成在特徵級別中間域 H 中。

圖 4. 立體視頻風格遷移的總體結構。左邊是時間網路的簡化工作流。右邊是用於結合上述立體網路和左邊附加的時間網路的遞歸公式。

圖 6. 與使用 [10] 中所用方法(第一行)的一個類似變體的結果對比,該變體方法存在重影和風格化不一致的問題。中間行是使用了本文的方法構成掩碼替換的結果,重影消失了,但是不一致性仍然存在。相比之下,本文的結果(最底行)沒有上述問題。

圖 7. 與真實街道視圖立體圖像對的基準進行比較。第一行中帶有紅色標記框是基準結果,底行含有對應的綠色框的是本文的結果。顯然,本文的結果具有更好的視差一致性。

論文:Stereoscopic Neural Style Transfer(立體神經風格轉換器)

論文鏈接:https://arxiv.org/abs/1802.10591

摘要:本文首次嘗試實現立體神經風格轉換,以應對 3D 電影或 AR/VR 的新需求。我們首先仔細檢驗了將現有的分別應用於立體圖像的左視圖和右視圖的單目風格轉換方法,表明在最終的風格化結果中不能很好地保持原始的視差一致性,這給觀看者造成了 3D 疲勞。為了解決這個問題,我們通過在非遮擋區域中加強雙向視差約束,向廣泛採用的風格損失函數中加入了一個新的視差損失。為了得到實用的實時性解決方案,我們提出了第一個前饋網路:它聯合訓練一個風格化子網路和一個視差子網路,並將它們集成在一個特徵級的中間域中。我們的視差子網路也是用於同時估計雙向視差和遮擋掩碼的首個端到端網路。最後,綜合考慮時間連貫性和視差一致性,我們將該網路有效地擴展到立體視頻上。實驗結果表明,該方法無論在數量上還是質量上都明顯優於基準演算法。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

一逛商場,安踏、馬可西尼的櫃檯竟然都有人工智慧?
亞馬遜帝國的人工智慧革命史

TAG:機器之心 |