三星3D版「AI上色」演算法：神經網路實時渲染真實視頻

新聞 07-26

選自 arXiv

作者：Kara-Ali Aliev、Dmitry Ulyanov、Victor Lempitsky

機器之心編譯

近日，三星的三維研究人員開發出了一種「實時真實圖片神經渲染器」的模型。這一模型可以渲染新穎視角的複雜場景圖像。而使用的數據是原始的點雲，將其作為幾何代理特徵，而且不需要網格化。

渲染圖像的流程如下：首先使用普通的攝像機掃描目標，使用普通的軟體（如 Agisoft Metashape）生成 3D 點雲，將點雲和視頻輸入神經網路，這樣就可以渲染目標圖片了。在推斷過程中只需要點雲和學習到的描述器。

演算法的核心是一個 8 維的描述器（descriptor），從雲中的每個點上進行學習，而不是常見的 3 維 RGB 色彩。神經網路渲染器解釋這個描述器，並輸出 RGB 圖像。研究人員在 Scannet 數據集上訓練了這個網路，提升模型的泛化能力。

渲染的效果如下：

論文鏈接：https://arxiv.org/abs/1906.08240
項目地址：https://dmitryulyanov.github.io/neural_point_based_graphics
效果視頻源：https://youtu.be/7s3BYGok7wU

主要思想

有了一些 RGB 圖像後，研究人員首先重建了一幅粗糙的點雲圖像。他們使用的是經典的「從運動中建立結構」（SfM）和「多視角立體」（MVS）演算法。

對於點雲中的每一個點，我們將其和一個小的 N-維描述器（類似於 3 維的顏色描述器）聯繫起來。然後，研究人員將描述器映射到虛擬相機中，使用 SfM 進行預估（這和帶顏色的點雲映射到相機類似），並將這些映射輸入到 ConvNet 中。ConvNet 可以學習到相關的特徵，並根據視角渲染對應的場景。在學習過程中，ConvNet 和描述器一起學習，用於減少渲染圖像和實際圖像之間的差異。

訓練過程中，研究人員將從多場景中學習 ConvNet，並泛化到其它場景中。在測試過程中，對於未見的 RGB(D) 圖像，他們重複訓練流程，但是會固定 ConvNet 的權重，只優化點雲描述器。有了描述器和訓練好的網路，模型就可以從各種各樣的視角渲染新場景。

三星3D版「AI上色」演算法：神經網路實時渲染真實視頻

圖 1：給定從 RGBD 圖像中生成的點雲（頂部），這一演算法可以為每個點學習神經描述器（偽色處理後的 3D 點雲圖像，在中間一行），而神經渲染網路可以將柵格化的點描述器映射成真實圖像（底部）。

方法

如下是系統的簡要細節。首先我們需要理解如何在給定點雲的情況下通過神經描述器和學習到的渲染網路渲染新的視圖。之後，我們還需要理解學習過程，以及學習系統對新場景的適應性。

三星3D版「AI上色」演算法：神經網路實時渲染真實視頻

圖 2：系統總體結構的概念，它會給 3D 點雲「上色」，並通過神經網路生成渲染結果。

具體而言，如上所示模型會在給定點雲 P、神經描述器 D 和相機參數 C 的情況下估計方向的視角。然後將神經描述器級聯視角方向而作為偽色，從而用 z-buffer 光柵化這些點。這種光柵化的點雲隨後可以通過渲染網路而獲得輸出結果。通過反向傳播優化渲染網路的參數與神經描述器，研究者的新模型能適應於新場景。

實驗細節

研究者的模型基於流行的 U-Net 架構，它帶有 4 個降採樣和升採樣的模塊。研究者發現門控卷積提升了模型在稀疏輸入數據上的性能，所以模型中用門控卷積代替了一般的卷積運算。

因為研究者使用 U-Net 作為渲染網路，並學習到了豐富的點雲特徵，因此他們能使用更少參數量的輕量級網路。因此最終模型卷積層的通道數只是原始架構的 1/4，只包含 1.96M 的參數量。這樣的輕量級網路允許我們實時渲染圖像，具體而言在 GeForce RTX 2080 Ti 上渲染 1296x968 的圖像只需要 50ms。

三星3D版「AI上色」演算法：神經網路實時渲染真實視頻

圖 3：「Studio」數據集上的對比結果。研究者展示了紋理網格、有色點雲、三種神經渲染系統（包括研究者）的結果以及 ground truth 圖像。論文提出的基於點雲神經描述器的系統可以成功地重現網格劃分中較為困難的細節，並且與 Direct RenderNet 系統相比模糊度更小。

三星3D版「AI上色」演算法：神經網路實時渲染真實視頻

圖 4：「LivingRoom」數據集上的對比結果，細節展示格式與圖 3 相同。

三星3D版「AI上色」演算法：神經網路實時渲染真實視頻

表 1：感知損失（越低越好）、PSNR（峰值信噪比，越高越好）和 SSIM（自相似性度量，越高越好）的對比結果。標註有「?」的方法已經在 hold-out 場景數據集上進行了預訓練。在大多數情況下，該方法變體的效果優於基準方法。

三星3D版「AI上色」演算法：神經網路實時渲染真實視頻

圖 5：「Plant」數據集上的對比結果，細節展示格式與圖 3 相同。

三星3D版「AI上色」演算法：神經網路實時渲染真實視頻

圖 6：「Shoe」數據集上的對比結果，細節展示格式與圖 3 相同。與其他三個場景數據集不同，該場景的幾何結構更適合網格表徵，並且基於網格的渲染表現相對更好。論文提出方法的效果也優於 Direct RenderNet 基準方法。

對比結果

不同方法對比的定量結果參見表 1。所有的對比都是在驗證集上進行，其中研究者將產生的圖像與 ground truth RGB 圖像進行了對比。他們展示了不同方法在這些子集上的損失值（注意這種比較是有效的，因為大多數方法都在訓練集上對同一損失進行優化）。

研究者還展示了峰值信噪比（PSNR）和自相似性度量（SSIM）。他們還在圖 3 至圖 6（顯示點雲）的驗證集框中展示了不同方法的定性對比結果。

總的來說，定量和定性對比結果都顯示出了使用點雲作為幾何代理的優勢。所以，網格+紋理和網格+RenderNet 的效果不如所有使用點雲的方法。但是 Shoe 場景是一個例外，該場景下的網格生成效果非常好。

但在其他所有場景下，有部分場景的網格生成（BundleFusion 或 Metashape）失敗了，導致渲染出現重大錯誤。定性結果揭示了尤其會在體積較小物體上出現的此類網格生成失敗情況（如圖 3 中的自行車細節或圖 5 中的植物葉子）。

研究者還觀察到，基於點雲神經描述器的系統要比通常的 RenderNet 等直接渲染的方法更好。這些直接渲染的方法可能並沒有描述器。一般而言，對比直接的基線方法（顯得模糊且會丟失細節），這種相機位置的單幀質量要好得多。當然，單幀質量的提升是以增加時間閃爍為代價的。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※DeepMind遊戲AI登上Science：雷神之錘多智能體合作，超越人類玩家
※Python 3.8 即將到來，這是你需要關注的幾大新特性

TAG:機器之心 |