「表情移植神器」上線，我家愛豆的面癱演技是不是有救了！

探索 08-31

作為一個有底線的顏控，追劇總是很煩惱：那些好看的小鮮肉小鮮花，演技大多不咋樣。有些粉絲甚至會想：可不可以把戲骨的演技嫁接到全程「癱瘓」的愛豆身上？這聽上去太難了吧。

不過最近，發明GPU的公司核彈廠英偉達（NVIDIA）發布了兩項重磅技術，讓這個有望實現了。一個技術是上個星期發表的與MIT聯合研究的「視頻-視頻合成」技術（video-to-video synthesis，下文簡稱vid2vid）。

圖 | 參考資料1

另一個是禮拜一德國發布會上黃仁勛（Jensen Huang）重磅推出的新一代「圖靈框架」卡皇 RTX，實現了實時光線追蹤（Real-time ray tracking）技術。

圖 | 官方發布會截圖

被黑科技閃瞎雙眼的吃瓜群眾們瞬間腦洞大開：這兩個堪稱「表情移植神器」和「實時渲染怪力聖器」的傢伙，是不是可以讓影視特效技術大飛躍、能讓流量明星從此年產無數部高質量摳圖劇呢？

現有的摳圖 | 《孤芳不自賞》

vid2vid：由視頻合成視頻

別走，這段強行科普後面有新垣結衣！

NVIDIA與MIT的聯合研究團隊發表的這篇文章名為《視頻-視頻合成》（Video-to-Video Synthesis），顧名思義，就是從一個原始輸入視頻，經過合成處理，輸出一個新的視頻。

輸入的內容主要有兩個：一個是主體視頻，叫做「語義圖」（semantic maps），我們可以把它看作是視頻動作的「骨架」；另一個是「現有圖像」（past images），我們可以把它看作是視頻內容的「皮肉」。

圖 | 參考資料1

語義圖和現有圖像作為原材料，喂進了一個叫做「順序生成器」（sequential generator）的模型當中，輸出兩樣東西：「中間幀」（intermediate frame）和「流譜」（flow map ）。「流譜」被用來使「現有圖像」產生變化，變化後的圖像與「中間幀」結合生成「輸出圖像」（也可以叫做「輸出幀」，畢竟，常識告訴我們，視頻是一幀一幀的畫面連接起來的）。這個「輸出圖像」，被迭代進模型，作為下一次運算輸入的「現有圖像」。

此外，還有兩個「鑒別器」——「圖像鑒別器」（image discriminator）和「視頻鑒別器」（video discriminator）。它們被用來評估每一幀畫面中的各個特點，以及時間上的連續，來確保輸出視頻的清晰度、逼真程度、以及時間一致性。

圖 | 參考資料1

嗯，我猜大家並不想看這樣

這樣

以及這樣的模型

那我們來看視頻。

圖 | 參考資料1

在研究團隊放出的視頻中，作為「原材料」被輸入的視頻，也就是我們說的「骨架」，都是一些抽象的、表示動作的「語義圖」。

比如這個

圖 | 參考資料1

這段是從開放城市數據平台Cityscape上下載的街景視頻，通過一系列演算法處理成格式統一的「語義圖」視頻流。我國城市也有類似的信息，比如Apolloscape這個城市街景數據平台，目前就有73個關於北京的街景視頻，在這個項目中被用作訓練數據和檢驗數據。有興趣的小夥伴可以點進去玩兒（複製右邊的鏈接去瀏覽器打開http://apolloscape.auto）。

還比如這個

圖 | 參考資料1

研究團隊從FaceForensics這個有大量記者視頻的資料庫中搜集原始材料，通過一系列演算法，提取出「顱面特徵點」，進而生成「表情速寫視頻」。

動作信息，也是一樣的，只不過換了幾種演算法。

圖 | 參考資料1

研究團隊在視頻講解中說，這樣「把一個人的舞蹈動作轉移給了另一個人」（transform dancing motion from one person to another person）。研究團隊給的demo，不知大家有沒有認出來是新垣結衣在《逃避雖可恥但有用》里的那一段！

圖 |《逃避雖可恥但有用》

有了黑科技，手腳不協調的人也可以跳跟新垣結衣一樣的舞！

RTX：加速圖形運算

NVIDIA老闆黃仁勛手上拿的企圖亮瞎所有觀眾的這款「神器煤氣灶」RTX，號稱世界上第一款光線追蹤GPU，據說最大的特點是能到到「10 giga rays/sec ray tracing」,意思就是說每秒100億的光線追蹤。

煤氣灶兄弟| 左：NVIDIA官網；右：fang.com

數字聽上去很厲害，愣是mega,giga的數了好半天的零……

國際單位制前綴表| 百度百科

要理解這個數字在描述什麼，我們首先來了（ke）解（pu）一下我們經常聽到、但是未必清楚的「渲染技術」到底是什麼。

敲黑板，閱讀以下內容有利於向小夥伴們賣弄知識，簡稱裝B……以及後面有更多愛豆圖片！

「渲染」用通俗直觀的人類語言來說，就是把計算機里的三維模型（圖中左邊）經過模擬或抽象真實世界的物理過程來計算並呈現最終的視覺結果的過程，結果可以非常還原現實場景，也可以具有特殊的藝術風格。

如果作者被以上解釋打臉了（因為好像並不通俗直觀），那就看下面的圖。左邊為計算機中的三維模型，右圖為經過渲染處理後呈現的視覺效果，科幻電影都這麼做的，後期技術我們先不做討論。

圖 | techterms.com

用來實現渲染過程的計算機軟體也叫做渲染器。早一些年代在電腦硬體技術還沒有那麼發達的時候，計算一張渲染圖是非常耗時費力的，幾乎要花費十幾個甚至幾十個小時，電影則是由每秒24幀的靜幀渲染圖來實現，可想而知是多麼龐大的計算工程。

渲染是一個模擬過程，其對質量與效率的追求是一對矛盾：追求好的質量往往成倍增加花費的時間。因此，根據渲染的應用情況的不同，衍生出了很多不同的渲染技術，大體分為兩類：靜幀渲染和實時渲染。

靜幀渲染追求畫面質量的極致，例如各類好萊塢大片中的場景畫面，概念產品的概念圖，建築設計的效果圖；而實時渲染追求效率最大化，例如3D電腦遊戲。隨著硬體技術和GPU技術的提升以及渲染演算法的進步，效果與效率的矛盾一定程度上被緩解。實時渲染也越來越接近靜幀渲染的視覺效果，由於效率高，也越來越多地被應用到原先靜幀渲染的領域，例如電影行業。