當前位置:
首頁 > 探索 > 「表情移植神器」上線,我家愛豆的面癱演技是不是有救了!

「表情移植神器」上線,我家愛豆的面癱演技是不是有救了!

作為一個有底線的顏控,追劇總是很煩惱:那些好看的小鮮肉小鮮花,演技大多不咋樣。有些粉絲甚至會想:可不可以把戲骨的演技嫁接到全程「癱瘓」的愛豆身上?這聽上去太難了吧。

不過最近,發明GPU的公司核彈廠英偉達(NVIDIA)發布了兩項重磅技術,讓這個有望實現了。一個技術是上個星期發表的與MIT聯合研究的「視頻-視頻合成」技術(video-to-video synthesis,下文簡稱vid2vid)。

圖 | 參考資料1

另一個是禮拜一德國發布會上黃仁勛(Jensen Huang)重磅推出的新一代「圖靈框架」卡皇 RTX,實現了實時光線追蹤(Real-time ray tracking)技術。

圖 | 官方發布會截圖

被黑科技閃瞎雙眼的吃瓜群眾們瞬間腦洞大開:這兩個堪稱「表情移植神器」和「實時渲染怪力聖器」的傢伙,是不是可以讓影視特效技術大飛躍、能讓流量明星從此年產無數部高質量摳圖劇呢?

現有的摳圖 | 《孤芳不自賞》

vid2vid:由視頻合成視頻

/*

別走,這段強行科普後面有新垣結衣!

*/

NVIDIA與MIT的聯合研究團隊發表的這篇文章名為《視頻-視頻合成》(Video-to-Video Synthesis),顧名思義,就是從一個原始輸入視頻,經過合成處理,輸出一個新的視頻

輸入的內容主要有兩個:一個是主體視頻,叫做「語義圖」(semantic maps),我們可以把它看作是視頻動作的「骨架」;另一個是「現有圖像」(past images),我們可以把它看作是視頻內容的「皮肉」。

圖 | 參考資料1

語義圖和現有圖像作為原材料,喂進了一個叫做「順序生成器」(sequential generator)的模型當中,輸出兩樣東西:「中間幀」(intermediate frame)和 「流譜」(flow map )。「流譜」被用來使「現有圖像」產生變化,變化後的圖像與「中間幀」結合生成「輸出圖像」(也可以叫做「輸出幀」,畢竟,常識告訴我們,視頻是一幀一幀的畫面連接起來的)。這個「輸出圖像」,被迭代進模型,作為下一次運算輸入的「現有圖像」。

此外,還有兩個「鑒別器」——「圖像鑒別器」(image discriminator)和「視頻鑒別器」(video discriminator)。它們被用來評估每一幀畫面中的各個特點,以及時間上的連續,來確保輸出視頻的清晰度、逼真程度、以及時間一致性。

圖 | 參考資料1

嗯,我猜大家並不想看這樣

這樣

以及這樣的模型

那我們來看視頻。

圖 | 參考資料1

在研究團隊放出的視頻中,作為「原材料」被輸入的視頻,也就是我們說的「骨架」,都是一些抽象的、表示動作的「語義圖」

比如這個

圖 | 參考資料1

這段是從開放城市數據平台Cityscape上下載的街景視頻通過一系列演算法處理成格式統一的「語義圖」視頻流。我國城市也有類似的信息,比如Apolloscape這個城市街景數據平台,目前就有73個關於北京的街景視頻,在這個項目中被用作訓練數據和檢驗數據。有興趣的小夥伴可以點進去玩兒(複製右邊的鏈接去瀏覽器打開http://apolloscape.auto)。

還比如這個

圖 | 參考資料1

研究團隊從FaceForensics這個有大量記者視頻的資料庫中搜集原始材料,通過一系列演算法,提取出「顱面特徵點」,進而生成「表情速寫視頻」。

動作信息,也是一樣的,只不過換了幾種演算法。

圖 | 參考資料1

研究團隊在視頻講解中說,這樣「把一個人的舞蹈動作轉移給了另一個人」(transform dancing motion from one person to another person)。研究團隊給的demo,不知大家有沒有認出來是新垣結衣在《逃避雖可恥但有用》里的那一段!

圖 |《逃避雖可恥但有用》

/*

有了黑科技,手腳不協調的人也可以跳跟新垣結衣一樣的舞!

*/

RTX:加速圖形運算

NVIDIA老闆黃仁勛手上拿的企圖亮瞎所有觀眾的這款「神器煤氣灶」RTX,號稱世界上第一款光線追蹤GPU,據說最大的特點是能到到「10 giga rays/sec ray tracing」,意思就是說每秒100億的光線追蹤。

煤氣灶兄弟| 左:NVIDIA官網;右:fang.com

/*

數字聽上去很厲害,愣是mega,giga的數了好半天的零……

*/

國際單位制前綴表| 百度百科

要理解這個數字在描述什麼,我們首先來了(ke)解(pu)一下我們經常聽到、但是未必清楚的「渲染技術」到底是什麼。

/*

敲黑板,閱讀以下內容有利於向小夥伴們賣弄知識,簡稱裝B……以及後面有更多愛豆圖片!

*/

「渲染」用通俗直觀的人類語言來說,就是把計算機里的三維模型(圖中左邊)經過模擬或抽象真實世界的物理過程來計算並呈現最終的視覺結果的過程,結果可以非常還原現實場景,也可以具有特殊的藝術風格。

如果作者被以上解釋打臉了(因為好像並不通俗直觀),那就看下面的圖。左邊為計算機中的三維模型,右圖為經過渲染處理後呈現的視覺效果,科幻電影都這麼做的,後期技術我們先不做討論。

圖 | techterms.com

用來實現渲染過程的計算機軟體也叫做渲染器。早一些年代在電腦硬體技術還沒有那麼發達的時候,計算一張渲染圖是非常耗時費力的,幾乎要花費十幾個甚至幾十個小時,電影則是由每秒24幀的靜幀渲染圖來實現,可想而知是多麼龐大的計算工程。

渲染是一個模擬過程,其對質量與效率的追求是一對矛盾:追求好的質量往往成倍增加花費的時間。因此,根據渲染的應用情況的不同,衍生出了很多不同的渲染技術,大體分為兩類:靜幀渲染和實時渲染。

靜幀渲染追求畫面質量的極致,例如各類好萊塢大片中的場景畫面,概念產品的概念圖,建築設計的效果圖;而實時渲染追求效率最大化,例如3D電腦遊戲。隨著硬體技術和GPU技術的提升以及渲染演算法的進步,效果與效率的矛盾一定程度上被緩解。實時渲染也越來越接近靜幀渲染的視覺效果,由於效率高,也越來越多地被應用到原先靜幀渲染的領域,例如電影行業。

那渲染這個「模擬」過程是怎麼實現的呢?我們都知道(也不一定都知道,不過反正你們要知道),電腦中的三維物體我們俗稱素模型(就是只有網格構成的形態模型),渲染的過程就是要模擬「素模」在真實場景下的視覺效果

簡單的說,就是把畫有各種色彩或者信息的圖按照某種映射規則(俗稱UV)貼到素模型上,然後用場景中模擬的光線照射它們,最後通過模擬的攝像機抓住這些模擬的光線,來形成最終的視覺呈現。

簡單的UV映射| MeshLogic

貼圖技術和環境模擬的技術千差萬別,這裡不細說,不過大體原理就是這樣。貼圖一般分為非常多層,就像PS里的圖層,每個貼圖圖層各司其職,有主管色彩的貼圖,有主管紋理的貼圖,有主管凹凸的貼圖等等,貼圖技術結合光線模擬以及相機或者攝像機的模擬的技術計算出最終的視覺結果,這就是一般的渲染實現過程。

RTX的厲害之處,我們可以通過一個側面來了解,就是在場景中「模擬光線照射物體」。物體反射的光線越多,效果越真實。現在最牛的計算機,能夠達到的是幾十萬級別的光線追蹤,而RTX達到了100億,中間差了多少個零大家慢慢數哈。

腦洞時間:這些能幹嘛?

看完了技術,我們來開一下腦洞:這些技術能用來幹嘛?

RTX的本質是大大提升了圖形運算的效率,會使我們在現有技術上更快更好地得到相應的視覺產品。而vid2vid的腦洞空間則大得多!

比如,年紀大的演員不得不從少年時期開始塑造角色時,可以用自己的表情生成「骨架」輸入視頻,用自己年輕時的照片P上相應的妝容作為「皮肉」的「現有圖像」輸入,就可以避免很多尷尬了

直接輸入13年前的圖片作為「皮肉」輸入,就不必尷尬地等消腫了 |左:《橘子紅了》;右:《如懿傳》

當年45歲的陳寶國老師演出了18歲白景琦的少年神情,但是臉上嘛…… |《大宅門》

再比如,等到技術成熟了,也許影視公司可以每個角色請不同的演員拍一組定妝照,然後該角色只要捕捉記錄一個演技超棒的戲骨的表演(神情、動作等)。這樣就可以根據不同演員提供的「皮肉」圖像輸入數據,生成不同演員版本的影視作品。這避免了各家粉絲對選角不滿互噴的狀況,各買各家愛豆專輯版,從此天下太平。

女主看張曼玉、湯唯還是倪妮的版本呢?| 《花樣年華》《色,戒》《金陵十三釵》

男主看胡歌、吳磊還是劉昊然的版本呢?| 《仙劍奇俠傳》《斗破蒼穹》《琅琊榜之風起長林》

對於沒啥演技的小鮮肉小鮮花,也許「摳圖」不再會被罵,反正大家都是合成的!

想想未來的影視作品真是激動啊:布景是假的,化妝是P的,聲音是配的,表情和動作是別人的,小鮮肉小鮮花們只有臉是真的……等等,臉真的是真的嗎?那我還看什麼小鮮花啊,為什麼不看合成的赫本的新片?或者更符合我審美的虛擬偶像呢?

/*

腦洞結束

*/

其實,目前能合成最長30秒的vid2vid技術,畫質細節也有很大提升空間。

目前的畫面仍有部分變形 |參考文獻1

但這是一類新技術的重大飛躍,會給我們帶來無數新的可能。

《三體》中三體人在距現在100年後拍出了的足以以假亂真的地球人電影,而vid2vid技術可能在不遠的將來就能實現科幻小說中強大外星文明的手段,我們拭目以待。

圖 |《一出好戲》

參考資料:

1. Video-to-Video Synthesis

https://tcwang0509.github.io/vid2vid/

2. NVIDIA GeForce

https://www.nvidia.com/en-us/geforce/20-series/

3. NVIDIA RTX Explained

https://www.youtube.com/watch?v=FKiwO4DPgZE

4. NVIDIA GeForce RTX Official Launch

https://www.youtube.com/watch?v=Mrixi27G9y

5. NVIDIA vid2vid

https://github.com/NVIDIA/vid2vid

6. Video-to-Video Synthesis

https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

作者:樟腦玩、喝啤酒的貓

編輯:Mo、麥麥

一個AI

能跟新垣結衣跳一樣的舞,但也沒法跟她一樣好看啊。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 煎蛋 的精彩文章:

關於松鼠你不知道的5個事
身上有紋身,工作更好找

TAG:煎蛋 |