真實到可怕！英偉達MIT造出馬良的神筆

最新 08-22

問耕郭一璞發自凹非寺

量子位報道 | 公眾號 QbitAI

GIF

記得神筆馬良的故事么？

拿到神筆的馬良，可以畫物品、畫動物、畫食物，而且，這些畫作都可以一秒鐘從畫面上出來，變成真實世界中存在的東西。

雖然這只是一個童話故事，不過，英偉達和MIT聯手的最新研究，基本上馬良的「神筆」造了個八九不離十。

來自英偉達和MIT的研究團隊，最近搞出了迄今最強的高清視頻生成AI。這個團隊，包括來自英偉達的Ting-Chun Wang、劉明宇（Ming-Yu Liu），以及來自MIT的朱俊彥（Jun-Yan Zhu）等。

他們的成果到底有多強、多可怕？一起來看。

只要一幅動態的語義地圖，你就可以獲得和真實世界幾乎一模一樣的視頻。換句話說，只要把你心中的場景勾勒出來，不用去實拍，電影級的視頻就可以自動P出來，像下面一樣：

GIF

這可不是在播放錄像，街景中的道路、車輛、建築、綠植都是自動生成的。原本只是簡單勾勒景物輪廓的語義分割圖，搖身一變就成了真實的街景。

真實的有點過分。

而且，還可以生成各種不同風格的視頻：

GIF

甚至，它還能把街景改掉。比如把道路兩側的建築全都變成樹木，頓時有一種行駛在森林公園的感覺：

GIF

或者把行道樹也給變成建築，不過這些建築倒是看起來有年頭了：

GIF

隨意的生成變化，就像偷來了哈利·波特的魔杖，無需咒語，就可以把這個場景中所有的元素變變變。

還有厲害的。

通過一個簡單的素描草圖，就能生成細節豐富、動作流暢的高清人臉：

GIF

根據勾勒出的人臉輪廓，系統自動生成了一張張正在說話的臉，臉型、面部五官、髮型、首飾都可以生成。

GIF

甚至還主動承擔了給人臉繪製背景的任務。

除此之外，人臉的面色、發色也可以定製化選擇，皮膚或深或淺，發色或黑或白，全都自然生成無壓力：

GIF

△面色紅潤style

GIF

△一臉蒼白style

GIF

△臉色蠟黃style

簡直就像同一個人染了頭髮拍了三遍，這種逼真的效果，真怕有一天朋友圈三無化妝品微商們拿去造假騙人。（當然，仔細看眉毛，還是有一些破綻）

不只人臉，整個身子都能搞定：

GIF

隨著左側人體模型的跳動、位移和肢體不斷變換，右側的真人視頻中，主角也在隨之舞蹈，無論你想要什麼樣的姿勢，變高、變矮、變胖、變瘦，只要把左側的人體模型調整一下，右側的真人視頻就會乖乖的聽你調教。

與之前的研究相比，英偉達這個vid2vid的效果怎麼樣，大家一看便知。

這是2017年ICCV上的COVST的效果：

GIF

這是2018年CVPR上的pix2pixHD的效果：

GIF

而最新的效果是這樣：

GIF

沒有模糊，沒有扭曲，沒有異常的閃動，畫面平穩流暢，色調柔和。如果應用在視頻生產中，簡直可以讓摳圖小鮮肉們一年拍10000部電影都不成問題。

最後，清晰的效果歡迎大家點開視頻查看：

技術細節

這麼NB的效果，是怎麼實現的？

說下要點。

研究團隊使用了序列生成器和多尺度鑒別器來訓練神經網路。生成器接收輸入映射和前序幀，然後生成中間幀和Flow map。Flow map用於處理前序幀，然後與中間幀合併，從而生成最終幀。

生成下一幀時，最終幀變成輸入，以此類推。

鑒別器共有兩種，一種處理圖片，一種處理視頻。

圖片鑒別器同時獲取輸入圖像和輸出圖像，並從多個特徵尺度進行評估，這與pix2pixHD類似。視頻鑒別器接收Flow maps以及相鄰幀以確保時間一致性。

所有幀在進入鑒別器之前，還進行了下採樣，這可以看做是時域中的多尺度。

訓練從低解析度開始，然後結合低解析度特徵進行高解析度的訓練。同樣，訓練先從幾幀開始，然後逐漸增加訓練幀的數量。這兩個步驟不斷交替，形成漸進式的訓練流程，最終讓神經網路學會生成高解析度和長時間的視頻。

更多細節，可以從Paper中查看。

論文中表示，這是一種在生成對抗性學習框架下的新方法：精心設計的生成器和鑒別器架構，再加上時空對抗目標。這種方法可以在分割蒙版、素描草圖、人體姿勢等多種輸入格式上，實現高解析度、逼真、時間相干的視頻效果。

這種新方法訓練出來的模型，能夠生成長達30秒的2K解析度街景視頻，顯著提升了視頻合成的技術水平，而且這個方法還能用來預測未來的視頻發展。

論文傳送門：

https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

代碼

好消息是，相關代碼也已經在GitHub上公布。

而且研究團隊給出了詳細的訓練指南，可以算是手把手教你如何自己訓練出一個類似的強大神經網路。

包括用8個GPU怎麼訓練，用1個GPU又該怎麼設置等等。

你所需要準備的是，一個Linux或者macOS系統，Python 3，以及英偉達GPU+CUDA cuDNN。

GitHub頁面傳送門：

https://github.com/NVIDIA/vid2vid

—完—

活動推薦

加入社群

量子位AI社群19群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字「專業群」，獲取入群方式。（專業群審核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※2018北大AI公開課13期全乾貨盤點
※日本的危機感：想戰勝中美，要舉全國之力培養AI人才

TAG:量子位 |