當前位置:
首頁 > 最新 > 真實到可怕!英偉達MIT造出馬良的神筆

真實到可怕!英偉達MIT造出馬良的神筆

問耕 郭一璞 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

GIF

記得神筆馬良的故事么?

拿到神筆的馬良,可以畫物品、畫動物、畫食物,而且,這些畫作都可以一秒鐘從畫面上出來,變成真實世界中存在的東西。

雖然這只是一個童話故事,不過,英偉達和MIT聯手的最新研究,基本上馬良的「神筆」造了個八九不離十。

來自英偉達和MIT的研究團隊,最近搞出了迄今最強的高清視頻生成AI。這個團隊,包括來自英偉達的Ting-Chun Wang、劉明宇(Ming-Yu Liu),以及來自MIT的朱俊彥(Jun-Yan Zhu)等。

他們的成果到底有多強、多可怕?一起來看。

只要一幅動態的語義地圖,你就可以獲得和真實世界幾乎一模一樣的視頻。換句話說,只要把你心中的場景勾勒出來,不用去實拍,電影級的視頻就可以自動P出來,像下面一樣:

GIF

這可不是在播放錄像,街景中的道路、車輛、建築、綠植都是自動生成的。原本只是簡單勾勒景物輪廓的語義分割圖,搖身一變就成了真實的街景。

真實的有點過分。

而且,還可以生成各種不同風格的視頻:

GIF

甚至,它還能把街景改掉。比如把道路兩側的建築全都變成樹木,頓時有一種行駛在森林公園的感覺:

GIF

或者把行道樹也給變成建築,不過這些建築倒是看起來有年頭了:

GIF

隨意的生成變化,就像偷來了哈利·波特的魔杖,無需咒語,就可以把這個場景中所有的元素變變變。

還有厲害的。

通過一個簡單的素描草圖,就能生成細節豐富、動作流暢的高清人臉:

GIF

根據勾勒出的人臉輪廓,系統自動生成了一張張正在說話的臉,臉型、面部五官、髮型、首飾都可以生成。

GIF

甚至還主動承擔了給人臉繪製背景的任務。

除此之外,人臉的面色、發色也可以定製化選擇,皮膚或深或淺,發色或黑或白,全都自然生成無壓力:

GIF

面色紅潤style

GIF

一臉蒼白style

GIF

臉色蠟黃style

簡直就像同一個人染了頭髮拍了三遍,這種逼真的效果,真怕有一天朋友圈三無化妝品微商們拿去造假騙人。(當然,仔細看眉毛,還是有一些破綻)

不只人臉,整個身子都能搞定:

GIF

隨著左側人體模型的跳動、位移和肢體不斷變換,右側的真人視頻中,主角也在隨之舞蹈,無論你想要什麼樣的姿勢,變高、變矮、變胖、變瘦,只要把左側的人體模型調整一下,右側的真人視頻就會乖乖的聽你調教。

與之前的研究相比,英偉達這個vid2vid的效果怎麼樣,大家一看便知。

這是2017年ICCV上的COVST的效果:

GIF

這是2018年CVPR上的pix2pixHD的效果:

GIF

而最新的效果是這樣:

GIF

沒有模糊,沒有扭曲,沒有異常的閃動,畫面平穩流暢,色調柔和。如果應用在視頻生產中,簡直可以讓摳圖小鮮肉們一年拍10000部電影都不成問題。

最後,清晰的效果歡迎大家點開視頻查看:


技術細節


這麼NB的效果,是怎麼實現的?

說下要點。

研究團隊使用了序列生成器和多尺度鑒別器來訓練神經網路。生成器接收輸入映射和前序幀,然後生成中間幀和Flow map。Flow map用於處理前序幀,然後與中間幀合併,從而生成最終幀。

生成下一幀時,最終幀變成輸入,以此類推。

鑒別器共有兩種,一種處理圖片,一種處理視頻。

圖片鑒別器同時獲取輸入圖像和輸出圖像,並從多個特徵尺度進行評估,這與pix2pixHD類似。視頻鑒別器接收Flow maps以及相鄰幀以確保時間一致性。

所有幀在進入鑒別器之前,還進行了下採樣,這可以看做是時域中的多尺度。

訓練從低解析度開始,然後結合低解析度特徵進行高解析度的訓練。同樣,訓練先從幾幀開始,然後逐漸增加訓練幀的數量。這兩個步驟不斷交替,形成漸進式的訓練流程,最終讓神經網路學會生成高解析度和長時間的視頻。

更多細節,可以從Paper中查看。

論文中表示,這是一種在生成對抗性學習框架下的新方法:精心設計的生成器和鑒別器架構,再加上時空對抗目標。這種方法可以在分割蒙版、素描草圖、人體姿勢等多種輸入格式上,實現高解析度、逼真、時間相干的視頻效果。

這種新方法訓練出來的模型,能夠生成長達30秒的2K解析度街景視頻,顯著提升了視頻合成的技術水平,而且這個方法還能用來預測未來的視頻發展。

論文傳送門:

https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf


代碼


好消息是,相關代碼也已經在GitHub上公布。

而且研究團隊給出了詳細的訓練指南,可以算是手把手教你如何自己訓練出一個類似的強大神經網路。

包括用8個GPU怎麼訓練,用1個GPU又該怎麼設置等等。

你所需要準備的是,一個Linux或者macOS系統,Python 3,以及英偉達GPU+CUDA cuDNN。

GitHub頁面傳送門:

https://github.com/NVIDIA/vid2vid

活動推薦

加入社群

量子位AI社群19群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

2018北大AI公開課13期全乾貨盤點
日本的危機感:想戰勝中美,要舉全國之力培養AI人才

TAG:量子位 |