黑科技自動生成超級慢鏡頭,英偉達的AI這次帥炸了
慢動作是當今影視作品中經常用到的技術,他能更好地吸引觀眾,讓人們看到正常速度下看不到的細節,帶來視覺衝擊;把人們更好地帶入角色的腦海,傳遞情感。
隨著技術進步,如今我們的手機也可以拍慢動作了。如果只是發個朋友圈、Instagram,iPhone 相機里的 Slow-Motion 絕對夠用了!
但如果想要拍專業級的慢動作呢?你往往需要一台相當高端的相機。然而一般的慢鏡頭相機都是 1000fps(每秒幀數)起步,幾千美金都是正常的;專業級則要到 3000fps 甚至更數萬fps,價格往往上萬美元了。
並不是所有人都能成為 The Slow Mo Guys 啊……
上面圖片就是來自 The Slow Mo Guys。看看,用十幾萬刀的慢鏡頭相機拍出來的就是不一樣……
如果換成渣幀率的相機呢,就變成了這樣
為什麼一點都不連貫呢?因為慢鏡頭的原理就是用高幀率拍攝,幀率越高,按照60或者120fps 的正常幀率播放時就會顯得越順滑。
相機本身幀率低,非要強行慢放,還要啥效果啊?
但如果非要呢?
隆重介紹英偉達最近發布的一個新技術:機器學習自動生成慢鏡頭:
靠演算法來實現的慢動作
傳統的慢鏡頭,是因為相機真的拍到了那麼多幀的畫面。
而相信你也看明白了,英偉達這個黑科技,並不需要那麼多幀:它是用演算法給標準視頻補充更多的幀,從而將其變成一段高幀率視頻,也就有了慢動作。
這是什麼意思呢?用下面這張圖來舉例,比方說正常相機拍到的是下面那組的10幀,英偉達黑科技就是用計算「強行」生成額外的幀,插在已有的幀中間。
這些新生成的畫面,到底應該長什麼樣,就全靠演算法來模擬了。過去也有類似的演算法生成,效果並不好,而從剛才的視頻里,你也看出來英偉達已經遠遠超過以假亂真的程度了——這明明就是真的慢鏡頭嘛!
這項黑科技的名字,叫做「可變長度多幀插值」(Variable-Length Multi-Frame Interpolation)。
它可以在標準視頻的基礎上,以令人難以想像的準確度,生成新的「假幀」,進而變成流暢且清晰的慢動作視頻。原始視頻的幀率必須達到或高於 30fps。
最厲害的是,這個慢鏡頭,你想要多慢就可以多慢,比如可以變成 60fps,就是已有的每兩幀之間多插一幀;也可以變成900幀,也就是每兩幀之間多插29幀……
英偉達將這項技術形象地稱為:超級慢動作
而且英偉達表示,這個演算法在測試中「比已有的最前沿方法效果都更好」。
比如下圖中展示了六個同類的演算法,可以看出前五個都有不同程度的畫面畸變,f 的真實度最好,也正是英偉達的技術。
AI 腦補多少補多少
這項所謂的多幀插值技術,其實並不是什麼新鮮東西。
如果你還記得小時候看電視,看球賽感覺特別順暢,看電視劇感覺畫面奶里奶氣,柔和的不像話,那麼恭喜你:你已經感受過一個名叫動態插值的技術了……
這是因為在很早以前,電視就有這個能力了,它可以對兩幀畫面進行一定程度的複製和演化,生成新的一幀,然後插進去。
英偉達的新演算法也是兩幀之間,但名字里「可變多幀」意思是可以在任意兩幀之間完成插值,其中插值和遮擋推理會在一個端對端的卷積神經網路上同時進行建模。
比方說原視頻的 1、2、3 幀,英偉達的黑科技可以在 1 和 3 之間新生成一個,跟真實的 2 幀進行比對,從而優化演算法。
所有人都可以這樣做,為什麼英偉達贏了?答案是顯而易見的:他們坐擁著大量的顯卡……
在訓練演算法過程中,英偉達使用了 Tesla V100 GPU,以及改良後的 PyTorch 深度學習框架。英偉達共使用了 1132 段視頻,共 37.6萬獨立視頻幀數。
為了更直觀的展現自己的成果,英偉達還真和 The Slow Mo Guys 合作了。開頭的視頻里展示了英偉達用他們發在網上的慢鏡頭視頻進一步生成的「更慢鏡頭」視頻,效果可以說相當驚人了。
AI 的這次突破背後更重要的是,它讓慢動作製作有了擺脫硬體約束的可能。
英偉達在論文中表示,他們希望未來通過雲端完成大部分處理過程,進而讓這項技術能在消費級設備上得到普及。
這句話的意思是:以後你可以在手機上隨便拍拍,伺服器自動給你做出超慢鏡頭……
是不是很值得期待?
只不過到那時,我們可能又要遇到另一個問題:
當視頻裡面一大半的幀都是 AI 強行「瞎編」出來的,那還算的上是真實的視頻么?


※去哪兒網高管大換血,管理層重組基本完畢
※彭博社:Google曾私下尋求與歐盟和解Android反壟斷案
TAG:pingwest中文網 |