劇本自動生成電影:杜克大學提出AI視頻生成新方法
選自Science
作者:Matthew Hutson
機器之心編譯
參與:許迪、李澤南
用寫好的劇本(文字)自動生成電影或許是很多劇作家的夢想,人工智慧技術最近讓這一夢想距離現實更近了一步。杜克大學 Yitong Li 等人提出了一種結合變分自編碼器(VAE)與生成對抗網路(GAN)的演算法,可為一小段文本生成相應短視頻,該研究已在 AAAI 2018 大會上進行了展示。
編劇們最近又有新的理由拒絕高成本和重要電影廠牌的眾多資源了,這得歸功於一個新的人工智慧演算法,它可以消化很短的劇本然後產生一段視頻。儘管這些新的電影距離奧斯卡獲獎的程度還相去甚遠,但我們已經可以想像一種類似的技術將在未來的某一天在娛樂圈以外的地方找到用處,比如幫助目擊證人重現一個撞車或者犯罪現場。
人工智慧在識別及標註圖片這一領域已經顯得駕輕就熟。所謂的「生成」演算法走了另一條路,用標籤(或者腦部掃描)來生產新的圖片。少部分的研究甚至可以用一幀電影畫面來預測之後一系列的畫面幀。但是把這些結合在一起,從文字創建一個圖片然後讓它動起來從而變成一個實際的電影,此前還從來沒人做到過。
「目前為止據我而知,這是第一個有好結果的文本-轉-視頻的工作。它們不是完美的,但至少它們看起來已經像真的電影了。」Tinne Tuytelaars 說道,他是一位在比利時 Katholieke Universiteit Leuven 的計算機科學家,她已經做過兩個視頻預測的研究。「這真的做的很棒」。
這個新的演算法是機器學習的一種形式,這意味著它需要訓練。尤其是,這是一個神經網路,或者是一系列像老式大腦神經元一樣的小計算元素形成的層。在訓練中,軟體評估了它每次嘗試的表現,然後反饋在幾百萬個網路連接里循環來改善之後的計算。
這個網路的工作方式為兩個階段「以模仿人類創造藝術的方式」,研究員說。第一階段是用文本生成一個視頻的「主旨」,基本上是一個模糊的背景圖片加上一團模糊的標註,標記主要動作發生的地方。第二階段用「主旨」和文本生產一個短視頻。在訓練中,第二個網路表現為「鑒別器」。它觀察新生成的視頻,例如,在一個海上帆船視頻的旁邊寫道「在大海上航行」,鑒別器會被訓練來找出符合敘述內容的圖像。隨著鑒別器的性能越來越好,它會變得更加苛刻,它的反饋也為生成器網路設置了一個新的更高的標準。
研究員在十種場景中訓練了這個演算法,包括「在草地上打高爾夫球」,和「在海上玩風箏衝浪」,演算法在這個場景下表現的比較粗糙,呈現 VHS 錄像的顆粒感畫面。一種簡單的分類演算法可以在 6 種選項里猜對大約 50% 的幾率。(但總把風箏衝浪和航行弄混)。更多的,這個網路可以為荒唐的場景生產視頻,比如「在雪上航行」和「在游泳池上打高爾夫」,該研究團隊本月在路易斯安納州新奧爾良的 AAAI 2018 大會上對這項研究進行了報告。
「他們的方法非常有意思,融合了兩個階段」,Hamed Pirsiavash 說,他是馬里蘭大學的一位計算機科學家,此前也完成過視頻預測工作。「這是個超級困難的工作。所以我也非常高興能看到這些人做出了這麼好的成果。」
現在,演算法完成的視頻只有 32 幀大約 1 秒大小像郵票一樣,64×64 像素的尺寸。更大的解析度會降低正確率,杜克大學的計算機科學家 Yitong Li 表示,他也是這篇文章的第一作者。因為人們經常在圖像里被扭曲,他希望在未來使用人體骨骼模型來提高動作的效果。
Tuytelaars 也在好萊塢以外的其他領域看到了新方法應用的方向,視頻生成技術也導向更好的視頻壓縮技術,可以只存簡介而不存視頻。它也可以從其他機器學習演算法中生成訓練數據。舉例,真實的視頻短片可能幫助自動駕駛車為不常見的危險情況而準備。深度理解了視覺世界的程序可以從審查到監控中篩選出有用的應用。「新技術可以幫助自動駕駛車預測一個摩托車將開向哪裡,或者訓練家庭服務機器人打開冰箱,」Pirsiavash 說道。
目前看來,讓 AI 生成好萊塢大片還不現實,但同時,我們終於知道「在草地上玩風箏衝浪」是什麼樣子了。
論文:Video Generation from Text
論文鏈接:http://www.aaai.org/GuideBook2018/16152-72279-GB.pdf
摘要:從已有生成模型中用文本生成視頻是一個困難的技術挑戰。我們訓練了一個有條件的提取動態和靜態信息的生成模型來處理這個問題。這種思路在混合框架下被證明可行的,我們的模型應用了變分自編碼器(VAE)和生成對抗網路(GAN)。動態特徵,被叫做「主旨」,常被用來畫出語境的背景顏色和物體構造結構。動態特徵可用於將輸入文本轉換為圖片過濾器。為了得到大量的模型訓練數據,我們在公開的在線視頻之上發展了一個方法來自動創建對應的文字--視頻語料庫。實驗結果表明,我們提出的架構可以生成具有一定擬真度的多種平滑短視頻,文本中的信息可以正確地在視頻中顯現。這種方法比直接使用文本轉圖片再生成視頻的基線模型在表現上好很多。我們通過視覺觀察和用於評估 GAN 生成圖片的評分來對生成視頻的效果進行了評估。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
?------------------------------------------------


※要學習機器學習,先從這十大演算法開始吧
※AI創業公司融資新記錄,三大國有銀行共同投資第四範式
TAG:機器之心 |