當前位置:
首頁 > 科技 > Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

打開今日頭條,查看更多圖片

最近幾年,出現了不少利用深度學習編輯視頻的技術。

最著名的必然是 Deepfake,導致明星換臉視頻肆虐色情網站;以及誕生於去年的 Deep Video Potrait (DVP),輕鬆生成以假亂真的演講視頻,讓新聞機構和政治人物一度恐慌。

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

如果你以為這些就足夠令人擔憂,那你就太小看深度學習研究者了。在他們的眼中,只要是以科學的名義,沒有任何技術是受限的——即便可能造成嚴重的道德危機。

最近,研究者開發出了一種通過深度學習去操縱視頻的全新技術,可以在一句話中增加、刪掉甚至是修改任意詞句讓視頻中的演講者說出任意想說的話而且看起來仍然十分自然,就好像演講者自己說出來的那樣

比方說,財經電視台的原報道是「蘋果股價收盤於191.45美元」,研究者將數字更改為「182.25美元」,在英文中發音和口型完全不一樣的兩組數字,最終效果很難看出來是被修改過的:

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

可怕之處在於:操縱視頻的方法十分簡單,只需要修改視頻轉錄的文本即可。這個技術可以自己找到文本在視頻中對應的位置,自動生成語音和臉部模型,然後自動貼上去,生成新的視頻……

研究者通過調研發現,59.6%的受試者認為被這項技術編輯過的視頻是真實的視頻,反而有20%的受試者認為未經編輯過的視頻是假的。

也就是說,經過這個管道的加工生成的視頻,足以騙過大多數人的眼睛。

這項技術目前尚未對公眾開放,也沒有一個普通人可以使用的編輯軟體,因為它仍處於研究和測試階段。研究者來自斯坦福大學、德國馬克斯普朗克信息學院、普林斯頓大學和 Adobe 研究院。這份研究已經提交到了計算機圖形頂會 SIGGRAPH 2019 上,如果你感興趣也可以點擊「閱讀原文」查看論文。

你可以在下面這個視頻里看到,這項技術的編輯效果有多好,編輯出來的視頻有多「真實」:

這項技術實際上融合了多種深度學習方法,包括語音識別、唇形搜索、人臉識別和重建,以及語音合成。

簡單來說,研究者首先對視頻的圖像和聲音分別進行處理,將需要修改部分的畫面和音素分離出來把修改後語句的音素組裝進去,再根據這些單詞的發音生成新的人臉模型,最後混合渲染成一個新的視頻。

分解步驟大致如下:

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

1)輸入視頻,要求必須是talking-head video,也即以人臉(可以包括上半身)為主要畫面,以演講為主要內容的視頻;

2)輸入需要修改的字句,以及修改後的文字;

3)使用音素對齊 (phoneme alignment) 技術對視頻里的發言進行索引,方便後續工作。音素就是單詞的組成部分,比如「蘋果」由拼音 ping 和 guo 組成;

4)使用唇形搜索 (viseme search),在原視頻里找到需要修改的視頻片段和對應的音素;

5.a)聽覺上,把修改後詞句的音素組裝起來,嵌入到原視頻里;

5.b)視覺上,對視頻當中的人臉進行追蹤建模,然後根據修改後詞句的發音,為視頻的每一幀重建一張下半臉的畫面(因為大部分講話時的面部動作不會涉及鼻子以上),再重新渲染出一段視頻(無聲);

6)再用視頻中演講者的語音資料合成新的語音,最後混合剪輯成一個新的視頻。

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

研究者找來了138名群眾參與用戶調研,讓他們觀看三組視頻然後給出真或者假,也即未經編輯和編輯過的判斷。這三組視頻分別為 A(真實),B(真實),C(用 A 作為基礎,把 B 的詞句替換進去的「假視頻」)。而且,研究者事先告訴了受試者,這次調研的主題是「視頻編輯」,因此受試者清楚自己看到的肯定會有假視頻,因此會更機警地尋找「馬腳」。

59.6%的受試者認為 C 組是真實的視頻;20%的受試者反而認為原始、未經編輯的視頻是假的。

研究者也把這項新技術和 Deepfake、MorphCut 以及 DVP 等「前輩」進行了對比。他們發現,新管道在嘴部動作、口腔內畫面合成(牙齒、舌頭等)上性能更好,而前輩生成的插入幀往往十分生硬,稍加留意就能看出漏洞。

下圖:Deepfake(Face2Face) 在插入幀上出現了牙齒幻影。

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

下圖:DVP 對牙齒的還原出現了高可辨的錯誤。

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

下圖:DVP 對畫中人上肢動作的還原出現了問題,導致了延續性漏洞(影視術語,指剪輯導致了不合邏輯的畫面,比如手舉著的兩幀之間出現了手消失的一幀)。

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

下圖:MorphCut(Adobe Premier Pro 里的一個功能,在生硬的編輯中插入計算機生成的幀以使畫面順滑)讓畫中人面部出現嚴重的重影。

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

研究人員發現,輸入的視頻越長,最終的編輯效果越好,視覺上更自然,對40分鐘的視頻素材進行訓練,便能夠達到論文以及視頻展示的最優效果;但是,即便只使用極少量的數據,比如兩分鐘的視頻進行訓練,最終合成的人臉誤差率也才只有0.021,僅比40分鐘視頻(0.018)高了0.003。

這意味著,這項技術可以用於一段很短的視頻,並不需要大量數據也可以達到上乘效果。

論文提到,修改的詞句長短和成片質量的好壞並沒有直接相關性,但是唇形搜索和音素搜索的結果會影響最終編輯效果。比方說,如果修改詞句的口型和發音在數據集里從來沒有出現過,效果可能就不會太好。(研究者採用的參數混合方法也可以彌補這一情況,比如 fox 可以用 v 和 ox 組合而成,不一定需要帶 f 的詞語。)

在用時方面,論文顯示 3D 人臉建模每一幀花費110毫秒,也一段長度1小時、60fps演講者一直在講話的視頻(下同)需要396分鐘或者六個半小時;音素對齊需要大約20分鐘;唇形搜索最短僅需10分鐘,最長2小時;人臉合成每幀需要132毫秒,1小時視頻需要將近8小時合成,過程中的神經網路訓練用時最長,需要42小時左右。

完成了上述步驟後,編輯者就可以對視頻隨意修改,如果只是修改部分詞句的話,花費的時間和訓練/前期準備相比可忽略不計。

比方說某政客演講完,理論上最快兩天後網上就能出現一段意思被完全扭轉,但完全看不出任何問題的「假視頻」。

而如果放到新聞的語境當中,這項技術突然變成了最令人們擔憂的事情。這一方法對計算量有一定需求,因此路人不一定有能力完成,但如果是黑客或者敵對政治人物想要對受害者進行有組織的污衊攻擊,本篇論文所描述的這一方法簡直不能更好用。

今天,英國一家營銷機構在其 Instagram 賬號上發布了一小段扎克伯格的講話。在視頻中,扎克伯格戴著標誌性毫無「人味」的表情,表示「想像一下,有一個人,完全控制著數十億人被盜的數據,他們所有的秘密,他們的生活,他們的未來。我完全歸功於幽靈。幽靈告訴我,誰能掌控數據,誰就能掌控未來。「

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

」幽靈「是這家營銷機構正在推廣的一個裝置藝術展覽,這則視頻其實這場展覽的營銷。視頻本身也是用 Deepfake 或者類似的技術製作的,技術來自於以色列公司 Canny.ai,聲音則是找了一個跟扎克伯格完全不像的人努力裝出來的。事實上,這家營銷機構還」找來了「特朗普、金·卡戴珊、摩根·弗里曼等著名人物,製作了類似的視頻。

如果說這些視頻人畜無害的話,那麼另外一則技術含量根本沒多高的剪輯視頻,則對一位美國頂級政客帶來了巨大的傷害。

前幾周,兩段美國眾議院議長南希·佩洛西「口齒不清」的視頻流傳於網上。很快,這段視頻就被人發現使用了非常無聊的剪輯手法,讓佩洛西看起來像是喝多了或者快要中風一樣。包括 Facebook 在內的一些社交網站和視頻平台拒絕取締這些視頻。

Deepfake再現進階版!輸入文字即可修改口型語音,假新聞要防不住了

在當前社會極端化和對抗日益嚴重,以及假新聞盛行的大環境下,類似的視頻往往具有極強的傳播勢能。而更先進的技術讓視頻的質量變得更好,相應地對受害者的傷害,以及對社會造成的進一步撕裂,只會更加嚴重。

研究者在論文中指出,他們認為這項研究的主要目的是簡化視頻編輯人員(以及內容產業整體)的工作壓力。比如那些念錯台詞或者漏拍的場景,現在可以直接用深度學習演算法生成精確的畫面和聲音,不再需要重新花大價錢重拍。

另一個重要的使用場景是翻譯。論文中(以及配套的視頻里)演示了跨語言生成視頻的效果,因為本質上被剪輯的不是詞語,而是口型和音素,不受語言的限制(比如,許多歐洲國家語言共享音素)。

如果有一部電影需要譯製成西班牙語版,過去的做法是譯制廠直接後期配音。而現在有了這項技術,可以直接生成發音準確,而且口型同樣準確的譯製片了。

當然,電影只是一個極端的案例。不那麼極端的話,比方說你是一個美妝博主,想要把觀眾群擴展到海外,正好可以用這項技術生成其他語言版本的視頻,即便發音不百分之百精確也沒有關係。

最後一個使用場景,是生成二次元偶像帶視覺形象的虛擬語音助理。有了這個技術,應該就可以生成可以看見的林志玲/郭德綱導航了。研究者在論文中提到,除了用神經網路,他們的技術也可以搭配 macOS 的語音合成器 (speech synthesizer) 使用,讓合成語音更加容易。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 PingWest品玩 的精彩文章:

傳Facebook與美國監管機構溝通數字加密貨幣計劃
小米在海外召回有潛在風險的電動滑板車

TAG:PingWest品玩 |