當前位置:
首頁 > 新聞 > 《經濟學人》:GAN能偽造音視頻文件,眼見不再為實

《經濟學人》:GAN能偽造音視頻文件,眼見不再為實

導語:機器學習演算法GAN能夠生成圖像和聲音,這可能使得圖像和聲音不再那麼可信。

本文作者:晞萌 編輯:郭奕欣

在今年早些時候,一段關於法國音樂家Fran?oise Hardy的YouTube視頻在網上流傳。視頻中,台下的人問她,為何唐納德·特朗普會讓其新聞秘書Sean Spicer在就職典禮人數一事上撒謊。Hardy回答說,此事是極有爭議的,Spicer先生給出了「多種事實」。

這一視頻的內容很奇怪,尤其是Fran?oise Hardy女士本人。雖然她現在已經73歲了,視頻中看起來卻只有20歲,而且她說話的聲音像極了特朗普的顧問Kellyanne Conway女士的聲音。

實際上,這段視頻是德國藝術家Mario Klingemann的傑作「Alternative Face v1.1」,通過用一個人的臉建模生成式對抗網路,生成新的面孔。這是基於Conway女士的一段NBC採訪生成的假視頻,原本是關於Conway女士一段聲名狼藉的對話,卻通過Hardy女士之口說了出來。Mario Klingemann使用不同的聲音片段作為輸入數據,基於Fran?oise Hardy女士的臉進行訓練。視頻看起來有些搖晃,且像素也被調整過。其實通過視頻軟體來製作可能畫面效果會更好,但是Klingemann沒有使用編輯軟體來完成視頻,相反,他只花了幾天時間在台式電腦上用一種機器學習演算法——生成式對抗網路(GAN)來創建了一個剪輯視頻,電腦被強制輸入Hardy女士的音樂視頻後,自動生成了Klingemann想要的聲音片段,在這段假視頻中放出的聲音片段其實是不存在的,Hardy女士從未說過這些話。

Klingemann先生的實驗讓虛假視頻走入大眾視線,預示著未來可能會有一場關於真偽視頻的戰爭。原本書面的信息可以輕易的偽造,圖像和聲音卻難以偽造,因此圖像和聲音證據原是非常可信的,但目前GAN的存在可能會改變這一局面,它可能會讓圖像和聲音變得也不那麼可信了。

事實上音頻更容易偽造。通常情況下,計算機通過連接大量語音短記錄片段來創建一個句子,這也是Siri聲音的生成原理。但這樣的數字聲音受限於它們記住的片段範圍,因此數字聲音只有在說到某些特定短語的時候才聽起來真實。

而GAN 生成音頻的工作方式則不同,它使用神經網路演算法來學習音頻源的統計屬性,然後在任何其他的上下文中再現這些屬性,以毫秒級而非秒級的片段建模。如果我們想要讓特朗普或者其他任何一個公眾人物說出指定的話,其實就是將對應人物的演講材料作為輸入,告訴演算法你想要輸出的語音是什麼。在過去幾年裡,谷歌在英國的DeepMind團隊,百度在矽谷的深度學習研究院和蒙特利爾研究院,都發表了從文字到語音的高性能演算法。目前這些演算法只有大型公司的計算能力才能實現,但這種情況終將改變。

相比音頻,機器生成圖像更難實現。 2014年,Ian Goodfellow推出了GANs,彼時他還是 Yoshua Bengio在MILA的學生。儘管深度學習允許機器能夠輕易完成圖像識別的任務,辨別不同種類的數據,比如機器能輕易分辨一張貓和一隻狗的圖片,但是想要機器能自動生成貓和狗的圖片就沒那麼容易了,計算機很難通過資料庫中的大量訓練圖像,自動生成有意義的圖片。

Goodfellow轉而想到了另一種方法實現圖像生成:競爭。不再請求軟體憑空生成有用的東西,而是提供了另一個軟體作為原軟體的對手來推動圖像生成。對手會辨別原軟體生成的圖像,判斷它們是否「真實」。通過試圖愚弄對手,生成軟體學會創造看起來真實的生成圖像。對抗軟體「了解」現實世界是什麼樣子,因此賦予了生成圖片意義和界限。

目前,GANs可以根據一句語言的描述,生成小型的郵票大小的圖像。當你告訴GANs,「這隻鳥是白色的,有一些黑色頭和翅膀,並有一個長長的橙色喙「,它會為你畫出來。可能畫出來的圖像並不完美,但一眼看過去卻很真實。

當時這樣的演算法效果並不出奇,但GAN的發展非常迅速。在過去五年中,由相似演算法推動的照片分類軟體錯誤率已從25%降低到百分之幾。人們期望圖像生成領域也能取得同樣的進展。谷歌的機器學習藝術家麥克·泰卡已經通過訓練GANs演算法生成了人臉的圖像,解析度像素大小為768,這像素超過了以前同等研究實驗像素的兩倍。

Goodfellow現在在搜索巨頭谷歌的內部AI研究院Google Brain工作,如果一定要估計這一演算法實現時間的話,他認為,生成YouTube假視頻有可能在三年內實現。其他人則認為可能需要更長時間。但是所有人都同意這只是時間問題,而不是能不能實現的問題。Goodfellow說道,「我們認為AI會改變我們所信賴的證據——圖像和音頻」。

本文為雷鋒網根據《經濟學人》編譯,未經雷鋒網許可不得轉載。

雷鋒網原創文章,網站轉載請至雷鋒網官網申請授權。歡迎熱情討論,轉發分享~

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

機器人專家王田苗談為什麼加入生態圈新貴少海匯
多方壓制後 AI開發者大會是百度的抽冷子重拳嗎?
一文讀懂矩陣的秩和行列式的意義
美軍方:哼,不用你們產品。卡巴斯基:提供源代碼行不行?然而……

TAG:雷鋒網 |

您可能感興趣

實時音視頻TRTC
亮眼雲發布混合架構音視頻SDK:支持所有平台,音視頻唇音同步等
音視頻融合通信技術的最佳實踐,全在這裡了
抖音視頻社交APP多閃體驗 看得到誠意 看不清未來
WebRTC 將一統實時音視頻天下?
用Python將抖音視頻轉換為字元視頻
音視頻定製,YouTube的ASMR 達人們發現了新的變現途徑
Alexa又添加新技能 支持語音視頻通話,用戶可直接報警
聲網趙斌:實時音視頻將服務並改變每個人的生活
打通小程序音視頻和webRTC
瀏覽器如何玩轉抖音視頻,還能下載無水印短視頻
中國移動攜手華為完成首次5G EPS Fallback語音視頻通話
白鷺引擎上線 新增支持Matchvs與游密音視頻通訊SDK
強推!格式轉換!GIF製作!音視頻剪切!安卓端最強音視頻編輯器!
這些義大利品牌你可能隻眼熟,卻並不了解(附品牌正確發音視頻)
OpenMAX編程-音視頻等組件介紹
一見勝百聞,羅技推出商務智能音視頻會議系統
吳亦凡上傳第一支抖音視頻,卻被網友吐槽:多學學,別只知道抖
來,教你用語音視頻聊天
如何將抖音視頻變為iPhone動態鎖屏?超簡單!