《經濟學人》：GAN能偽造音視頻文件，眼見不再為實

新聞 07-03

導語：機器學習演算法GAN能夠生成圖像和聲音，這可能使得圖像和聲音不再那麼可信。

本文作者：晞萌編輯：郭奕欣

在今年早些時候，一段關於法國音樂家Fran?oise Hardy的YouTube視頻在網上流傳。視頻中，台下的人問她，為何唐納德·特朗普會讓其新聞秘書Sean Spicer在就職典禮人數一事上撒謊。Hardy回答說，此事是極有爭議的，Spicer先生給出了「多種事實」。

這一視頻的內容很奇怪，尤其是Fran?oise Hardy女士本人。雖然她現在已經73歲了，視頻中看起來卻只有20歲，而且她說話的聲音像極了特朗普的顧問Kellyanne Conway女士的聲音。

實際上，這段視頻是德國藝術家Mario Klingemann的傑作「Alternative Face v1.1」，通過用一個人的臉建模生成式對抗網路，生成新的面孔。這是基於Conway女士的一段NBC採訪生成的假視頻，原本是關於Conway女士一段聲名狼藉的對話，卻通過Hardy女士之口說了出來。Mario Klingemann使用不同的聲音片段作為輸入數據，基於Fran?oise Hardy女士的臉進行訓練。視頻看起來有些搖晃，且像素也被調整過。其實通過視頻軟體來製作可能畫面效果會更好，但是Klingemann沒有使用編輯軟體來完成視頻，相反，他只花了幾天時間在台式電腦上用一種機器學習演算法——生成式對抗網路（GAN）來創建了一個剪輯視頻，電腦被強制輸入Hardy女士的音樂視頻後，自動生成了Klingemann想要的聲音片段，在這段假視頻中放出的聲音片段其實是不存在的，Hardy女士從未說過這些話。

Klingemann先生的實驗讓虛假視頻走入大眾視線，預示著未來可能會有一場關於真偽視頻的戰爭。原本書面的信息可以輕易的偽造，圖像和聲音卻難以偽造，因此圖像和聲音證據原是非常可信的，但目前GAN的存在可能會改變這一局面，它可能會讓圖像和聲音變得也不那麼可信了。

事實上音頻更容易偽造。通常情況下，計算機通過連接大量語音短記錄片段來創建一個句子，這也是Siri聲音的生成原理。但這樣的數字聲音受限於它們記住的片段範圍，因此數字聲音只有在說到某些特定短語的時候才聽起來真實。

而GAN 生成音頻的工作方式則不同，它使用神經網路演算法來學習音頻源的統計屬性，然後在任何其他的上下文中再現這些屬性，以毫秒級而非秒級的片段建模。如果我們想要讓特朗普或者其他任何一個公眾人物說出指定的話，其實就是將對應人物的演講材料作為輸入，告訴演算法你想要輸出的語音是什麼。在過去幾年裡，谷歌在英國的DeepMind團隊，百度在矽谷的深度學習研究院和蒙特利爾研究院，都發表了從文字到語音的高性能演算法。目前這些演算法只有大型公司的計算能力才能實現，但這種情況終將改變。

相比音頻，機器生成圖像更難實現。 2014年，Ian Goodfellow推出了GANs，彼時他還是 Yoshua Bengio在MILA的學生。儘管深度學習允許機器能夠輕易完成圖像識別的任務，辨別不同種類的數據，比如機器能輕易分辨一張貓和一隻狗的圖片，但是想要機器能自動生成貓和狗的圖片就沒那麼容易了，計算機很難通過資料庫中的大量訓練圖像，自動生成有意義的圖片。

Goodfellow轉而想到了另一種方法實現圖像生成：競爭。不再請求軟體憑空生成有用的東西，而是提供了另一個軟體作為原軟體的對手來推動圖像生成。對手會辨別原軟體生成的圖像，判斷它們是否「真實」。通過試圖愚弄對手，生成軟體學會創造看起來真實的生成圖像。對抗軟體「了解」現實世界是什麼樣子，因此賦予了生成圖片意義和界限。

目前，GANs可以根據一句語言的描述，生成小型的郵票大小的圖像。當你告訴GANs，「這隻鳥是白色的，有一些黑色頭和翅膀，並有一個長長的橙色喙「，它會為你畫出來。可能畫出來的圖像並不完美，但一眼看過去卻很真實。

當時這樣的演算法效果並不出奇，但GAN的發展非常迅速。在過去五年中，由相似演算法推動的照片分類軟體錯誤率已從25％降低到百分之幾。人們期望圖像生成領域也能取得同樣的進展。谷歌的機器學習藝術家麥克·泰卡已經通過訓練GANs演算法生成了人臉的圖像，解析度像素大小為768，這像素超過了以前同等研究實驗像素的兩倍。

Goodfellow現在在搜索巨頭谷歌的內部AI研究院Google Brain工作，如果一定要估計這一演算法實現時間的話，他認為，生成YouTube假視頻有可能在三年內實現。其他人則認為可能需要更長時間。但是所有人都同意這只是時間問題，而不是能不能實現的問題。Goodfellow說道，「我們認為AI會改變我們所信賴的證據——圖像和音頻」。

本文為雷鋒網根據《經濟學人》編譯，未經雷鋒網許可不得轉載。

雷鋒網原創文章，網站轉載請至雷鋒網官網申請授權。歡迎熱情討論，轉發分享~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※機器人專家王田苗談為什麼加入生態圈新貴少海匯
※多方壓制後 AI開發者大會是百度的抽冷子重拳嗎？
※一文讀懂矩陣的秩和行列式的意義
※美軍方：哼，不用你們產品。卡巴斯基：提供源代碼行不行？然而……

TAG:雷鋒網 |

您可能感興趣

※實時音視頻TRTC
※亮眼雲發布混合架構音視頻SDK：支持所有平台，音視頻唇音同步等
※音視頻融合通信技術的最佳實踐，全在這裡了
※抖音視頻社交APP多閃體驗看得到誠意看不清未來
※WebRTC 將一統實時音視頻天下？
※用Python將抖音視頻轉換為字元視頻
※音視頻定製，YouTube的ASMR 達人們發現了新的變現途徑
※Alexa又添加新技能支持語音視頻通話，用戶可直接報警
※聲網趙斌：實時音視頻將服務並改變每個人的生活
※打通小程序音視頻和webRTC
※瀏覽器如何玩轉抖音視頻，還能下載無水印短視頻
※中國移動攜手華為完成首次5G EPS Fallback語音視頻通話
※白鷺引擎上線新增支持Matchvs與游密音視頻通訊SDK
※強推！格式轉換！GIF製作！音視頻剪切！安卓端最強音視頻編輯器！
※這些義大利品牌你可能隻眼熟，卻並不了解（附品牌正確發音視頻）
※OpenMAX編程-音視頻等組件介紹
※一見勝百聞，羅技推出商務智能音視頻會議系統
※吳亦凡上傳第一支抖音視頻，卻被網友吐槽：多學學，別只知道抖
※來，教你用語音視頻聊天
※如何將抖音視頻變為iPhone動態鎖屏？超簡單！