當前位置:
首頁 > 新聞 > 語音版deepfake出現:從文本到逼真人聲,被模仿者高呼真得可怕

語音版deepfake出現:從文本到逼真人聲,被模仿者高呼真得可怕

加拿大創業公司 Dessa 開發出一個語音合成系統 RealTalk,與以往基於語音輸入學習人聲的系統不同,它可以僅基於文本輸入生成完美逼近真人的聲音。不過,出於倫理、社會影響等方面的考慮,Dessa 並未公布該項目的研究細節、模型和數據集。

加拿大創業公司 Dessa 近日發布了一項新研究:利用其最新開發的 RealTalk 系統,僅利用文本輸入即可生成完美逼近真人的聲音。其 demo 中展示了美國著名脫口秀喜劇演員、主持人 Joe Rogan 的聲音(Joe Rogan 就是那個讓馬斯克在節目中嗨了的主持人)。

所有音頻均為機器學習模型使用文本輸入生成的。音頻中包括換氣聲、「um」「ah」等詞語和雜訊。

視頻中,「Joe Rogan」用他一貫的語調和風格,談論黑猩猩曲棍球隊、快速說繞口令,甚至模擬了一段「Joe Rogan 被人工智慧研究者困在機器中」的情境……

Joe Rogan 本人在聽了模擬音頻後表示:「it"s terrifyingly accurate」。有 twitter 網友評論道「你應該和 AI Joe Rogan 來一次訪談,lol」……

語音版deepfake出現:從文本到逼真人聲,被模仿者高呼真得可怕

打開今日頭條,查看更多圖片

Joe Rogan 發 ins 表示:「我的立場就是驚訝地聳肩搖頭,然後接受它。未來越來越奇怪了,朋友們。」

複製 Rogan 聲音這一項目是由 Dessa 公司機器學習工程師 Hashiam Kadhim、Joe Palermo 和 Rayhane Mama 組成的團隊創造的,他們使用了一個文本轉語音的深度學習系統 RealTalk,可以僅基於文本輸入生成逼真的語音。

是不是很瘋狂?Dessa 首席機器學習架構師 Alex Krizhevsky (是的沒錯,他就是 AlexNet 的發明者)認為這是「我所看到的人工智慧領域最酷也最恐怖的事件之一。與理論上 40-100 年後才會出現的奇點不同,語音合成已經成為現實。」也許大家和他的想法是一樣的。

這意味著什麼?會產生什麼社會影響?

想想看,Dessa 的工程師用 AI 合法地創建了 Joe Rogan 聲音的逼真複製品,多麼不可思議。而且,該模型能夠複製任何人的聲音,只要能夠獲得足夠的訓練數據。

而作為構建現實世界應用的 AI 從業者,Dessa 也考慮到了這一點:這項技術會帶來什麼影響?

很明顯,語音合成等技術的社會影響是巨大的。它會影響到每一個人:不管有錢沒錢,不管是企業還是政府。

目前,要創建像 RealTalk 這樣性能良好的模型需要技術知識、獨創性、計算能力和數據。所以,不是任何人都可以實現它。但是在接下來的幾年裡(甚至更短的時間內),技術可能會發展到只需要幾秒鐘的音頻就能複製出世界上任何人的聲音。

這樣就很恐怖了。

如果這種技術落入壞人之手,可能會發生下面的情況:

  • 垃圾郵件發送者假冒你母親或者愛人來獲取你的個人信息;
  • 以霸凌或騷擾為目的冒充別人;
  • 冒充政府官員進入絕密區域;
  • 利用政客的「audio deepfake」來操縱選舉或引發社會暴動;
  • ……

除了消極影響之外,Dessa 也考慮了這項技術的積極一面。

如果這項技術被正確利用的話,則:

  • 和語音助手說話的時候感覺很自然,就像與朋友聊天一樣。
  • 可以定製語音應用程序,比如,健身 app 里鼓勵大家鍛煉的個性化話語來自阿諾·施瓦辛格。
  • 為只能通過文本-語音設備進行交流的人提供了一種交流選項,比如患有盧·格里克病(漸凍人症,ALS)的人。
  • 用任何語言為任意媒體文件自動配音。

正如牛津大學人類未來研究所在最近發布的一份報告《The Malicious Use of Artificial Intelligence》中所提到的那樣:人工智慧領域的進步不僅擴大了現有威脅,還帶來了新的威脅。

如何從倫理方面考慮來構建這個技術,Dessa 還沒有完全得出答案。但未來幾年裡,這項技術將不可避免地建立起來並應用到現實世界中。因此,除了提高意識和承認問題以外,Dessa 表示希望這項研究能夠開啟關於語音合成技術的對話和討論。

每個人都應該知道,隨著語音合成技術的發展,可能會發生什麼樣的情況。正如 Deepfake 技術出現時我們看到的那樣,公眾意識和對話促使政府、政策制定者、立法者迅速採取行動並制定對策。

Dessa 在相關博客中表示:作為應用人工智慧公司,Dessa 的一個重要責任是,了解在研究領域探索 AI 和在現實中應用 AI 有著巨大的差別。為了負責任地對待這種技術,他們認為在開源該項目之前,應該讓公眾首先意識到語音合成模型的影響。

也因此,Dessa 目前沒有公開研究細節、模型或數據集。

Dessa 表示後續將發布博客,介紹 RealTalk 的工作原理和構建過程。

語音版圖靈測試小遊戲

此外,Dessa 還提供了一個修改版的圖靈測試遊戲。大家可在 www.fakejoerogan.com 上辨別哪些聲音來自真的 Joe Rogan,哪些是 RealTalk 創造出來的。

語音版deepfake出現:從文本到逼真人聲,被模仿者高呼真得可怕

你能分辨出哪些來自 Joe Rogan,哪些來自 AI Joe Rogan 嗎?小編聽了幾個分辨出來了哦~還是有點區別的……

參考鏈接:

https://medium.com/@dessa_/real-talk-speech-synthesis-5dd0897eef7f

https://futurism.com/the-byte/ai-sounds-like-joe-rogan

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

在12家科技創業公司工作後,這是我的8條經驗
英偉達又火了一篇圖像轉換論文,我們竟然用來吸貓

TAG:機器之心 |