Facebook工程師創建了比爾·蓋茨的AI語音克隆體

科技 06-11

近年來，人工智慧技術的發展已經讓我們覺得有些可怕，而如何防止 AI 這把雙刃劍不被錯誤地使用，也引發了越來越激烈的探討。比如 2017 年底冒出的 DeepFakes 視頻換臉技術，就讓許多名人遭遇了虛假色情片的困擾。現在，Facebook 工程師們又創造出了一個能夠惟妙惟肖地模仿比爾·蓋茨的語音 AI 。

事實上，蓋茨只是 MelNet 可以模仿的多位人物中名氣最大的，其他「被克隆」的包括喬治·武井（George Takei）、珍·古德（Jane Goodall）、史蒂芬·霍金等人。

在下列剪輯中，你可以聽到一系列無害的句子，比如：

游泳時抽筋不是鬧著玩的（ A cramp is no small danger on a swim ）

同樣的話他說過三十遍（ He said the same phrase thirty times ）

摘下沒有葉子的鮮亮玫瑰（ Pluck the bright rose without leaves ）

2 加 7 小於 10（ Two plus seven is less than ten ）

上述每一段語音，都是由 Facebook 工程師設計創建的一個名為 MelNet 的機器學習系統生成的。那麼，用來訓練這套 ML 系統的數據，又是哪裡來的呢？

據悉，MelNet 分析了 452 小時的 STEM-y 類 TED 演講數據集，以及其它有聲讀物。

顯然，對機器學習系統來說，模仿這些人物慷慨激昂的演講方式，確實是一個不小的挑戰。

近年來，語音克隆的質量一直在穩步提升。比如近期播放的Joe Rogan複製品，就是一個極好的證明。

不過這一進展的大部分工作，可以追溯到 2016 年的 SampleRNN 和WaveNet 。

後者是由位於倫敦的人工智慧實驗室 DeepMind 創建的機器學習（ML）文本轉語音（TTS）轉換程序，該實驗室同時為 Google Assistant 智能助理提供支持。

WaveNet 和 SampleRNN 之類的方案，就是為 AU 系統提供大量的數據，並用它來分析人生中的細微差別。

這些舊式 TTS 系統無法生成音頻，但可以重構 —— 將語音樣本切割成各種音頻元素，然後將之拼接到一起，來創建新的單詞。

不過當 WaveNet 等團隊利用音頻波形進行訓練時，Facebook 的 MelNet 卻用上了信息更加密集的格式 —— 頻譜圖。

在一篇隨附的論文中，Facebook 研究人員指出，雖然 WaveNet 輸出的音頻保真度更高，但 MelNet 在捕捉「高級結構」方面更勝一籌。

MelNet 能夠模仿演講者聲音中包含的某種微妙的一致性，遺憾的是我們無法用文字來描述，但人耳聽起來確實更舒服。

Facebook 工程師稱，這是因為頻譜圖中捕獲的數據，較音頻波形中的數據更加緊湊。這種密度使得演算法能夠生成更加一致的語音，而不是波形記錄中被極端分散和磨練出來的細節。

當然，MelNet 也有一些限制，最總要的是無法複製人聲在較長一段時間內的變化，比如在文本段落上構建出來的戲劇性張力。

有趣的是，這類似於我們在 AI 生成的文本中見到的約束性，其只能實現表層、而非長期結構上的一致性。

撇開這些瑕疵不談，MelNet 已經足夠證明其強大的系統功能。它不僅可以生成逼真的人聲，還可以用於生成音樂（示例 1 2 ）。不過想要商業應用的話，還需要經過長時間的雕琢。

【來源：cnBeta.COM】

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 太平洋電腦網 的精彩文章:

※網路安全公司CrowdStrike上市在即估值可達46億美元
※微軟遊戲《盜賊之海》將會推出同名桌游作品

TAG:太平洋電腦網 |