當前位置:
首頁 > 新聞 > 百度發布升級版 Deep Voice 2,神經網路實時生成,完美模仿數百種聲音(論文下載)

百度發布升級版 Deep Voice 2,神經網路實時生成,完美模仿數百種聲音(論文下載)

百度發布升級版 Deep Voice 2,神經網路實時生成,完美模仿數百種聲音(論文下載)

新智元報道

百度發布升級版 Deep Voice 2,神經網路實時生成,完美模仿數百種聲音(論文下載)

百度在官方博客介紹了升級版 Deep Voice 2:

今年2月,百度矽谷 AI Lab 發布了 Deep Voice 1,這是一個完全使用深度神經網路生成人類語音的系統。與其他使用神經網路的文本到語音(text-to-speech,TTS)系統不同的是,Deep Voice 1是實時運行的,能在需要播放語音時非常快速地合成音頻,因此適用於媒體或對話界面之類的交互應用。通過訓練能夠從大量數據和簡單特徵學習的深度神經網路,我們創建了一個非常靈活而且高質量的實時語音合成系統。

今天,我們很高興地宣布推出 Deep Voice 2,這是 Deep Voice 系統的第二代版本。短短三個月時間,我們已經將第一代系統只能生成20小時語音,只有一種聲音,擴大到數百小時語音,並且可以擁有數百種聲音。Deep Voice 2能夠從數百種聲音學習,並且能夠完美地模仿這些聲音。與傳統的這類系統不同,傳統的系統需要使用同一個說話人的數十小時的語音來訓練,但 Deep Voice 2隻需每個說話人不到半小時的語音數據,就可以學會數百種獨特的聲音,同時擁有高音質。

Deep Voice 2 通過尋找不同聲音之間的共同特徵來學習語音。具體來說,每個聲音對應一個單個的向量,即總結了如何模仿目標聲音來生成語音的約50個數字。與以前的 TTS 系統都不同,Deep Voice 2 是從頭開始學習這些特徵,不需要任何關於這些聲音的區別的指導。

音頻片段試聽地址:http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/

論文:Deep Voice 2: Multi-Speaker Neural Text-to-Speech

百度發布升級版 Deep Voice 2,神經網路實時生成,完美模仿數百種聲音(論文下載)

有關 Deep Voice 2 的更多信息,請閱讀我們的論文。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

CPU和GPU雙低效,摩爾定律之後一萬倍——寫於TPU版AlphaGo重出江湖之際
柯潔中盤再敗!谷歌乘AlphaGo之勢強推TPU,與英偉達必有一戰
亞馬遜 AI 正在吞噬這個世界:在賺錢的同時「被迫」升級自己的技術基礎設施

TAG:新智元 |

您可能感興趣

DeepMind 最新Science論文:生成查詢網路GQN
DeepMind發布新演算法:生成查詢網路GQN,可將2D照片渲染成3D模型
CVPR2018 | 海康、UCLA、北理聯合提出3D DescriptorNet:可按條件生成3D形狀,克服模式崩潰
自動「腦補」3D環境!DeepMind最新Science論文生成查詢網路GQN
KDD 2018 Research Track 最佳學生論文詳解:流行音樂的旋律與編麴生成
海康、UCLA、北理聯合提出3D DescriptorNet:可按條件生成3D形狀,克服模式崩潰
學界 | 史上最強GAN圖像生成器,Inception分數提高兩倍
「Science重磅」DeepMind生成查詢網路GQN,無監督學習展現3D場景
OpenAI「假新聞」生成器GPT-2的最簡Python實現
史上最強GAN圖像生成器,Inception分數提高兩倍
DeepMind:詳解生成式對抗網路
GAN如此簡單的PyTorch實現,一張臉生成72種表情(附代碼)
超越BigGAN,DeepMind提出「史上最強非GAN生成器」VQ-VAE-2
4 種基於 Markdown 的幻燈片生成器
Additive Works推出用於生成3D列印支撐的新Amphyon模塊
「史上最強GAN圖像生成器」BigGAN的demo出了!
Ian Goodfellow:生成對抗網路 GAN 就是強化學習(超全資料)
Swagger生成了幾百兆的文檔
SpringMVC,Spring,Hibernate框架自動生成器
用 Pandoc 生成一篇調研論文