百度發布升級版 Deep Voice 2，神經網路實時生成，完美模仿數百種聲音（論文下載）

新聞 05-27

新智元報道

百度發布升級版 Deep Voice 2，神經網路實時生成，完美模仿數百種聲音（論文下載）

百度在官方博客介紹了升級版 Deep Voice 2：

今年2月，百度矽谷 AI Lab 發布了 Deep Voice 1，這是一個完全使用深度神經網路生成人類語音的系統。與其他使用神經網路的文本到語音（text-to-speech，TTS）系統不同的是，Deep Voice 1是實時運行的，能在需要播放語音時非常快速地合成音頻，因此適用於媒體或對話界面之類的交互應用。通過訓練能夠從大量數據和簡單特徵學習的深度神經網路，我們創建了一個非常靈活而且高質量的實時語音合成系統。

今天，我們很高興地宣布推出 Deep Voice 2，這是 Deep Voice 系統的第二代版本。短短三個月時間，我們已經將第一代系統只能生成20小時語音，只有一種聲音，擴大到數百小時語音，並且可以擁有數百種聲音。Deep Voice 2能夠從數百種聲音學習，並且能夠完美地模仿這些聲音。與傳統的這類系統不同，傳統的系統需要使用同一個說話人的數十小時的語音來訓練，但 Deep Voice 2隻需每個說話人不到半小時的語音數據，就可以學會數百種獨特的聲音，同時擁有高音質。

Deep Voice 2 通過尋找不同聲音之間的共同特徵來學習語音。具體來說，每個聲音對應一個單個的向量，即總結了如何模仿目標聲音來生成語音的約50個數字。與以前的 TTS 系統都不同，Deep Voice 2 是從頭開始學習這些特徵，不需要任何關於這些聲音的區別的指導。

音頻片段試聽地址：http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/

論文：Deep Voice 2: Multi-Speaker Neural Text-to-Speech

百度發布升級版 Deep Voice 2，神經網路實時生成，完美模仿數百種聲音（論文下載）

有關 Deep Voice 2 的更多信息，請閱讀我們的論文。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※CPU和GPU雙低效，摩爾定律之後一萬倍——寫於TPU版AlphaGo重出江湖之際
※柯潔中盤再敗！谷歌乘AlphaGo之勢強推TPU，與英偉達必有一戰
※亞馬遜 AI 正在吞噬這個世界：在賺錢的同時「被迫」升級自己的技術基礎設施

TAG:新智元 |

您可能感興趣