業界 | 微軟Azure認知服務：TTS系統音頻合成媲美人類

科技 09-27

選自Microsoft

作者：黃學東

機器之心編譯

參與：

張倩、劉曉坤

微軟的「文本到語音（text-to-speech，TTS）」分析運行系統取得了里程碑式的突破，它可以使用深度神經網路讓計算機合成的聲音酷似人類錄音，達到幾乎無法分辨的地步。這一系統合成的語音擁有與人類類似的神經韻律和吐字發音。神經 TTS 可以在人類與 AI 系統交互時大大減輕聽覺疲勞

。

點開音頻，你能聽出哪個是微軟合成的聲音嗎？

本周，微軟的團隊在佛羅里達州奧蘭多的 Microsoft Ignite 會議上展示了神經網路驅動的「文本到語音」轉換功能。這種功能目前可以通過 Azure 認知服務語音服務進行預覽。

預覽鏈接：https://azure.microsoft.com/en-us/services/cognitive-services/speech-services/

「神經文本到語音」轉換可以讓人與機器人或虛擬助手的互動更加自然、有吸引力。它將電子書等數字文本轉換為有聲書，還可以用於改進車內導航系統。

「文本到語音」轉換取得的進展是微軟團隊在過去兩年中取得的突破之一，他們的貢獻還包括將會話語音識別和機器翻譯提升到可以與人類媲美的程度。

微軟的「文本到語音」系統使用了深度神經網路，來克服傳統「文本到語音」系統在匹配口語的重讀和語調（稱為韻律結構），以及將語音單元合成為計算機音頻方面的局限性。

傳統的「文本到語音」系統將韻律結構分解成由獨立模型控制的語言分析和聲學預測步驟。這將導致合成音頻變得沉悶無趣。微軟的「文本到語音」系統可以同時執行韻律預測和聲音合成，其結果更加流暢自然。

通過使用 Azure 的算力，微軟可以傳送實時的語音流，有助於人與聊天機器人或虛擬助理交流。該功能由 Azure Kubernetes Service 提供服務，保證了很高的可擴展性和可用性，並給予用戶在單個端點使用神經「文本到語音」以及傳統的「文本到語音」服務的能力。

預覽服務目前提供兩個預構建的英文版「文本到語音」的助理——Jessa 和 Guy。微軟很快會加入更多的語言，以及 49 種語言的定製服務（面向希望為特定需求構建品牌聲音的客戶）。

原文鏈接：https://azure.microsoft.com/en-us/blog/microsoft-s-new-neural-text-to-speech-service-helps-machines-speak-like-people/

本文為機器之心編譯，

轉載請聯繫本公眾號獲得授權

。

?------------------------------------------------

加入機器之心（全職記者 / 實習生）：hr@jiqizhixin.com

投稿或尋求報道：

content

@jiqizhixin.com

廣告 & 商務合作：bd@jiqizhixin.com

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章: