當前位置:
首頁 > 科技 > 阿里公布新語音技術 合成語音與真人發聲的相似度達 97% 以上

阿里公布新語音技術 合成語音與真人發聲的相似度達 97% 以上

阿里公布新語音技術 合成語音與真人發聲的相似度達 97% 以上

7 月 10 日,阿里巴巴發布新一代語音合成技術 KAN-TTS,稱可大幅提高合成語音與真人發聲的相似度,並將語音合成定製成本降低 10 倍以上。該技術由達摩院機器智能實驗室自主研發。阿里方面稱,當前業界商用系統的合成語音與原始音頻錄音的接近程度通常在 85% 到 90% 之間,而基於 KAN-TTS 技術的合成語音可將該數據提高到 97% 以上。

據悉,KAN-TTS 由達摩院機器智能實驗室自主研發,深度融合了目前主流的端到端 TTS 技術和傳統 TTS 技術,從多個方面改進了語音合成。傳統語音合成定製需要 10 小時以上的數據錄製和標註,對錄音人和錄音環境要求很高。從啟動定製到最終交付,項目周期長成本高。

阿里利用 Multi-Speaker Model 與 Speaker-aware Advanced Transfer Learning 相結合的方法,將語音合成定製成本降低 10 倍以上,周期壓縮 3 倍以上。也就是說,用 1 小時有效錄音數據和不到兩個月製作周期,就能完成一次標準 TTS 定製。

此外,這使得普通用戶定製 「AI 聲音」 的門檻更低。只需手機錄音十分鐘,就能獲得與錄製聲音高度相似的合成語音。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 動點科技 的精彩文章:

消息稱滴滴與軟銀就自動駕駛業務進行溝通談判

TAG:動點科技 |