阿里公布新語音合成技術，97%接近原始錄音

科技 07-11

近日，阿里巴巴對外發布了，由達摩院機器智能實驗室自主研發的新一代語音合成技術KAN-TTS。據阿里巴巴介紹，新的語音技術可大幅提高合成語音與真人發聲的相似度，並將語音合成定製成本降低10倍以上。阿里方面還稱，當前業界商用系統的合成語音與原始音頻錄音的接近程度通常在85%到90%之間，而基於KAN-TTS技術的合成語音可將該數據提高到97%以上。

打開今日頭條，查看更多圖片

資料顯示，語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術（又稱文語轉換技術）隸屬於語音合成，它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術。語音合成和語音識別技術是實現人機語音通信，建立一個有聽和講能力的口語系統所必需的兩項關鍵技術。使電腦具有類似於人一樣的說話能力，是當今時代信息產業的重要競爭市場。和語音識別相比，語音合成的技術相對說來要成熟一些，並已開始向產業化方向成功邁進。

阿里公布新語音合成技術，97%接近原始錄音

此次推出的KAN-TTS，由達摩院機器智能實驗室自主研發，深度融合了目前主流的端到端TTS技術和傳統TTS技術，從多個方面改進了語音合成。傳統語音合成定製需要10小時以上的數據錄製和標註，對錄音人和錄音環境要求很高。從啟動定製到最終交付，項目周期長成本高。

而現在，阿里利用Multi-Speaker Model與Speaker-aware Advanced Transfer Learning相結合的方法，將語音合成定製成本降低10倍以上，周期壓縮3倍以上。也就是說，用1小時有效錄音數據和不到兩個月製作周期，就能完成一次標準TTS定製。此外，這使得普通用戶定製「AI聲音」的門檻更低，只需手機錄音十分鐘，就能獲得與錄製聲音高度相似的合成語音。

阿里公布新語音合成技術，97%接近原始錄音

在語音合成領域，阿里已經推出了諸如天貓精靈等商用產品。天貓精靈是阿里巴巴人工智慧實驗室開發的第一款智能語音助手，也是其消費級AI產品研發的首批成果。據阿里巴巴A.I. Labs產品與運營總經理杜海濤介紹稱，「過去18個月里，我們完成了110億次的天貓精靈喚醒，回答了用戶100億個問題，並且我們認識了1500萬中國人。過去我們的技能增長了120%，同時我們現在已經覆蓋了市面上70%以上可連接的家庭設備」。在新技術的成功推廣之下，廣大用戶將能通過天貓聽到更富情感、更加人性化的語音服務了。

【本文圖片來自網路】

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 三易生活 的精彩文章:

※商湯高管入職馬來西亞國庫控股，國際化加速
※小紅書發六周年內部信，月活用戶突破8500萬

TAG:三易生活 |