當前位置:
首頁 > 科技 > 阿里公布新語音合成技術,97%接近原始錄音

阿里公布新語音合成技術,97%接近原始錄音

近日,阿里巴巴對外發布了,由達摩院機器智能實驗室自主研發的新一代語音合成技術KAN-TTS。據阿里巴巴介紹,新的語音技術可大幅提高合成語音與真人發聲的相似度,並將語音合成定製成本降低10倍以上。阿里方面還稱,當前業界商用系統的合成語音與原始音頻錄音的接近程度通常在85%到90%之間,而基於KAN-TTS技術的合成語音可將該數據提高到97%以上。

阿里公布新語音合成技術,97%接近原始錄音

打開今日頭條,查看更多圖片

資料顯示,語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術(又稱文語轉換技術)隸屬於語音合成,它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術。語音合成和語音識別技術是實現人機語音通信,建立一個有聽和講能力的口語系統所必需的兩項關鍵技術。使電腦具有類似於人一樣的說話能力,是當今時代信息產業的重要競爭市場。和語音識別相比,語音合成的技術相對說來要成熟一些,並已開始向產業化方向成功邁進。

阿里公布新語音合成技術,97%接近原始錄音

此次推出的KAN-TTS,由達摩院機器智能實驗室自主研發,深度融合了目前主流的端到端TTS技術和傳統TTS技術,從多個方面改進了語音合成。傳統語音合成定製需要10小時以上的數據錄製和標註,對錄音人和錄音環境要求很高。從啟動定製到最終交付,項目周期長成本高。

而現在,阿里利用Multi-Speaker Model與Speaker-aware Advanced Transfer Learning相結合的方法,將語音合成定製成本降低10倍以上,周期壓縮3倍以上。也就是說,用1小時有效錄音數據和不到兩個月製作周期,就能完成一次標準TTS定製。此外,這使得普通用戶定製「AI聲音」的門檻更低,只需手機錄音十分鐘,就能獲得與錄製聲音高度相似的合成語音。

阿里公布新語音合成技術,97%接近原始錄音

在語音合成領域,阿里已經推出了諸如天貓精靈等商用產品。天貓精靈是阿里巴巴人工智慧實驗室開發的第一款智能語音助手,也是其消費級AI產品研發的首批成果。據阿里巴巴A.I. Labs產品與運營總經理杜海濤介紹稱,「過去18個月里,我們完成了110億次的天貓精靈喚醒,回答了用戶100億個問題,並且我們認識了1500萬中國人。過去我們的技能增長了120%,同時我們現在已經覆蓋了市面上70%以上可連接的家庭設備」。在新技術的成功推廣之下,廣大用戶將能通過天貓聽到更富情感、更加人性化的語音服務了。

【本文圖片來自網路】

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 三易生活 的精彩文章:

商湯高管入職馬來西亞國庫控股,國際化加速
小紅書發六周年內部信,月活用戶突破8500萬

TAG:三易生活 |