Alexa：訓練TTS模型多揚聲器數據比單揚聲器更適合

科技 04-27

【CNMO新聞】隨著自然語言處理系統的性能日益出色，語音轉文字（TTS）系統也正變得愈發高效，但是訓練這些TTS模型的方法有一個缺點，那就是它們相較傳統方法需要更多的數據。亞馬遜Alexa部門科學家的最新研究表明，與單揚聲器相比，用多揚聲器的聲音數據訓練而成的AI TTS系統能夠生成更加自然的語音，並且後者的整體表現更穩定、所需的聲音數據更少。

Alexa

Lachowicz解釋道，神經TTS模型通常由兩部分組成，其中一部分負責將文字轉化為聲譜圖，另一部分為將聲譜圖轉化為聲音信號的語音編碼器。Lachowicz和同事使用七個不同揚聲器的聲音數據訓練這些系統，並用獨熱向量編碼將單個樣本和揚聲器聯繫起來。

在實驗中，70位參與者聆聽了人類朗讀者的錄音和用同一朗讀者的聲音訓練出的兩種TTS模型生成的錄音，結果顯示用多揚聲器TTS模型的表現要優於單揚聲器模型。更重要的是，科學家們沒有觀察到用兩種性別人類朗讀者的語音和單一性別人類朗讀者的語音訓練出的模型間存在自然性方面的統計學差異。

Lachowicz指出多揚聲器模組所需的訓練樣本僅為單揚聲器模組的三分之一，「這項研究讓開發者可以生成定製化程度非常高的語音風格，而無需人類朗讀者花費數天時間錄製樣本。」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 手機中國 的精彩文章:

※暴露療法以毒攻毒 VR技術為多動症治療再添新思路
※紅米7上手評測：這會是一款超乎你預期的百元手機

TAG:手機中國 |

Alexa：訓練TTS模型 多揚聲器數據比單揚聲器更適合

Alexa：訓練TTS模型多揚聲器數據比單揚聲器更適合