當前位置：

首頁 > 新聞 > 谷歌全端到端語音合成系統Tacotron：直接從字元合成語音

谷歌全端到端語音合成系統Tacotron：直接從字元合成語音

新聞 04-01

選自arXiv

作者：王雨軒等

機器之心編譯

參與：李澤南、吳攀

最近，谷歌科學家王雨軒等人提出了一種新的端到端語音合成系統 Tacotron，該模型可接收字元的輸入，輸出相應的原始頻譜圖，然後將其提供給 Griffin-Lim 重建演算法直接生成語音。該論文作者認為這一新思路相比去年 DeepMind 的 WaveNet 以及百度剛剛提出的 DeepVoice 具有架構上的優勢。

現代文本轉語音（TTS）的流程十分複雜（Taylor, 2009）。比如，統計參數 TTS（statistical parametric TTS）通常具有提取各種語言特徵的文本前端、持續時間模型（duration model）、聲學特徵預測模型和基於複雜信號處理的聲碼器（Zen et al., 2009; Agiomyrgiannakis, 2015）。這些部分的設計需要不同領域的知識，需要大量精力來設計。它們還需要分別訓練，這意味著來自每個組件的錯誤可能會複合到一起。現代 TTS 設計的複雜性讓我們在構建新系統時需要大量的工作。

此前，WaveNet（van den Oord et al., 2016）是一種用於生成音頻的強大模型。它對 TTS 來說效果良好，但由於樣本級自回歸採樣的本質（sample-level autoregressive nature），速度較慢。它還需要對來自現有 TTS 前端的語言特徵進行調節，因此不是端到端的：它只取代了聲碼器和聲學模型。另一個最近開發的神經模型是百度提出的 DeepVoice（Arik et al., 2017），它通過相應的神經網路代替經典 TTS 流程中的每一個組件。但其中的每個組件都是獨立訓練出來的，改變系統以端到端形式訓練非常重要。

論文：Tacotron：一個完全端到端的文本轉語音合成模型（Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model）

谷歌全端到端語音合成系統Tacotron：直接從字元合成語音

摘要：

一個文本轉語音的合成系統通常需要多個處理階段，例如文本分析前端、聲學模型和音頻合成模塊。構建這些組件經常需要多種領域的專業知識，而且設計選擇也可能很脆弱。在本論文里，我們提出了 Tacotron——一種端到端的生成式文本轉語音模型，可以直接從字元合成語音。通過配對數據集的訓練，該模型可以完全從隨機初始化從頭開始訓練。我們提出了幾個可以使該序列到序列框架在這個高難度任務上表現良好的關鍵技術。Tacotron 在美式英語測試里的平均主觀意見評分達到了 3.82 分（總分是 5 分），在自然感（naturalness）方面優於已在生產中應用的參數系統（parametric system）。此外，由於 Tacotron 是在幀（frame）層面上生成語音，所以它比樣本級自回歸（sample-level autoregressive）方式快得多。

谷歌全端到端語音合成系統Tacotron：直接從字元合成語音

圖 1：模型架構。該模型接收字元的輸入，輸出相應的原始頻譜圖，然後將其提供給 Griffin-Lim 重建演算法以生成語音

谷歌全端到端語音合成系統Tacotron：直接從字元合成語音

圖 2：CBHG（一維卷積庫+highway 網路+雙向 GRU）模塊，改編自 Lee et al. (2016)

谷歌全端到端語音合成系統Tacotron：直接從字元合成語音

表 1：超參數和網路架構。「conv-k-c-ReLU」表示寬度為 k、有 c 個輸出通道、帶有 ReLU 激活的一維卷積。FC 代表全連接。

谷歌全端到端語音合成系統Tacotron：直接從字元合成語音

圖 3：在測試短語上的注意對齊（attention alignment）。由於使用了 r=5 的輸出規約（output reduction），Tacotron 的解碼器的長度更短。

谷歌全端到端語音合成系統Tacotron：直接從字元合成語音

圖 4：使用和不使用後處理網路的預測譜圖對比

研究人員進行了平均意見得分測試（mean opinion score，MOS）——由測試者對合成語音的自然程度進行 5 分制的李克特量表法（Likert scale score）評分。MOS 的測試者均為母語人群，共使用 100 個事先未展示的短語，每個短語獲得 8 次評分。當計算評分時，只有在測試者佩戴耳機時打出的評分被計算在內。作為對比，研究人員將 Tacotron 與參數式（parametric）系統（基於 LSTM（Zen et al., 2016））和拼接式（concatenative）系統（Gonzalvo et al., 2016）做了比較，後兩者目前均已投入商業應用。測試結果如下表顯示：Tacotron 的 MOS 分數為 3.82，優於參數系統。由於參照基準已經非常強大，以及 Griffin-Lim 合成的引入，這一新方法具有非常好的前景。

谷歌全端到端語音合成系統Tacotron：直接從字元合成語音

谷歌全端到端語音合成系統Tacotron：直接從字元合成語音

表2：意見得分測試結果

項目 GitHub：https://github.com/google/tacotron

語音合成音頻試聽：「Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model」

https://google.github.io/tacotron/

谷歌全端到端語音合成系統Tacotron：直接從字元合成語音

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※資源｜價值迭代網路的PyTorch實現與Visdom可視化
※紐約客特稿｜把癌症診斷交給機器，醫療服務會更好嗎
※用自然語言教育AI：百度演算法發展出zero-shot學習能力
※從演算法平台到機器視覺和語音識別，優必選全面布局人工智慧
※資源 | LibRec：領先的推薦系統開源庫

TAG:機器之心 |

您可能感興趣

※百度人工智慧實驗室發布語音合成系統Deep Voice
※微軟與亞馬遜達成合作，跨平台整合語音助手Alexa和Cortana
※v-commerce時代到來六成智能音箱用戶已使用語音購物
※百度推出端到端的大規模語音識別系統Deep Speaker
※宜家智能電燈接入Google Home等設備：可通過語音下達命令
※宜家的廉價智能燈泡接入 Siri、Alexa和Google Home，支持語音控制
※亞馬遜攜手微軟整合語音助手 Alxea與Cortana成一家
※Google Home智能音箱推出語音通話功能
※百度實時語音轉換技術 DeepVocie；谷歌 Python Fire 等
※職場社交平台領英（LinkedIn）集成到三星Bixby智能語音助手中
※智能語音進入戰國時代，Facebook正式入局AI語音助手
※Google Home音箱更新：支持語音識別/打電話
※Google Assistant 簡史，語音助手已是谷歌一個人的賽跑
※谷歌語音助手或即將登陸到Chromebook
※百度端到端大規模語音識別系統 Deep Speaker，箭在弦上即將發布
※Google 谷歌 Pixel XL智能手機語音通話測評報告 [Soomal]
※谷歌Chrome OS將刪除OK Google語音搜索功能
※三星推出FaceSense 可用表情和語音操作Gear VR
※驚人的樂視pro3雙攝AI手機語音系統