語音合成到了跳變點？深度神經網路變革TTS最新研究匯總

科技 04-03

機器之心原創

作者：李亞洲

近年來，隨著深度神經網路的應用，計算機理解自然語音能力有了徹底革新，例如深度神經網路在語音識別、機器翻譯中的應用。但是，使用計算機生成語音（語音合成（speech synthesis）或文本轉語音（TTS）），仍在很大程度上基於所謂的拼接 TTS（concatenative TTS）。而這種傳統的方法所合成語音的自然度、舒適度都有很大的缺陷。深度神經網路，能否像促進語音識別的發展一樣推進語音合成的進步？這也成為了人工智慧領域研究的課題之一。

2016 年，DeepMind 提出了 WaveNet，在業內引起了極大的關注。WaveNet 可以直接生成原始音頻波形，能夠在文本轉語音和常規的音頻生成上得到出色的結果。但就實際應用而言，它存在的一個問題就是計算量很大，沒辦法直接用到產品上面。

因此在語音合成領域，仍然有很多工作要做。語音合成有兩個主要目標：可理解性（intelligibility）和自然感（naturalness）。可理解性是指合成音頻的清晰度，特別是聽話人能夠在多大程度上提取出原信息。自然感則描述了無法被可理解性直接獲取的信息，比如聽的整體容易程度、全局的風格一致性、地域或語言層面的微妙差異等等。

去年，我們看到了業界將研究熱點聚焦於語音識別，而今年語音合成成為深度學習社區研究的重要領域之一。2017 年剛過去不久，機器之心已經關注到了三篇有關這一課題的研究論文：百度的 Deep Voice、Yoshua Bengio 團隊提出的 Char2Wav 以及谷歌的 Tacotron。

在介紹今年的最新研究成果之前，我們先來回顧一下 Deep Mind 的 WaveNet。

WaveNet 受啟發於二維的 PixelNet，在這裡它被調整為了一維的。

語音合成到了跳變點？深度神經網路變革TTS最新研究匯總點擊播放 GIF/1K

以上的動畫展示了 WaveNet 的結構。這是一個完全卷積的神經網路，其中的卷積層有不同的膨脹係數（dilation factors），這讓其感受野（receptive field）可在深度（depth）上指數式地增長並可覆蓋數千個時間步驟（timesteps）。

在訓練時間上，其輸入序列是由人類說話者錄製的真實波形。訓練之後，可以對這個網路進行採樣以生成合成話語。在採樣的每一個時間步驟，都會從該網路所計算出的概率分布中取出一個值。然後這個值會被反饋進入輸入，並為下一個步驟生成一個新的預測。我們可以發現，像這樣一次一步地構建樣本就會產生很高的計算成本，這也是我們上面所提到的實際應用中的問題。

另外要提到的一點是，為了使用 WaveNet 將文本轉化為語音，需要識別文本中是什麼。在 DeepMind 這篇論文中，研究人員是通過將文本轉換為一序列的語言和語音特徵（包含了當前音素、音節、詞等方面的信息）做到這一點的。

剛才也提到 WaveNet 在實際應用中所面臨的挑戰，而深度神經網路應用到語音合成上還有很大的提升空間。接下來，介紹一下該領域最新的三篇研究成果。

百度 Deep Voice

2017 年 2 月，百度研究部門提出了深度語音（Deep Voice）系統，該系統是一個完全由深度神經網路構建的高質量文本轉語音系統。

在研究博客中百度研究人員表示，如今建立文本轉語音系統最大的障礙就是音頻合成的速度，而他們的系統已經做到了實時的語音合成，這相比以前的 WaveNet 推理的實現有 400 倍的加速。

作者們表示，Deep Voice 論文的貢獻在於：

Deep Vioce 受啟發於傳統的文本轉語音處理流程，採用了同樣的架構，但它使用神經網路取代了所有組件且使用了更簡單的特徵。這使得該系統更適用於新數據集、語音和沒有任何手動數據注釋或其他特徵調配的領域。

Deep Voice 為真正的端到端語音合成奠定了基礎，這種端到端系統沒有複雜的處理流程，也不依賴於人工調配（hand-engineered）的特徵作為輸入或進行預訓練（pre-training）。

語音合成到了跳變點？深度神經網路變革TTS最新研究匯總

如上圖所示，TTS 包含 5 個模塊：

一個字素轉音素模型；

一個在語音數據集中定位音素邊界的分隔模型；

預測音素序列中每個音素時距（temporal duration）的音素長度模型；

一個基本的頻率模型預測音素是否濁音的；

一個音頻合成模型，結合以上 4 個組件的輸出來合成音頻。

在百度的研究中，研究人員通過相應的神經網路代替經典 TTS 流程中的每一個組件，具體實現讀者可參閱論文。

百度在研究博客中表示，「深度學習變革了包括計算機視覺和語音識別在內的許多領域，我們相信語音合成如今也到了一個跳變點。」

端到端語音合成模型 Char2wav

2 月份，來自印度理工學院坎普爾分校、INRS-EMT、加拿大高等研究院（CIFAR）的研究者在 arXiv 上發布了一篇論文，介紹他們在端到端語音合成上的研究成果 Char2Wav。

在此論文中，作者們提出一種端到端的用於語音合成的模型 Char2Wav。Char2Wav 由兩個組成部分：一個讀取器（reader）和一個神經聲碼器（nerual vocoder）。

讀取器是一個帶有注意（attention）的編碼器-解碼器模型。其中編碼器是一個以文本或音素作為輸入的雙向循環神經網路（RNN），而解碼器則是一個帶有注意的循環神經網路，其會產出聲碼器聲學特徵（vocoder acoustic features）。神經聲碼器是指 SampleRNN 的一種條件式的擴展，其可以根據中間表徵（intermediate representations）生成原始的聲波樣本。

語音合成到了跳變點？深度神經網路變革TTS最新研究匯總

Char2Wav：一個基於注意的循環序列生成器（ARSG/attention-based recurrent sequence generator）是指一種基於一個輸入序列 X 生成一個序列 Y= (y1, . . . , yT ) 的循環神經網路。X 被一個編碼器預處理輸出一個序列 h = (h1, . . . , hL)。在本研究中，輸出 Y 是一個聲學特徵的序列，而 X 則是文本或要被生成的音素序列。此外，該編碼器是一個雙向循環網路。

作者們表示該工作工作受到了 Alex Graves (Graves, 2013; 2015) 研究的很大影響。在一個客座講座中，Graves 展示了一個使用了注意機制的語音合成模型，但 Graves 的研究未已論文的形式發表出來。

此外，與用於語音合成的傳統模型不同，Char2Wav 可以學習直接根據文本生成音頻。這和百度的 Deep Voice 系統一致。

谷歌端到端的文本轉語音合成模型 Tacotron

不就之前，谷歌歌科學家王雨軒（第一作者）等人提出了一種新的端到端語音合成系統 Tacotron，該模型可接收字元的輸入，輸出相應的原始頻譜圖，然後將其提供給 Griffin-Lim 重建演算法直接生成語音。此外作者們表示他們還提出了幾個可以使該序列到序列框架在這個高難度任務上表現良好的關鍵技術。

測試結果上，Tacotron 在美式英語測試里的平均主觀意見評分達到了 3.82 分（總分是 5 分），在自然感（naturalness）方面優於已在生產中應用的參數系統（parametric system）。此外，由於 Tacotron 是在幀（frame）層面上生成語音，所以它比樣本級自回歸（sample-level autoregressive）方式快得多。

語音合成到了跳變點？深度神經網路變革TTS最新研究匯總