谷歌Tacotron進展：使用文字合成的語音更加自然

最新 03-30

AiTechYun

編輯：yuxiangyu

Google研究所一直在探索讓機器合成語音更加自然的方法。Machine Perception、Google Brain和 TTS Research近日在博客中宣布，他們找到了讓語音更具表現力的方法。以下為博客的原文翻譯。

在谷歌，我們最近在使用神經網路進行TTS（文字轉語音）的研究中進展很快，我們為此感到欣喜。特別是，我們去年宣布的Tacotron系統等端到端架構，它們既可以簡化語音構建管道，也可以產生聽起來很自然的講話聲。這種進步未來會幫助我們建立更好的人機界面，如會話助理，有聲讀物的敘述，新聞閱讀器或語音設計軟體。然而，要提供真的像人一樣的聲音，TTS系統必須學會模仿韻律（prosody），演講富有表現力的各種因素的集合，如語調，重讀和節奏。包括Tacotron在內的大多數當前端到端系統都沒有明確地對此建模，這意味著它們無法精確控制生成的語音應該如何發音。這可能會使說話聲音單調，即使模型在非常富有表現力的數據集（如有聲讀物，這種數據集包含的聲音，往往隨演講者演講內容含義而變化）上訓練也無濟於事。如今，我們很高興與大家分享解決這些問題的兩篇新論文。

我們的第一篇論文「 Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron 」引入了韻律嵌入（prosody embedding）的概念。我們在Tacotron架構中增加了從人類語音片段（參考音頻）計算低維嵌入的韻律編碼器。

圖的下半部分是原始的Tacotron的seq2seq模型。

這種嵌入捕捉音頻的特徵，這些特徵獨立於語音信息和獨特的說話者特徵，他們包括重讀，語調和語速。在推理時，我們可以使用這種嵌入來執行韻律的遷移，以生成完全不同的演講者的聲音來產生話語，並且在此展現參考音頻的韻律。

嵌入也可以將時序幾乎一致的韻律從一個短語遷移到稍微不同的短語。當然，只有當參考短語和目標短語的長度和結構相似時，這個技術的效果才最好。

令人激動的是，即使當參考音頻並不來自Tacotron訓練數據中的說話者時，我們也會觀察到韻律傳遞。

這是一個很有前景的研究結果，它為語音交互設計者提供了一種使用他們自己的語音來定製語音合成的方法。你可以在下方鏈接中找到論文中完整的音頻演示集。

音頻：https://google.github.io/tacotron/publications/end_to_end_prosody_transfer/

儘管這種方法可以高保真的遷移韻律，但這種嵌入並不能完全解析參考音頻片段內容的韻律。（這解釋了為什麼它們只能講韻律最好地遷移到具有相似結構和長度的短語）。此外，它們需要在推斷時提供參考音頻的片段。那麼我們自然會有這樣的疑問：我們能否建立一種能緩解這些問題的富有表現力的演講模型來？

在我們的第二篇論文，「Style Tokens: Unsupervised Style Modeling, Control and Transfer in

End-to-End Speech Synthesis 「中，我們就是這麼做的。基於我們第一篇論文的架構，我們提出了一種新的無監督方法來建模演講潛在的因素。這種模式的關鍵在於，它不再學習時序一致的韻律元素，而是學習可以通過任意不同的短語轉移的更高級的說話風格模式。

這個模型的工作原理是給Tacotron增加一個額外的注意機制，強制它將任何語音片段的韻律嵌入表示為一組固定的基於嵌入的線性組合。我們稱這些嵌入稱為全局風格符號（Global Style Tokens，GST），它用來發現他們在演講者的風格中學習了與文本無關的變化（柔和，高亢，激烈等），而不需要明確的樣式標籤。

GST模型架構。韻律嵌入被分解為「風格符號」，以實現無監督的風格控制和遷移。

在推理時，我們可以選擇或修改符號（tokens）的組合權重，使我們能夠強制Tacotron使用特定的講話風格，而無需參考音頻片段。例如，使用GST，我們可以使不同長度的句子聽起來更「活潑」，「憤怒」，「悲痛」等等。

GST的獨立於文本的特性使它們成為風格遷移的理想選擇，它採用以特定風格說出的參考音頻剪輯，並將其風格轉移到我們選擇的任何目標短語。為此，我們首先運行推理來預測我們想要模仿的話語的GST組合權重。然後，我們可以將這些組合權重提供給模型，以相同風格合成完全不同的短語，即使短語的長度和結構差異很大。

最後，我們的論文表明，GST不可以建模的不僅僅是說話風格。當它受到來自未標記的說話者的嘈雜音頻（來自YouTube）的訓練時，啟用了GST的Tacotron學會了用單獨的符號表示雜訊源和不同的說話者。也就是說，通過選擇我們用於推理的GST，我們可以合成無背景雜訊的語音，或者合成一個數據集中特定的沒有標記的說話者的聲音。這為高度可擴展並具有魯棒性的語音合成開闢了道路

我們對這兩項研究主體所帶來的應用潛力和前景感到興奮。同時，也有一些新的重要研究問題亟待解決。我們希望擴展第一篇論文的技巧，以支持在目標說話者自然音高範圍內進行韻律遷移。我們還希望開發一種從上下文自動選擇適當韻律或說話風格的技術。例如，將自然語言理解與TTS進行集成。最後，雖然我們的第一篇論文提出了一套初步的客觀和主觀的韻律遷移度指標，但我們希望進一步完善它們，以建立公認的韻律評估方法。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AiTechYun 的精彩文章:

※創建深度學習數據平台時，你需要考慮的五個因素

TAG:AiTechYun |