阿里巴巴語音交互智能團隊：基於線性網路的語音合成說話人自適應

知識 03-17

語音領域的頂會 ICASSP 2018 將於 4 月 15-20 日在加拿大阿爾伯塔卡爾加里市舉行。據機器之心了解，國內科技巨頭阿里巴巴語音交互智能團隊有 5 篇論文被此大會接收。本文對論文《Linear networks based speaker adaptation for speech synthesis》做了編譯介紹。

歡迎大家向機器之心推薦優秀的 ICASSP 2018 相關論文。

論文：Linear networks based speaker adaptation for speech synthesis

原文鏈接：https://arxiv.org/abs/1803.02445

摘要：說話人自適應演算法利用說話人少量語料來建立說話人自適應語音合成系統，該系統能夠合成令人滿意的語音。在本文中，我們提出了基於線性網路的語音合成說話人自適應演算法。該演算法對每個說話人學習特定的線性網路，從而獲得屬於目標說話人的聲學模型。通過該演算法，使用 200 句目標說話人的自適應語料訓練的說話人自適應系統能夠獲得和使用 1000 句訓練的說話人相關係統相近的合成效果。

研究背景

對於一個目標說話人，如果他（她）擁有充足的訓練數據，那麼我們便可以建立一個說話人相關的聲學模型，基於該聲學模型的系統稱之為說話人相關的語音合成系統。利用該系統，我們能夠合成和目標說話人聲音很像的語音。但是，大多數時候，目標說話人沒有充足的數據，這使得合成出來的語音效果不太理想。利用說話人自適應演算法，能夠基於比較有限的數據來獲得較好的語音合成系統，該類演算法節省了大量的錄音、轉錄和檢查工作，使得建立新的聲音的代價變得很小。

本文中，我們提出了基於線性網路（Linear Network, LN）的語音合成說話人自適應演算法。該演算法通過在源說話人聲學模型的層間插入線性網路，然後利用目標說話人的數據來更新該線性網路和神經網路的輸出層，從而能夠獲得屬於目標說話人的聲學模型。另外，一種基於低秩分解（low-rank plus diagonal，LRPD）的模型壓縮演算法被應用於線性網路。實驗發現，當數據量較少的時候，通過 LRPD 來移除一些冗餘的參數，從而能夠使得系統合成的聲音更加穩定。

演算法描述

本文中，源說話人聲學模型是一個基於多任務（multi-task）DNN-BLSTM 的聲學模型，見 Fig. 1 左側。聲學模型的輸入為語音學特徵，輸出為聲學特徵。聲學特徵包括梅爾倒譜係數等。實驗證明，在聲學模型的底層使用深層神經網路（Deep Neural Network，DNN）可以獲得更好的底層特徵，並且收斂速度上相比於不使用 DNN 更快。在輸出層上，不同的聲學特徵使用各自的輸出層，它們僅共享聲學模型的隱層。

基於線性網路的自適應演算法首先被提出於語音識別領域，它的系統結構見 Fig. 1 右側。根據線性網路插入的位置不同，它可以被分為線性輸入網路（Linear Input Network，LIN）、線性隱層網路（Linear Hidden Network，LHN）和線性輸出網路（Linear Output Network，LON）。

實驗

本文提出的演算法，在中文數據集上進行實驗，該數據集包含 3 個說話人，每個說話人有 5000 句話，時長約 5h。數據集中語音的採樣率為 16k，特徵提取中的窗長和窗移分別為 25ms 和 5ms。分別用 A-male、B- female 和 C-female 來命名這三個說話人。本實驗中，源說話人聲學模型訓練過程所使用的句子數為 5000。為了對比不同句子數目下的合成效果，目標說話人的自適應數據集對應的句子數從 50 到 1000 不等。在自適應數據集之外，我們取 200 句話作為開發集，取 20 句話作為測試集（用於主觀打分）。為了分析性別對自適應效果的影響，進行了三對源說話人-目標說話人之間的實驗：女生-女生、男生-女生和女生-男生。另外，使用客觀度量和主觀測聽兩種方式來衡量模型的性能。客觀度量主要包括：Mel-Cepstral Distortion (MCD)、root mean squared error (RMSE) of F0、unvoiced/voiced (U/V) prediction errors 和開發集的 MSE。主觀測聽主要是對系統合成的聲音樣本進行自然度和相似度上的打分——mean opinion score (MOS)。

以女生-女生（C-female – B-female）為例，Fig. 3 顯示了不同自適應句子數目和客觀度量之間的關係曲線圖。其中，SD 表示說話人相關係統，OL 表示只更新源說話人聲學模型輸出層的說話人自適應系統，OL+Full-LN 和 OL+LRPD-LN 分別表示基於 Full-LN 和 LRPD-LN 的說話人自適應系統。根據 Fig. 3，隨著訓練/自適應句子數的增加，所有系統間的客觀度量趨於相近。對比 SD 和另外三個自適應系統，自適應系統的性能在相同句子數目下要更優。另外，OL+LRPD-LN 和 OL+Full-LN 相比於 OL 均出現性能上的跳變（提升），說明只更新輸出層而不對其他層進行更新不能夠得到較好的自適應效果。同時，當自適應句子數較少的時候，OL+Full-LN 在客觀性能上要差於 OL+LRPD-LN，這是因為 OL+Full-LN 引入太多的參數量，出現過擬合問題。反之，在句子數多的時候 OL+Full-LN 在客觀性能上要優於 OL+LRPD-LN，此時 OL+LRPD-LN 由於參數量少，出現欠擬合問題。

Fig. 4 上對比了不同系統間的自然度和相似度。隨著句子數的減少，SD 系統的性能出現急劇下降，OL+LRPD-LN 相比於 SD 和 OL+Full-LN 要更加穩定。與客觀度量一致，在相同句子數下，OL+Full-LN 和 OL+LRPD-LN 在性能上要優於 SD。並且，OL+Full-LN 和 OL+LRPD-LN 在 200 句話的性能和 SD 在 1000 句話時的性能相近。與客觀度量不同，OL+LRPD-LN 在 500 句以下的時候性能上就優於 OL+Full-LN。這是因為過擬合導致合成出來的聲音不穩定（雖然客觀度量更優）聲音的可懂度下降導致的。由此，我們依然可以得到相同的結論：當自適應句子數較少的時候，過擬合使得 OL+Full-LN 的性能變差。

結論

本文中，基於線性網路的說話人自適應演算法被應用於語音合成領域，基於 LRPD 的模型壓縮演算法能夠提高聲音的穩定性。通過三對不同的源說話人-目標說話人的實驗，我們發現，當自適應句子數目非常少的時候，LRPD 能夠提升聲音的穩定性。另外，通過提出的演算法，使用 200 句目標說話人的訓練語料訓練的說話人自適應系統能夠獲得和使用 1000 句訓練的說話人相關係統相近的效果。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※AI創業公司融資新記錄，三大國有銀行共同投資第四範式
※想要實現深度神經網路？一張 Excel 表格就夠了

TAG:機器之心 |