媽耶，擺離線器音，二次宅的歌姬女友徹底活了！

知識 01-03

二次宅們，你們的虛擬歌姬女友/偶像可以真正出道了。

最近，一家日本公司展示了他們在虛擬歌姬上使用的新開發語音合成技術，效果驚艷，幾乎聽不出虛擬歌姬歌聲中那「面癱」式的機械音，現在的歌聲有起承轉合，有氣息聲，更有力度，能讓你在腦海中自然腦補它的表情。

這項語音合成技術目前可以支持日語、中文和英語。先放出兩個技術演示視頻，你感受下每段視頻里舊技術、新技術以及新技術合成後的比對效果。

但這次的技術應該是基於新版的合成引擎，由 CeVIO 的開發方 Techno-Speech 公司與名古屋工業大學國際音聲言語技術研究所共同合作。Techno-Speech 在官方新聞稿中稱，通過深度學習技術學習特定歌唱者的聲質、語癖、演唱風格，並進行合成使之可以演唱任意的歌詞和樂譜，只需歌唱者進行約 2 個小時的演唱就可以獲取數據。

雲知聲 AI labs 研發總監告訴筆者，上述音頻中舊的語音樣例應是傳統參數合成技術，缺點是合成聲音的質量低，機械音較明顯。而新語音樣例藉助深度學習技術，使得參數建模精度有明顯提升，同時，可能使用最新的 WaveNet 聲碼器，使得合成音質有明顯的提升。

另外，與合成自然說話的聲音相比，合成歌聲的技術要求是不是更高？

上述語音合成專家表示，兩者都是數據驅動，但歌唱合成的韻律變化性反而沒有自然說話時變化多端，這對數據量的要求也相應要小。歌唱合成需要很精準的韻律恢復，輸入的是樂譜，而樂譜中已有很明確的韻律描述，比如某個字應該發多長音、發什麼調，都可以通過規則計算出來，並根據結果對合成語音進行調整，從而不會有走調現象。反之，如果韻律恢復不準確，就會有明顯走調現象。

至於新合成技術更詳細的研究成果，Techno-Speech 公司將在 2019 年 3 月的日本聲學學會春季會議上進行公布。Techno-Speech 公司還稱，屆時虛擬歌姬的歌唱水平會有飛躍性的提升。此外，該技術可能的應用還包括以下八個方面：