媽耶,擺離線器音,二次宅的歌姬女友徹底活了!
二次宅們,你們的虛擬歌姬女友/偶像可以真正出道了。
最近,一家日本公司展示了他們在虛擬歌姬上使用的新開發語音合成技術,效果驚艷,幾乎聽不出虛擬歌姬歌聲中那「面癱」式的機械音,現在的歌聲有起承轉合,有氣息聲,更有力度,能讓你在腦海中自然腦補它的表情。
這項語音合成技術目前可以支持日語、中文和英語。先放出兩個技術演示視頻,你感受下每段視頻里舊技術、新技術以及新技術合成後的比對效果。
但這次的技術應該是基於新版的合成引擎,由 CeVIO 的開發方 Techno-Speech 公司與名古屋工業大學國際音聲言語技術研究所共同合作。Techno-Speech 在官方新聞稿中稱,通過深度學習技術學習特定歌唱者的聲質、語癖、演唱風格,並進行合成使之可以演唱任意的歌詞和樂譜,只需歌唱者進行約 2 個小時的演唱就可以獲取數據。
雲知聲 AI labs 研發總監告訴筆者,上述音頻中舊的語音樣例應是傳統參數合成技術,缺點是合成聲音的質量低,機械音較明顯。而新語音樣例藉助深度學習技術,使得參數建模精度有明顯提升,同時,可能使用最新的 WaveNet 聲碼器,使得合成音質有明顯的提升。
另外,與合成自然說話的聲音相比,合成歌聲的技術要求是不是更高?
上述語音合成專家表示,兩者都是數據驅動,但歌唱合成的韻律變化性反而沒有自然說話時變化多端,這對數據量的要求也相應要小。歌唱合成需要很精準的韻律恢復,輸入的是樂譜,而樂譜中已有很明確的韻律描述,比如某個字應該發多長音、發什麼調,都可以通過規則計算出來,並根據結果對合成語音進行調整,從而不會有走調現象。反之,如果韻律恢復不準確,就會有明顯走調現象。
至於新合成技術更詳細的研究成果,Techno-Speech 公司將在 2019 年 3 月的日本聲學學會春季會議上進行公布。Techno-Speech 公司還稱,屆時虛擬歌姬的歌唱水平會有飛躍性的提升。此外,該技術可能的應用還包括以下八個方面:
- 藝術家歌聲的復現(包括死者的聲音)
- 用於音樂製作和遊戲開發
- 虛擬 YouTubers 的視頻流/直播活動
- 虛擬演員的後期錄製系統
- AI 或語音對話系統的發聲模塊
- 為外語/歌唱教育生成靈活的參考語音
- 用於 ALS 或喉癌患者的語音設備
- 護理設施的數字標牌
從作詞、作曲到演唱,AI 技術帶來的能量毋庸置疑。
也許你還記得去年 9 月底微軟小冰 diss 傳統虛擬歌姬的事,當時前者高調宣稱後者的技術過時,虛擬歌姬的調教技巧將不再具有價值,這引起了 V 家粉絲的集體抵制並迫使小冰道歉。
雖然這是營銷層面的問題,但在技術上,新舊技術並不完全割裂,而是相互融合,深度技術的使用可以節省調教師的很多時間。或許,我們也會很快看到初音未來、洛天姬等虛擬歌姬靠 AI 技術迎來突破。
上個月,一位日本 35 歲青年與虛擬女友初音未來舉辦了婚禮,結婚理由是被 MIKU 的歌聲治癒,遇到 MIKU 隨即墜入「愛河」,十三年來不曾變心。
要是其他虛擬歌姬都有了現在這樣細膩的歌聲,二次宅們不更瘋狂?有點不敢想。
本文經授權轉自AI科技大本營。


TAG:CSDN |