浙大研發AudioFace：隨心錄語音就能實時生成3D面部動畫

新聞 06-06

新智元報道

編輯：金磊，鵬飛

【新智元導讀】浙江大學和網易伏羲AI實驗室的研究人員開發出一個端到端的機器學習系統Audio2Face，可以從音頻中單獨生成實時面部動畫，同時考慮到音高和說話風格。

我們都知道動畫里的人物說話聲音都是由後期配音演員合成的。

但即使利用CrazyTalk這樣的軟體，也很難將電腦生成的嘴唇、嘴型等與配音演員進行很好地匹配，尤其是當對話時長在數十甚至數百小時的情況下。

但不要氣餒，動畫師的福音來了——Audio2Face問世！

Audio2Face是一款端到端的機器學習系統，由浙江大學與網易伏羲AI實驗室共同打造。

它可以從音頻中單獨生成實時的面部動畫，更厲害的是，它還能調節音調和說話風格。該成果已經發布至arXiv：

arXiv地址：

https://arxiv.org/pdf/1905.11142.pdf

團隊試圖構建一個系統，既要逼真又要低延遲

「我們的方法完全是基於音軌設計的，沒有任何其他輔助輸入（例如圖像），這就使得當我們試圖從聲音序列中回歸視覺空間的過程將會越來越具有挑戰。」論文共同作者解釋道，「另一個挑戰是面部活動涉及臉部幾何表面上相關區域的多重激活，這使得很難產生逼真且一致的面部變形。」

該團隊試圖構建一個同時滿足「逼真」（生成的動畫必須反映可見語音運動中的說話模式）和低延遲（系統必須能夠進行近乎實時的動畫）要求的系統。他們還嘗試將其推廣，以便可以將生成的動畫重新定位到其他3D角色。

他們的方法包括從原始輸入音頻中提取手工製作的高級聲學特徵，特別是梅爾頻率倒譜係數（MFC），或聲音的短期功率譜的表示。然後深度相機與mocap工具Faceshift一起，捕捉配音演員的面部動作並編製訓練集。

之後研究人員構建了帶有51個參數的3D卡通人臉模型，控制了臉部的不同部位（例如，眉毛，眼睛，嘴唇和下巴）。最後，他們利用上述AI系統將音頻上下文映射到參數，產生唇部和面部動作。

1470個音頻樣本加持，機器學習模型的輸出「相當可以」

通過一個訓練語料庫，其中包含兩個60分鐘、每秒30幀的女性和男性演員逐行閱讀劇本中台詞的視頻，以及每個相應視頻幀的1470個音頻樣本（每幀總共2496個維度）。

團隊報告說，與ground truth相比，機器學習模型的輸出「相當可以」。它設法在測試音頻上重現準確的面部形狀，並且它一直「很好地」重新定位到不同的角色。此外，AI系統平均只需0.68毫秒即可從給定的音頻窗口中提取特徵。

該團隊指出，AI無法跟隨演員的眨眼模式，主要是因為眨眼與言語的相關性非常弱。不過從廣義上講，該框架可能為適應性強、可擴展的音頻到面部動畫技術奠定基礎，這些技術幾乎適用於所有說話人和語言。

「評估結果顯示，我們的方法不僅可以從音頻中產生準確的唇部運動，還可以成功地消除說話人隨時間變化的面部動作，」他們寫道。

參考鏈接：

https://venturebeat.com/2019/05/28/researchers-detail-ai-that-generates-character-animations-from-recorded-speech/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章: