Oculus分享Lipsync工作原理，如何讓虛擬角色唇部說話栩栩如生

科技 08-22

文章相關引用及參考：oculus

這項技術將在最新的Oculus Lipsync Unity集成更新中向開發者開放

（映維網 2018年08月22日）在今年的Facebook開發者大會上，Oculus展示了音頻到面部動畫技術的最新進展。這項功能允許我們通過任何語言的口語來實時驅動面部動畫。Oculus日前正式宣布，這項技術將在最新的Oculus Lipsync Unity集成更新中向開發者開放。

1. Oculus Lipsync的工作原理

Oculus Lipsync是一種Unity集成，用於將虛擬角色的唇部動作同步至語音。它主要是離線或實時分析音頻輸入，然後預測可用於令虛擬角色或非玩家角色（NPC）嘴唇動畫化的一組發音嘴形。視覺音素/視素（visual phoneme/viseme）是嘴唇和面部的姿勢或表達，其對應於特定的語音（音素）。例如在討論讀唇術時，我們常常使用這個術語，其概念類似於音素，並且是具備可理解度的基本視覺單元。在計算機動畫中，我們可以使用視覺音素來製作虛擬角色的動作，令它們看起來像是在說話。

Oculus Lipsync將音頻輸入映射至一個包含15個視覺音素目標的空間：sil，PP，FF，TH，DD，kk，CH，SS，nn，RR，aa，E，ih，oh和ou。視素描述了在發出相應語音時產生的面部表情。例如，視素sil對應於silent/neutral表達；PP對應於在「popcorn（爆米花）」發音的第一個音節；FF是「fish（魚）」的第一個音節，諸如此類。選擇上述目標是為了給出最大範圍的唇部運動，並且支持儘可能多的語言。有關這15個視素及其選擇方式的更多信息，請參閱本文最後的文檔：Viseme MPEG-4 Standard。儘管本文檔包含了視素的參考圖像，但Oculus發現藝術家難以從中複製精確的幾何圖形。為了克服這個問題，Oculus從多個角度製作了一組更高解析度的視素參考圖：Oculus Viseme Reference Images（Oculus視素參考圖像）。

2. Oculus Lipsync的演變

當Oculus第一次發布LipSync時，他們專註於支持Facebook Spaces等應用程序。在這種情況下，它用於生成靜態唇形張開和閉合的粗略動畫。對於這一點，實現方式是使用Lipsync插件來驅動所謂的Texture-Flip風格面部動畫，如上面的機器人動圖所示。這裡每個視素都映射到單個紋理，並且每幀顯示最大活動視素的紋理。最近的社交VR發展（包括2018年初的Spaces更新）都使用了更高保真度，基於混合形狀的面部模型，而這需要更高質量的面部動畫。對於基於混合形狀的模型，其需要對相同拓撲的不同幾何形狀（或混合形狀）進行加權組合，並將它們相加以創建動態形狀輸出。這樣的模型不僅需要預測最大活動的視素，而且要求所有視素的權重，從而能夠流暢地為模型設置動畫，結果如下圖所示。為了實現如此高保真的面部動畫，Oculus的研究團隊採用了一種新穎的方法，將深度學習的進步與人類語音生成的知識結合了起來。

3. 以更高的精度預測視素

最初通過SDK 1.16.0推出的原版Oculus Lipsync採用一個小而淺薄的神經網路來學習一小段語音音頻輸入和音素（構成人類語音的聲音單位）之間的映射。儘管這個模型在英語方面的效果相當好，但它在其他語言方面效果不佳，而且容易受背景噪音的影響。作為研究和產品之間的合作，Oculus投資了更新的機器學習模型，即時間卷積網路（TCN）。對於時間卷積網路，它們已經能夠在其他領域的任務中實現顯著更高的性能和穩定性，如視覺和語言。在內部測試中，這種TCN模型能夠將英語語音的視素準確度提高30％以上，並且在重口音和大量背景噪音方面優於先前的模型。在Speech Processing社區中，它們被稱為聲學模型，並且經常用作語音識別管道的輸入。

下圖描述了一般的TCN架構。這個模型使用過去的low-level音頻特徵數據流來作為輸入，以及在某些情況下（如對於離線應用而言），使用來自「未來」的信息來預測一組視素。可以調整架構的精確參數來優化計算效率和性能，但總體布局屬於原樣。

儘管模型比先前的Lipsync方法複雜得多，但Oculus能夠使用類似於Fast WaveNet Generation Algorithm的緩存技術來非常有效地執行處理。

這項研究源於Facebook Reality Labs的一系列工作（在pyTorch中完成）。研究人員使用ONNX將模型轉換為Caffe2以進行實時處理，並由Oculus進行優化和集成以包含在Oculus Lipsync中。

4. 製作逼真的面部動畫

Oculus表示，這個全新的優化模型使他們意識到需要大量的努力來製作高質量的視素混合形狀，從而驅動富有表現力的虛擬角色面部表情。Oculus的美術和面部姿勢專家共同解決了這個問題，並製作了一套新的視素參考圖像。藉助這些參考圖像，Oculus為虛擬角色，以及為演示幾何創建了新的面部動畫混合形狀，具體可通過這個頁面進行下載。

5. 總結

在這個版本中，Oculus為開發者提供了利用最先進唇形技術來驅動實時虛擬角色和非玩家角色的能力。這是Oculus和Facebook Reality Labs的研究科學家，機器學習工程師，產品管理，圖形藝術家和面部姿勢專家的共同努力。Oculus已經更新了Unity插件和演示內容，目標是令Oculus Lipsync更強大，更具表現力，更易於使用。

資源：Oculus Lipsync 1.28.0 Release Notes（版本說明）

資源：Oculus Lipsync Unity Integration Guide（集成指南）

相關文檔：MPEG 4FBAOverview

文章《Oculus分享Lipsync工作原理，如何讓虛擬角色唇部說話栩栩如生》首發於映維網。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 映維VR 的精彩文章:

※Reallusion推出動捕系統iClone Motion LIVE，可混合不同裝置進行全身動捕
※視天科技獲得首輪千萬元融資主打VR＋區塊鏈的全新玩法

TAG:映維VR |