facebook：用音樂生成3D動畫

科技 07-16

說到以VR演奏樂器，目前應用市場中已有的VR樂器應用並不罕見。VR樂器的誕生幫助很多對音樂嚮往卻囿於樂器價格和擺放空間的愛好者過上了把手癮、耳癮。

就在上一周，小編提到的關於facebook對手部的精準追蹤，更是助了VR演奏一臂之力，十八般樂器，樣樣不在話下。

這些應用都是以人為演奏者，根據人的動作發出對應的音調聲響。可若是把這個過程反過來又會是怎麼樣的一種情形呢？

最近，facebook又又公布了一篇論文，名叫「音頻到身體動力學」，講的就是如何以3D動畫的形式將一段音頻轉化為演奏時的肢體動作。依據人的動作，發出聲音，我們已經見過許多，但根據聲音，模擬出相應動作，這還是首次。

（可惜動圖發不出聲音ε=(′ο｀*)))）

想要進行這種轉化，就需要知道每個音符所對應的演奏者可能會做出的動作。按照傳統方法，自然是請幾位演奏家到實驗室內，在他們的手指和身體關節處貼上感測器，再讓他們演奏上幾個小時。但這種方法實施起來還是有些麻煩，怕麻煩的研究人員想出了一個更好的點子。

不知道大家還記不記得去年這個時候曾流傳過一個用黑科技合成奧巴馬說話的視頻。華盛頓大學的研究人員分析了14個小時的奧巴馬講話的視頻，判斷奧巴馬在講話時其臉部是如何運動的，如嘴唇、牙齒、面部皺紋以及下巴的活動，再通過神經網路與人工智慧技術根據海量數據掌握了與不同聲音相關聯的嘴型，因此只要隨意放出一段音頻就可以製作奧巴馬講話的視頻。

正是受到了「奧巴馬」的啟發，facebook的研究人員也採用了相似的視頻學習方法。研究人員通過檢測視頻中每一幀中的上半身和手指來處理視頻。每幀上取50個點，其中每隻手佔21個點，上半身佔8個點。接著，分別通過OpenPose、MaskRCNN 和DeepFace三個庫運行視頻，其中OpenPose提供面部，身體和手部關鍵點，MaskRCNN 和DeepFace則為人臉識別演算法。

當然在採集過程中，也是成功與失敗並存。為了採集的數據更精準，研究人員在每段視頻中都選擇一幀作為參考幀。倘若在參考幀附近的連續幀中有與參考幀參數相差較大的幀，例如面部、手部關鍵點不匹配，則自動消除掉那一幀。下圖手部糊在一起的便是失敗幀。

研究人員的目標是學習音頻特徵和身體動作之間的相關性，因此，完成了關鍵點採集，便要構建一個Long-Short-TermMemory（LSTM長短期記憶）網路開始學習音頻特徵和身體骨架標誌之間的相關性了。

這也與「奧巴馬」那個使用的是同款學習網路。研究人員選擇使用具有時間延遲的單向單層LSTM。 xi是特定時間實例i的音頻MFCC特徵，yi是身體關鍵點的PCA係數，m是存儲器（隱藏狀態）。研究人員還添加了一個標記為"fc"的完全連接層，經過試驗發現它可以提高系統學習效率。

最後動畫的生成是基於ARkit實現的。研究人員使用ARkit構建了一個增強現實應用程序，該應用程序可以在手機上實時運行。使用帶有骨骼的3D身體模型，通過將預測點與3D世界坐標對齊來初始化動畫形象。研究人員通過所有幀平均下拉的左右肩點距離計算得出模型的剛性變換數據。然後再分別考慮身體，手臂和手指。對於身體，研發人員創建了一條IK鏈，其中根節點定義為左右臀部之間的平均值，並連接到左肩和右肩的平均值。然後，估計所有幀的平均脊柱長度，並據此相應地縮放動畫模型的脊柱。對於手臂，以手腕為參考點，由前臂長度決定偏移量。對於手指，通過小指的根關節和指針的根關節確定手的旋轉。最後，應用根旋轉偏移來匹配琴與人的姿勢角。

除了鋼琴，還有小提琴的演奏

雖然目前這個應用還僅限於鋼琴與小提琴演奏的轉化，但是相信隨著進一步的開發，將支持更多種樂器演奏的轉化。甚至於將來還有可能發展出除樂器之外其他形式的轉化，比如，放一段音樂，可以Freestyle出一段舞蹈；再比如，根據一段霹靂扒拉的拳打腳踢聲，生成一段3D動畫的打鬥場面。總之，能夠依聲定形還是很有趣的。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AR醬 的精彩文章:

※Magic Leap公布透過MLO的演示視頻，以及其他更多細節
※HTC Vive發布空間音頻SDK，帶來身臨其境的聽感

TAG:AR醬 |