當前位置:
首頁 > 知識 > 最佳學生論文:EPFL&FAIR提出QuaterNet,更好地解決人類動作建模問題

最佳學生論文:EPFL&FAIR提出QuaterNet,更好地解決人類動作建模問題

選自arXiv

作者:Dario Pavllo等

機器之心編譯

參與:王淑婷、張倩、路

英國機器視覺大會(BMVC)2018 於 9 月 3 日到 6 日在英國紐卡斯爾舉行,來自瑞士洛桑聯邦理工學院(EPFL)和 FAIR 的研究者 Dario Pavllo 等人獲得了此次大會的最佳學生論文獎。這篇論文提出了一種基於四元數(quaternion)的循環模型 QuaterNet,用於解決人類運動建模問題。在短期預測方面,QuaterNet 性能優於之前最優的模型。

對人類動作進行建模對於許多應用都很重要,包括動作識別 [12, 34]、動作檢測 [49] 及計算機圖形學 [22] 等。最近,神經網路被用於 3D 骨骼關節部位序列的長 [22, 23] 、短 [14, 37] 期預測。神經方法在其他模式識別任務中非常成功 [5, 20, 29]。人類動作是一種帶有高級內在不確定性的隨機序列過程。給定一個觀察的姿勢序列,未來的豐富姿勢序列與之相似。因此,內在不確定性意味著,即使模型足夠好,在預測未來姿勢的一個長序列時,相隔時間較長的未來預測不一定能夠匹配推斷記錄。因此,相關研究通常將預測任務分為長期預測和短期預測。短期任務通常被稱為預測任務,可以通過距離度量將預測與參考記錄進行比較來定量評估。長期任務通常被稱為生成任務,更難定量評估。在這種情況下,人類評估至關重要。

本研究涉及長期和短期任務,目標是匹配或超越計算機視覺文獻中用於短期預測的最佳方法,以及匹配或超越計算機圖形學文獻中用於長期生成的最佳方法。本著這一目標,作者確定了當前策略的局限性並試圖突破這些局限。本文的貢獻是雙重的。首先,作者提出了一種使用四元數的方法,該四元數帶有循環神經網路。其它參數化(如歐拉角)存在不連續性和奇異性,可能導致梯度爆炸和模型訓練困難。以前的研究試圖通過切換到指數地圖(也稱為軸角表示)來緩解這些問題,結果問題只是得以緩解而沒有完全解決 [17]。其次,作者提出了一個可微損失函數,它對參數化骨骼執行正向運動學,並將關節方位預測和基於位置的損失函數的優點相結合。

實驗結果改進了用於人類 3.6m 基準短期預測的最新角度預測誤差。作者還通過人類判斷,將長期生成質量與計算機圖形學文獻中最近的研究進行了對比。在這項任務中,作者匹配了之前關於運動的工作的質量,同時允許在線生成,並更好地控制藝術家強加的時間和軌跡約束。

代碼和預訓練模型地址:https://github.com/facebookresearch/QuaterNet

論文:QuaterNet: A Quaternion-based Recurrent Model for Human Motion

論文鏈接:https://arxiv.org/pdf/1805.06485.pdf

摘要:使用深度學習來預測或生成 3D 人體姿勢序列是一個活躍的研究領域。之前的研究要麼圍繞關節旋轉,要麼圍繞關節位置。前者的策略在使用歐拉角或參數化的指數映射時,容易沿著運動鏈累積誤差,且它具備不連續性。後者的策略要求重新投影到骨骼約束上,以避免骨骼拉伸和無效配置。本文的研究打破了上述兩個限制。我們的循環網路 QuaterNet 代表四元數的旋轉,我們的損失函數對骨骼執行正向運動,以懲罰絕對位置誤差,而不是角度誤差。就短期預測而言,QuaterNet 從數量上提升了當前最佳水平。就長期生成而言,我們的方法在質量上被判定為與圖形學文獻中的近期神經策略一樣可行。

3.1 模型架構&訓練演算法

圖 1 展示了我們的 pose 網路的高級架構,該網路被我們用於短期預測和長期生成任務。如果將其用於後者,該模型包含附加輸入(即圖中的「Translations」和「Controls」),用於提供藝術控制。該網路將所有關節的旋轉(編碼為單位四元數)和可選輸入作為其輸入,並且在給定 n 幀初始化的情況下,訓練該網路使其可預測骨骼在 k 個時間步上的未來狀態,k 和 n 取決於任務。對於學習,我們使用 Adam 優化器 [27] 將梯度範數修剪至 0.1,並以每個 epoch α = 0.999 對學習率進行指數級衰減。對於高效的批處理,我們從訓練集採樣固定長度的 episode,在有效的起點上進行均勻採樣。我們把 epoch 定義為大小等於序列數目的隨機樣本。

圖 1:QuaterNet 架構。「QMul」代表四元數乘法:如果包括在內,它會迫使模型輸出速度;如果繞過,則模型會發出絕對旋轉。

3.2 旋轉參數化和正向運動損失

圖 2:(a) H3.6m 數據集上的局部角度分布,其中橙色表示 [?π/2, π/2] 的安全範圍,藍色表示可能有問題的範圍(所有角的 7%)。(bc) 四元數的 antipodal 表示問題。(b) 是來自訓練集的真實序列,既不連續,又不清晰。(c) 我們的方法,修正了不連續性,但仍然允許兩個可能的選擇 q 和-q。(d) 訓練集上步伐參數的分布。

4 實驗

4.1 短期預測

表 1:在 Human 3.6M 數據集上,不同動作的短期運動預測的平均角度誤差:簡單基線(頂部)、之前的 RNN 結果(中間部分)、我們模型的結果(底部)。粗體字表示最優結果,下劃線字表示之前的最優結果。

圖 3:在較長時間跨度內對不同模型進行對比。我們對比了全部 15 個動作在 64 個測試序列上的平均角度誤差。(a) Velocity 模型和 orientation 模型的對比,基線為 0-velocity。兩個模型都使用 scheduled sampling 進行訓練。(b) 使用 scheduled sampling 訓練對 velocity 模型的有益影響。

4.2 長期生成

圖 4:使用角度(angle)和使用位置損失進行長期生成訓練的對比結果。(a) 關節方向之間的角距離。(b) 關節位置之間的歐氏距離。優化角度會減少位置損失,而優化位置損失會直接得到較低的誤差和更快的收斂。(c) 角度損失帶來了梯度爆炸。(d) 位置損失使梯度保持平穩。在這種情況下,雜訊僅僅源於 SGD 採樣。

圖 5:左圖:我們的研究與 [23] 的對比。右圖:我們的 pace 網路可對時間、空間進行精準控制。這裡,我們令角色沿著一條有急轉彎的路徑衝刺(急轉彎即圖中的尖峰部分)。角色通過減速、旋轉身體,並提高步頻來預測轉彎。

圖 6:動作生成示例。上:走;下:跑。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

不使用深度學習,進化演算法也能玩Atari遊戲!
千人簽署阻止「殺人機器」承諾,馬斯克、哈薩比斯位列其中

TAG:機器之心 |