當前位置:
首頁 > 科技 > 預見未來!李飛飛等提出端到端系統Next預測未來路徑與活動

預見未來!李飛飛等提出端到端系統Next預測未來路徑與活動


選自 

arXiv


作者:

Junwei Liang、Li Fei-Fei 等


機器之心編輯部


破譯視頻中的人類行為以預測其未來路徑/軌跡及活動在許多應用中都非常重要。為此,李飛飛等研究者提出了一種端到端的多任務學習系統,聯合預測行人的未來路徑及活動。實驗表明,該方法在兩個公開基準上達到了未來軌跡預測的當前最佳性能,還可以產生有意義的未來活動預測。

隨著深度學習的發展,現在的系統能夠從視頻中分析出豐富的視覺信息,促進道路事故迴避、智能個人助理等應用的實現。其中一個重要的分析是預測行人的未來路徑,即未來行為路徑/軌跡預測,這個問題在計算機視覺社區中廣受關注。它是視頻理解中的必要一環,因為查看之前的視覺信息來預測未來在很多應用中都是有用的,如自動駕駛汽車、社交感知機器人等。


圖 1:研究目標是聯合預測行人的未來路徑和活動。綠線和黃線表示兩種可能軌跡和可能活動。根據未來活動,行人(右上角)可能走不同的路徑,如黃色路徑「裝載」(loading)和綠色路徑「物品傳遞」(object transfer)。

人類在公共空間中行走通常是有特定目的的,包括進入房間這樣的簡單目的和將東西放入汽車這樣的複雜目的。但是,此類人類意圖在大多數現有研究中是被忽視的。考慮圖 1 的示例,行人(右上角)可能因意圖不同而選擇不同的路徑,如走綠色路徑將東西給另一個人,或者走黃色路徑將東西裝到車裡。本論文受此啟發,著眼於利用視頻中的此類行人意圖聯合建模未來路徑。研究者按照包含 30 種活動的預定義集合來建模意圖,這些活動由 NIST 提供,包括「裝載」、「物品傳遞」等,完整列表詳見表 4。

表 4:對象和活動類別。

該聯合預測模型具備兩大優勢。一,同時學習活動和路徑有助於未來路徑預測。直觀上,人類能夠通過閱讀其他人的肢體語言來預期他們是要過馬路還是繼續沿人行道走。在理解這些行為後,人類可以作出更好的預測。如圖 1 示例,右上行人搬著一個箱子,左下的人在向他揮手。基於常識,我們可能會認為右上行人會選擇綠色路徑。二,該聯合模型不僅提升了對未來路徑的理解,還促進了對未來活動的理解,因其考慮了視頻中的豐富語義語境。這提升了自動視頻分析在公益應用中的能力,如實時事故提醒、自動駕駛汽車和智能機器人助理。它還可用於一些安全應用,如預測十字路口的行人移動或讓道路機器人幫助人類將物品運送裝載到汽車後備箱。注意,該技術聚焦於預測未來幾秒內的活動和路徑,不適用於非常規活動。

研究者提出了一個多任務學習模型 Next,它具備一個預測模塊,可同時學習未來路徑和未來活動。由於預測未來活動很難,研究者引入了兩項新技術。一,與大部分現有研究將行人過度簡化為空間中一個點不同,該研究通過豐富的語義特徵來編碼行人,如視覺外觀、身體活動和與周圍環境的交互。二,為了促進訓練,研究者引入了兩個輔助任務用於未來活動預測:活動標籤分類和活動位置預測。在後一個任務中,研究者設計了名為 Manhattan Grid 的離散網格(discretized grid),作為系統的位置預測目標。實驗表明這些輔助任務可改善未來路徑預測的準確率。

該研究是首個在流視頻中進行聯合路徑和活動預測的研究,且首次展示了此類聯合建模可以顯著改進未來路徑預測。研究者在兩個基準(ETH & UCY [22, 15] 和 ActEV/VIRAT [21, 3])上對該模型進行了驗證。實驗結果表明,該方法優於當前最優的基線模型,在兩個常見基準上達到了已發布研究的最佳結果,且可生成對未來活動的額外預測。總之,該研究有三項貢獻:1)對在視頻中執行未來路徑和活動聯合預測進行了探索性研究,並首次展示了聯合學習的優勢;2)提出了一個多任務學習框架,引入了新技術來解決未來路徑和活動聯合預測的難題;3)提出的模型在兩個公開基準上達到了已發布研究的最佳性能。研究者還進行了模型簡化測試,驗證該研究所提出子模塊的貢獻。

網路架構


圖 2:模型架構概覽。給定行人的行為視頻幀序列,該研究提出的模型可以利用行人行為模塊和行人交互模塊編碼豐富的視覺語義信息形成特徵張量。該研究提出了全新的行人交互模塊,可以同時考慮行人-場景和行人-對象關係,對人的活動和位置進行聯合預測。

圖 2 展示了 Next 模型的整體網路架構。多數現有研究將空間中的人簡化為一個點,但本文中的模型利用兩個模塊編碼與每個人的行為及其與環境交互相關的豐富視覺信息。該模型主要組成部分如下所示:



  • 行人行為模塊:從行人的行為序列中提取視覺信息。



  • 行人交互模塊:著眼於人與周圍環境的交互。



  • 軌跡生成器:藉助帶有焦點注意力(focal attention)的 LSTM 解碼器對編碼後的視覺特徵進行總結,並預測未來軌跡。



  • 活動預測:利用豐富的視覺信息預測行人的未來活動標籤。除此之外,研究者還將場景分成多種尺寸的離散網格(其命名為 Manhattan Grid),以計算分類和回歸,實現穩健的活動位置預測。


圖 3:給定一系列行人幀(左),圖中展示了對應的行人行為模塊。研究者提取了人的外觀和姿勢特徵來建模行人的行為變化。


圖 4:圖中展示了行人交互模塊,包含行人-場景建模和行人-對象建模。對於行人-對象建模,給定行人視頻幀序列(如紅色框所示),研究者提取了每個時間點人與其他對象之間的空間關係。對於行人-場景建模,研究者將人周圍的場景語義特徵彙集到編碼器中。


圖 5:在多尺度 Manhattan 網格上通過分類與回歸進行活動位置預測。


圖 6:該研究提出方法與基線模型之間的對比。黃色線路是觀察到的軌跡,綠色線路是預測階段的真值軌跡。藍色熱圖是預測結果。該研究提出的模型還預測了未來活動(在圖中通過文本形式展示)與人體姿態模板(person pose template)。

論文:Peeking into the Future: Predicting Future Person Activities and Locations in Videos



論文鏈接:https://arxiv.org/abs/1902.03748

摘要

:破譯視頻中的人類行為以預測其未來路徑/軌跡以及接下來的舉動在許多應用中都非常重要。受此想法啟發,本論文主要研究聯合預測行人的未來路徑及活動。我們提出了一種端到端的多任務學習系統,該系統利用人類行為信息及其與環境交互的豐富視覺特徵。為了便於訓練,我們引入了兩項輔助任務,一是預測未來活動,二是預測活動將要發生的位置。實驗結果顯示,我們的方法在兩個公開基準上達到了未來軌跡預測的當前最佳性能。另外,除了路徑以外,我們的方法還可以產生有意義的未來活動預測。該結果提供了首個實驗證據,證明對路徑和活動進行聯合建模有助於未來路徑預測。

本文為機器之心編譯,

轉載請聯繫本公眾號獲得授權



?------------------------------------------------


加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com


投稿或尋求報道:

content

@jiqizhixin.com


廣告 & 商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

Facebook實時人體姿態估計:Dense Pose及其應用展望
盛況堪比iPhone發布會,IBM Think 2019亮點有哪些?

TAG:機器之心 |