李飛飛團隊造出「窺視未來」新AI：去哪幹啥一起猜，準確率壓倒老前輩

科技 02-14

曉查乾明發自凹非寺

量子位報道 | 公眾號 QbitAI

道路千萬條，你走哪一條？

AI知道。

不僅知道，還能預測出你要幹什麼。

這種全面「窺視未來」的能力，出自李飛飛團隊的最新研究。

我們來（假裝）看一段街頭小視頻。

一個人，從車後繞過來……

畫面定格，引來保安終極三問：他是誰？要去哪？幹什麼？

當然是繼續走向車門旁邊，伸手開門。

AI回答正確。（「是誰」超綱了，由其他AI負責）

提高一點難度，多拍幾個人試試：

李飛飛團隊的新AI還是能答對。系好安全帶，發車~

這項研究，由卡耐基梅隆大學（CMU）、Google AI和斯坦福大學共同完成。

他們運用一個端到端的多任務學習系統，從畫面中識別人類行為和TA與周圍環境的互動情況，然後根據這些信息，預測出這名行人未來的路徑和行為。

無論是預知的範圍還是準確率，都比以往的研究更強。

比一比

在此之前，「窺視未來」的研究也不少，不過都只是預測人接下來的行走路徑，無法預測他們幹什麼。

比如2018年李飛飛夫婦團隊發表在CVPR上的Social GAN，代表了當時最先進的水平，卻也只能預測「要去哪兒」。

而這項最新的研究，不僅預測了人的路徑，還預測出了這些人的活動。

論文中說，這是首次同時預測人未來路徑和活動的研究。

如果你仔細觀察上圖的藍色預測軌跡，還會發現：新研究的軌跡預測能力也比以前更強了。

當然，這些是主觀定性的感受，放到定量的分析中，它對路徑預測的誤差平均下來也是最小的。

上圖是各種演算法在五個場景人物路徑預測數據上的表現。

為了充分證明模型的性能，分成了兩類，一是對單一模型結果的比較（Single Model），一是比較20個模型輸出結果最優情況（20 Outputs）。

這五個場景來自兩個公開的數據集。

一是ETH數據集，包括ETH（大學外部）和HOTEL（公共汽車站），二是UCY數據集，包括UNIV（大學）、ZARA1（購物街）和ZARA2（購物街）。

圖表中的數據，表示人物接下來路徑中12個點的預測誤差，「/」左側數據代表平均位移誤差，右側數據代表最終位移誤差，數據越小越好。

各個場景平均來看（AVG），這項最新研究單一模型的平均誤差比其他模型要少0.2，最終誤差少0.4。20個模型輸出結果最優情況中，平均誤差和最終誤差也都少了0.1左右。

一個演算法，既能預測軌跡，又能預測行為，誤差還比其他方法低。那麼問題來了——

怎麼做到的？

預測運動軌跡這件事，和預測行為本來就是相輔相成的。

人類走路是以特定目的為導向，了解一個人的目的，有助於推測他要去哪。

預測模型的神經網路架構。

既然要同步預測運動軌跡和行為，就不能像以往那些研究一樣，把人簡化成一個點了。

這個神經網路，總共包含4部分：

人物行為模塊、人物交互模塊、軌跡生成器、活動預測

其中前兩個模塊是圖像識別的部分，分別負責識別場景中每個人的動作和相互關係。

獲得的信息交給LSTM編碼器，壓縮成一個「視覺特徵張量」Q，交給剩下兩部分生成軌跡和活動的預測結果。

另外，活動預測模塊還能對活動即將發生的位置進行預測，彌補軌跡生成器的誤差。

這四個模塊的功能和工作原理，具體來說是這樣的：

1、人物行為模塊

這個模塊負責對場景中每個人的圖像信息進行編碼，除了標記人的軌跡點以外，還要對身體活動進行建模。

為了對人在場景中的變化進行建模，這裡用一個預訓練的帶有「RoAlign」的物體檢測模型，來提取每個人邊界框的固定尺寸CNN特徵。

除了場景以外，人物行為模塊還需要獲取肢體活動的信息，本文使用了一個MSCOCO數據集上訓練的檢測模型，來提取人體關鍵點信息。

以上兩個部分分別輸入LSTM編碼器，獲得場景和肢體動作的特徵表示。

2、人物交互模塊

這個模塊負責查看人與周圍環境的交互，包含人與場景、人與對象的交互。

其中人與場景的交互是為了對人附近的場景進行編碼。

首先使用預訓練的場景分割模型導出每一幀的像素級場景語義分類，劃分出場景中的道路、人行道等部分。

然後選取適當的尺寸大小來確定模型需要識別的環境區域。例如把數值設定為3，表示選取人周圍3×3大小的範圍作為觀察區域。

將以上不同時刻獲取的信息輸入LSTM編碼器，最終獲得了人與場景關係的特徵。

與前人的研究不同，「人與對象的交互」模塊可以對場景中所有對象與人的幾何關係和類型進行建模，並根據幾何距離來計算人與其他對象的關係，而不僅僅只關注與周圍近鄰的關係。

但是人的軌跡更容易受到近距離物體或人的影響，文中使用對數函數作為權重，來反映不同距離人或物體對軌跡的影響。實際效果也證明了這種編碼方式是有效的。

下一步，將某個時刻的幾何特徵和對象類型特徵嵌入到多維向量中，並將嵌入的特徵饋送到LSTM編碼器中。

由人與其他人、汽車之間的距離，可以獲得人與物體的關係特徵；由人是靠近人行道還是草地，可以判定人物場景特徵。

將這些信息提供給模型，讓它能學習到人類的活動方式。比如一個人在人行道上比在草地上走得更頻繁，並且會傾向於避免撞到汽車。

3、軌跡生成器

上面兩個模塊提取的4種特徵，包括場景、肢體動作、人與場景和人與對象關係等信息，由單獨的LSTM編碼器壓縮成視覺特徵張量Q。

接下來使用LSTM解碼器直接解碼，在實際平面坐標上預測未來的軌跡。

這項研究用了一種焦點注意力的機制。它起初源於多模態推理，用於多張圖片的視覺問答。其關鍵之處是將多個特徵投射到相關空間中，在這個空間中，辨別特徵更容易被這種注意力機制捕獲。

焦點注意力對不同特徵的關係進行建模，並把它們匯總到一個低維向量中。

4、活動預測

活動預測模塊有兩個任務，確定活動發生的地點和活動的類型。

相應地，它包含兩個部分，曼哈頓網格的活動位置預測和活動標籤預測。

活動標籤預測的作用是猜出畫面中的人最後的目的是什麼，預測未來某個瞬間的活動。活動標籤在某一時刻並不限於一種，比如一個人可以同時走路和攜帶物品。

而活動位置預測的功能，是為軌跡生成器糾錯。

軌跡生成器有個缺點，預測位置的誤差會隨著時間累計而增大，最終目的地會偏離實際位置。

為了克服這個缺點，就有了「活動位置預測」這項輔助任務。它確定人的最終目的地，以彌補軌跡生成器和活動標籤預測之間的偏差。包括位置分類和位置回歸兩個任務。

位置分類的目的是預測最終位置坐標所在的網格塊。位置回歸的目標是預測網格塊中心（圖中的藍點）與最終位置坐標（紅色箭頭的末端）的偏差。

添加回歸任務的原因是，它能提供比網格區域更精確的位置。

還有很長的路要走

雖然模型設計中，考慮的非常周到，但面對現實情況時，仍舊會出現種種失敗案例：

左邊，預測人物要打開後備箱，但實際上是他只是站著。

右邊，預測任務將會向右前方前進，提著一些東西，但實際上他一直騎行，並向左前方拐彎，全然不顧前方即將到來的車輛。

從這些情況來看，模型應對一些場景還有些吃力。

此外，這個AI目前僅適用於美國國家標準局提供預定義的30個人類活動，例如關門、開門、關後備箱、開後備箱、提東西、打招呼、推、拉、騎自行車、跑、步行等等。

研究道路千萬條，這是第一條。

隨著研究的成熟，在自動化社會中，人類這一最不穩定的變數也就將會在控制之中。

未來，自動駕駛的汽車，可能再也不用擔心橫衝直撞的行人了，機器人也會與人類「和諧相處」了，畢竟人類想要幹什麼，系統都了如指掌。

如果你對這個領域感興趣，還請收好這篇論文的傳送門：

Peeking into the Future：Predicting Future Person Activities and Locations in Video

https://arxiv.org/abs/1902.03748

—完—

加入社群

量子位現開放「AI 行業」社群，面向AI行業相關從業者，技術、產品等人員，根據所在行業可選擇相應行業社群，在量子位公眾號（QbitAI）對話界面回復關鍵詞「行業群」，獲取入群方式。行業群會有審核，敬請諒解。

此外，量子位AI社群正在招募，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式。

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡就點「好看」吧 !

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※CV元老、霍金弟子：三大瓶頸扼住深度學習咽喉，破局要靠這兩招

TAG:量子位 |