當前位置:
首頁 > 科技 > 李飛飛團隊造出「窺視未來」新AI:去哪幹啥一起猜,準確率壓倒老前輩

李飛飛團隊造出「窺視未來」新AI:去哪幹啥一起猜,準確率壓倒老前輩

曉查 乾明 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

道路千萬條,你走哪一條?

AI知道。

不僅知道,還能預測出你要幹什麼。

這種全面「窺視未來」的能力,出自李飛飛團隊的最新研究。

我們來(假裝)看一段街頭小視頻。

一個人,從車後繞過來……

畫面定格,引來保安終極三問:他是誰?要去哪?幹什麼?

當然是繼續走向車門旁邊,伸手開門。

AI回答正確。(「是誰」超綱了,由其他AI負責)

提高一點難度,多拍幾個人試試:

李飛飛團隊的新AI還是能答對。系好安全帶,發車~

這項研究,由卡耐基梅隆大學(CMU)、Google AI和斯坦福大學共同完成。

他們運用一個端到端的多任務學習系統,從畫面中識別人類行為和TA與周圍環境的互動情況,然後根據這些信息,預測出這名行人未來的路徑和行為

無論是預知的範圍還是準確率,都比以往的研究更強。

比一比

在此之前,「窺視未來」的研究也不少,不過都只是預測人接下來的行走路徑,無法預測他們幹什麼。

比如2018年李飛飛夫婦團隊發表在CVPR上的Social GAN,代表了當時最先進的水平,卻也只能預測「要去哪兒」。

而這項最新的研究,不僅預測了人的路徑,還預測出了這些人的活動。

論文中說,這是首次同時預測人未來路徑和活動的研究。

如果你仔細觀察上圖的藍色預測軌跡,還會發現:新研究的軌跡預測能力也比以前更強了。

當然,這些是主觀定性的感受,放到定量的分析中,它對路徑預測的誤差平均下來也是最小的。

上圖是各種演算法在五個場景人物路徑預測數據上的表現。

為了充分證明模型的性能,分成了兩類,一是對單一模型結果的比較(Single Model),一是比較20個模型輸出結果最優情況(20 Outputs)。

這五個場景來自兩個公開的數據集。

一是ETH數據集,包括ETH(大學外部)和HOTEL(公共汽車站),二是UCY數據集,包括UNIV(大學)、ZARA1(購物街)和ZARA2(購物街)。

圖表中的數據,表示人物接下來路徑中12個點的預測誤差,「/」左側數據代表平均位移誤差,右側數據代表最終位移誤差,數據越小越好。

各個場景平均來看(AVG),這項最新研究單一模型的平均誤差比其他模型要少0.2,最終誤差少0.4。20個模型輸出結果最優情況中,平均誤差和最終誤差也都少了0.1左右。

一個演算法,既能預測軌跡,又能預測行為,誤差還比其他方法低。那麼問題來了——

怎麼做到的?

預測運動軌跡這件事,和預測行為本來就是相輔相成的。

人類走路是以特定目的為導向,了解一個人的目的,有助於推測他要去哪。

預測模型的神經網路架構。

既然要同步預測運動軌跡和行為,就不能像以往那些研究一樣,把人簡化成一個點了。

這個神經網路,總共包含4部分:

人物行為模塊人物交互模塊軌跡生成器活動預測

其中前兩個模塊是圖像識別的部分,分別負責識別場景中每個人的動作和相互關係。

獲得的信息交給LSTM編碼器,壓縮成一個「視覺特徵張量」Q,交給剩下兩部分生成軌跡和活動的預測結果。

另外,活動預測模塊還能對活動即將發生的位置進行預測,彌補軌跡生成器的誤差。

這四個模塊的功能和工作原理,具體來說是這樣的:


1、人物行為模塊

這個模塊負責對場景中每個人的圖像信息進行編碼,除了標記人的軌跡點以外,還要對身體活動進行建模。

為了對人在場景中的變化進行建模,這裡用一個預訓練的帶有「RoAlign」的物體檢測模型,來提取每個人邊界框的固定尺寸CNN特徵。

除了場景以外,人物行為模塊還需要獲取肢體活動的信息,本文使用了一個MSCOCO數據集上訓練的檢測模型,來提取人體關鍵點信息。

以上兩個部分分別輸入LSTM編碼器,獲得場景和肢體動作的特徵表示。

2、人物交互模塊

這個模塊負責查看人與周圍環境的交互,包含人與場景、人與對象的交互。

其中人與場景的交互是為了對人附近的場景進行編碼。

首先使用預訓練的場景分割模型導出每一幀的像素級場景語義分類,劃分出場景中的道路、人行道等部分。

然後選取適當的尺寸大小來確定模型需要識別的環境區域。例如把數值設定為3,表示選取人周圍3×3大小的範圍作為觀察區域。

將以上不同時刻獲取的信息輸入LSTM編碼器,最終獲得了人與場景關係的特徵。

與前人的研究不同,「人與對象的交互」模塊可以對場景中所有對象與人的幾何關係和類型進行建模,並根據幾何距離來計算人與其他對象的關係,而不僅僅只關注與周圍近鄰的關係。

但是人的軌跡更容易受到近距離物體或人的影響,文中使用對數函數作為權重,來反映不同距離人或物體對軌跡的影響。實際效果也證明了這種編碼方式是有效的。

下一步,將某個時刻的幾何特徵和對象類型特徵嵌入到多維向量中,並將嵌入的特徵饋送到LSTM編碼器中。

由人與其他人、汽車之間的距離,可以獲得人與物體的關係特徵;由人是靠近人行道還是草地,可以判定人物場景特徵。

將這些信息提供給模型,讓它能學習到人類的活動方式。比如一個人在人行道上比在草地上走得更頻繁,並且會傾向於避免撞到汽車。

3、軌跡生成器

上面兩個模塊提取的4種特徵,包括場景、肢體動作、人與場景和人與對象關係等信息,由單獨的LSTM編碼器壓縮成視覺特徵張量Q。

接下來使用LSTM解碼器直接解碼,在實際平面坐標上預測未來的軌跡。

這項研究用了一種焦點注意力的機制。它起初源於多模態推理,用於多張圖片的視覺問答。其關鍵之處是將多個特徵投射到相關空間中,在這個空間中,辨別特徵更容易被這種注意力機制捕獲。

焦點注意力對不同特徵的關係進行建模,並把它們匯總到一個低維向量中。


4、活動預測

活動預測模塊有兩個任務,確定活動發生的地點和活動的類型。

相應地,它包含兩個部分,曼哈頓網格的活動位置預測活動標籤預測

活動標籤預測的作用是猜出畫面中的人最後的目的是什麼,預測未來某個瞬間的活動。活動標籤在某一時刻並不限於一種,比如一個人可以同時走路和攜帶物品。

而活動位置預測的功能,是為軌跡生成器糾錯。

軌跡生成器有個缺點,預測位置的誤差會隨著時間累計而增大,最終目的地會偏離實際位置。

為了克服這個缺點,就有了「活動位置預測」這項輔助任務。它確定人的最終目的地,以彌補軌跡生成器和活動標籤預測之間的偏差。包括位置分類位置回歸兩個任務。

位置分類的目的是預測最終位置坐標所在的網格塊。位置回歸的目標是預測網格塊中心(圖中的藍點)與最終位置坐標(紅色箭頭的末端)的偏差。

添加回歸任務的原因是,它能提供比網格區域更精確的位置。

還有很長的路要走

雖然模型設計中,考慮的非常周到,但面對現實情況時,仍舊會出現種種失敗案例:

左邊,預測人物要打開後備箱,但實際上是他只是站著。

右邊,預測任務將會向右前方前進,提著一些東西,但實際上他一直騎行,並向左前方拐彎,全然不顧前方即將到來的車輛。

從這些情況來看,模型應對一些場景還有些吃力。

此外,這個AI目前僅適用於美國國家標準局提供預定義的30個人類活動,例如關門、開門、關後備箱、開後備箱、提東西、打招呼、推、拉、騎自行車、跑、步行等等。

研究道路千萬條,這是第一條。

隨著研究的成熟,在自動化社會中,人類這一最不穩定的變數也就將會在控制之中。

未來,自動駕駛的汽車,可能再也不用擔心橫衝直撞的行人了,機器人也會與人類「和諧相處」了,畢竟人類想要幹什麼,系統都了如指掌。

如果你對這個領域感興趣,還請收好這篇論文的傳送門:

Peeking into the Future:Predicting Future Person Activities and Locations in Video

https://arxiv.org/abs/1902.03748

加入社群

量子位現開放「AI 行業」社群,面向AI行業相關從業者,技術、產品等人員,根據所在行業可選擇相應行業社群,在量子位公眾號(QbitAI)對話界面回復關鍵詞「行業群」,獲取入群方式。行業群會有審核,敬請諒解。

此外,量子位AI社群正在招募,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式。

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡就點「好看」吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

CV元老、霍金弟子:三大瓶頸扼住深度學習咽喉,破局要靠這兩招

TAG:量子位 |