你的那些「小動作」,今後AI都不會放過
Esther| 撰文
人的大腦很擅長「腦補」,面對不全面的動作信息,人腦會自動填充、預測目標物體移動的整個過程,假設人眼看到三幀圖像,第一幀當中幾個罐子看起來好像整齊地摞在一起,第二幀中有人放了一根手指在罐子底部,第三幀中罐子散落一地,會認為可能是有人用手指打翻了罐子。
這種邏輯跳躍思維對於機器來說就比較艱難了,但是近日美國麻省理工學院計算機科學和人工智慧實驗室(CSAIL)的科研人員在歐洲計算機視覺國際會議上發表了一篇論文,描述了他們新研發的一項名為時間關係網路(TRN)的技術,即一款能夠幫助卷積神經網路(CNN)腦補幀與幀之間缺失信息,從而大幅提高動作分析準確性的附加模塊。
當然,這項技術並不是由MIT第一個研發的,在2017年百度的科研人員就研發了一種用於大規模分析視頻的空間-時間建模框架,還曾獲得該年大規模行為識別競賽(ActivityNet Challenge)的冠軍,此外谷歌也在2017年製作了當時最大的人工注釋圖像數據集YouTube-BoundingBoxes,但是MIT的這項科研成果與百度谷歌不同之處在於,他們號稱TRN系統與之前的其他技術相比,準確性和效率達到了更好的平衡。
據悉,論文的第一作者Bolei Zhou對外媒表示:「這套AI系統能夠識別目標物體隨時間的變化,而不是根據物體在某一時間的狀態來判斷,而且這套系統不需要分析每一幀圖像,只需要挑選關鍵幀(比如物體摞在一起和散落的畫面),通過幀數之間的時間關係,來識別目標物體的變化。這種方法不僅能夠提高系統工作效率,還能夠保證準確性。」
挑選關鍵幀的優勢
市面上常被用於識別動作的兩種CNN模塊受到了效率與準確性的局限,比如,其中一個模塊準確性高,但是必須分析視頻每一幀才能作出判斷,這樣就需要花費大量時間來計算。
另一個模塊叫做雙流網路(Two-Stream Network),其準確性不如前者,但是效率更高。雙流網路由兩部分組成,一個部分用於提取視頻一幀畫面中的特點,然後將結果與「光流」(關於視域中的物體運動檢測中的概念,用來描述相對於觀察者的運動所造成的觀測目標、表面或邊緣的運動)結合;另一部分用於提取每個像素的變化信息。而提取光流也需要耗費大量計算時間,因此第二個模塊的效率也不夠高。
為了平衡準確性與效率,MIT的科研人員使用三組眾包數據集來訓練和測試使用了TRN模塊的卷積神經網路,包括涵蓋174種動作類別(比如戳倒物體或者抬起物體)的2萬多隻視頻的TwentyBN Something-Something,涵蓋27種手勢(比如豎大拇指或者手指左滑)的近15萬隻視頻的數據集Jester,以及涵蓋157種動作類別(比如抬自行車或者玩籃球)的1萬隻視頻的卡內基·梅隆大學Charades數據集。
在訓練過程中,TRN模塊會同時將視頻關鍵幀分成兩幀、三幀和四幀的組(幀與幀之間有時間間隔),然後分析幀與幀之間目標物體的變化與某種活動的匹配度。比如,如果TRN模塊分析兩幀圖像,前一幀中目標物體位於畫面上方,後一幀物體位於畫面下方,那TRN將會認為目標物體的變化很可能屬於「物體倒下」這一動作,如果在前兩幀圖像之間有一幀顯示目標物體在畫面中心,那TRN就會認為可能性更高了。通過訓練,TRN將會學習到幀與幀之間目標物體的變化與什麼動作更匹配。
識別與預測動作的成果
在測試階段,加入了TRN模塊的CNN準確分析了分析兩幀之間目標物體的活動,幀數增多後,準確性也會提高。在識別數百種基礎動作(比如戳倒物體、扔物體到空中、豎大拇指)上,表現比市面上的相似模塊表現更優秀。
TRN模塊分析Jester數據集的準確性達到了95%,另外TRN使用有限信息(比如通過前幾幀雙手的位置判斷其將會輕輕撕紙,或者前幾幀中手抬起來指腹向前判斷手指將會下滑)預測目標物體後續活動這一點上也超越了市面上一些其他模塊。在分析了一段視頻前四分之一的幀數後,其預測結果的準確性就超越了基礎模型,分析幀數提高到二分之一時,TRN的準確性超過基礎模型10-40%。
此外,TRN在分析Something-Something數據集的視頻時,成功分辨了「假裝打開一本書」與「打開一本書」這兩種相似動作之間的區別。據了解,為了區分這兩種動作,TRN模塊多採樣了幾張關鍵幀,發現前一幀手放在書附近,下一幀手放在書上,然後再下一幀手離開了書。
MIT的科研人員發現,市面上的其他一些動作識別模塊也會使用分析關鍵幀的方法,但是並不會去了解目標物體在幀與幀之間的時間關係,這就降低了結果的準確性,而TRN模塊在一些測試中與同類關鍵幀分析模塊相比,準確性提高了近一倍。
Zhou認為:「這項技術在機器人領域將會有很重要的應用,這樣機器人就能夠提前預知人類的某些動作。」
在未來,這組科研人員計劃使用物體識別和「直覺物理」(比如對物體在真實環境中物理規律的了解)來提高模型的準確性。Zhou補充:「因為用於訓練TRN的視頻包含了許多物理信息,所以讓AI模型學習這些物理學規律後,便可以讓其去分析新的視頻。這項實驗中的所有代碼和模型將會在網上公開,動作識別是目前一項很有趣的AI領域。」
(END)


※谷歌打造數據集搜索功能,幫助科學家尋找數據
※2/3 XR遊戲都基於Unity,消費級市場還有待發展
TAG:青亭網 |