當前位置:
首頁 > 新聞 > MIT周博磊團隊:時序關係網路幫助計算機填補視頻幀之間的空白

MIT周博磊團隊:時序關係網路幫助計算機填補視頻幀之間的空白

雷鋒網 AI 科技評論按:如果你向一個人僅僅展示一段視頻中的幾幀,他通常可以推測出視頻里發生的是什麼事件以及屏幕上會顯示出什麼。例如,如果我們在視頻開始時的幀中看到了一堆堆疊起來的罐頭,在視頻中間的幀中看到了有人將手指放在了視頻的底部,而在視頻後面的幀中看到這堆罐頭倒了,我們可以猜測出手指也許推了罐頭一把。然而,計算機卻很難思考出這一點。

在前段時間舉行的 2018 年歐洲計算機視覺大會(ECCV2018)上,周博磊與麻省理工學院的研究人員一共提出了一個附加的視頻處理模塊,該模塊可以幫助被人們稱為卷積神經網路(CNN)的人工智慧系統填補視頻幀之間的空白,從而大大提升了網路的活動識別能力。 雷鋒網 AI 科技評論簡介如下。

機器學習系統通過僅僅在幾個關鍵幀中觀察物體如何變化從而有效地識別活動

MIT周博磊團隊:時序關係網路幫助計算機填補視頻幀之間的空白

研究人員將這個模塊稱為時序關係網路(TRN),它能夠學習視頻中的物體在不同的時間發生了怎樣的變化。它通過分析一些在視頻的不同階段描繪某種活動的關鍵幀(例如,堆疊放置的物體被推倒。)來做到這一點。接著,它可以使用相同的過程識別一段新視頻中相同類型的活動。

在實驗中,該模塊在識別數百種基本活動時,表現大大超過了現有的模型,這些活動就像將某些物體戳倒、將物體拋向空中,或者漸漸豎起大拇指。它還能更加準確地預測出視頻中接下來會發生什麼。例如,在給定少量的早期視頻幀的情況下,推測出兩隻手在輕微地撕扯一張紙。

在未來,這個模塊可以被用來幫助機器人更好地理解它們周圍發生了什麼。

論文第一作者、前 MIT 計算機科學和人工智慧實驗室(CSAIL)博士生、現任香港中文大學計算機科學專業助理教授周博磊說:「我們構建了一個人工智慧系統,我們用它來識別物體的變化,而不是識別物體外觀。該系統並不會對所有的幀進行處理,它會挑出關鍵幀,然後使用這些幀的時序關係,識別究竟發生了什麼。這將提高系統的效率,使其能夠準確地實時運行」。

這篇論文的聯合作者是CSAIL 首席科學家 Antonio Torralba(他同時也是MIT 電子工程和計算機科學系的教授)、CSAIL 首席研究員Aude Oliva,以及CSAIL 研究助理 Alex Andonian。

選取關鍵幀

目前常常被用於活動識別的兩種卷積神經網路模塊存在效率和準確率方面的缺陷。其中第一種模型時準確的,但是在做預測之前必須逐幀對視頻進行分析,這樣做的計算複雜度是很大的,運行起來十分緩慢。另一種模型被稱為雙流卷積神經網路,它的準確率較之於前一種模型低一些,但計算效率更高。雙流網路使用一個流來提取一個視頻幀的特徵,然後將結果與「光流」(提取出的一組關於每個像素點運動的信息流)融合在一起。提取光流的計算複雜度同樣很高,所以這個模型仍然沒有那麼高效。

「我們想要在這兩種模型(效率與準確率)之間找到一種折中的方式」。

研究人員在三個眾包的進行各種各樣活動的短視頻數據集上訓練並測試了它們的模塊。第一個數據集叫做「Something-Something」,它是由TwentyBN 公司構建的,包含174 個活動類別的超過20萬條短視頻,比如說戳倒一個物體或舉起一個物體。第二個數據集是「Jester」,它包含關於27 種不同的手勢的大約15 萬條視頻,例如豎起大拇指或向左揮擊。第三個數據集是由卡內基梅隆大學的研究人員構建的「Charades」,它包含157 個活動類別的超過1 萬條短視頻,比騎自行車或打籃球。

當我們擁有一個視頻文件時,研究人員構建的模塊每間隔一段時間同時以兩幀一組、三幀一組或四幀一組處理順序排列的幀。然後,模塊會迅速分配一個概率,它代表物體在這些幀之間的變化與一個特定的活動類別相匹配的可能性。例如,如果我們要使用模塊處理兩個幀,其中後一幀在屏幕的底部顯示了一個物體,而這個物體在前一幀中出現在屏幕頂部,該模塊就會為活動「將物體向下移動」分配一個高的概率。如果此時第三幀顯示物體在屏幕的中間,那麼這個概率還會繼續增加,以此類推。通過這種方法,該模塊可以在最能代表某類活動的幀中學習對象變換的特徵。

識別和預測活動

在測試中,配備了新模塊的卷積神經網路使用兩幀準確地識別出了許多活動,但是通過採樣更多的幀,準確率還能被繼續提升。對於Jester 數據集來說,模塊在活動識別中達到了最高的95% 的準確率,擊敗了一些現有的模型。

新模塊甚至在模糊分類任務「Something-Something」上也得到了正確的結果。例如,包括「假裝打開一本書」和「打開一本書」之類的行動。為了將二者區分開來,該模塊只是對一些關鍵幀進行了取樣,例如,一隻手在較早的幀中放在一本書旁邊,而在較晚的書中則遠離了這本書。

其它的一些活動識別模型也對關鍵幀進行處理,但是並沒有考慮幀與幀之間的時序關係,這會降低它們的準確率。研究人員指出,他們的TRN 模塊在某些測試中比那些關鍵幀模型的準確率提升了幾乎一倍。

在給定的視頻幀有限的情況下,該模塊在預測活動方面的表現也優於其他模型。在處理了前25% 的幀之後,該模塊的準確率比對比基線模型搞了幾個百分點。當處理了50% 的幀之後,該模塊的準確率的準確率提高了10% 到40%。例如,根據兩隻手在較早的幀中的位置來判斷紙張是否會被撕開一點,並且預測一隻向前伸出的舉起的手會向下滑動。

「這對機器人應用十分重要,」周博磊說。「當你執行某種特定的動作時,你會想要一個機器人能夠事先知道接下來會發生什麼」。

接下來,研究人員的目標是提高模塊的複雜程度。首先,他們將同時實現活動識別和物體識別。然後,他們希望引入一些「直觀的物理知識」,這能夠幫助該模塊理解物體的實際物理性質。「因為我們知道這些視頻中的許多物理學原理,我們可以訓練該模塊學習這些物理定律,並用它們來識別新的視頻,」周博磊說。「我們也將開源所有的代碼和模型。活動理解是目前人工智慧領域一個令人興奮的研究課題」。

論文地址:https://arxiv.org/abs/1711.08496

via mit.csail,雷鋒網 AI 科技評論編譯

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

自動駕駛量產前夜,感測器前沿技術探索大趴不能錯過|2018全球智能駕駛峰會
因為這粒「間諜晶元」,亞馬遜、蘋果與彭博社開撕

TAG:雷鋒網 |