當前位置:
首頁 > 科技 > 視頻識別怎樣理解?其實,我們可以將其可視化!

視頻識別怎樣理解?其實,我們可以將其可視化!

GIF/1.7M

原文來源:https://raghavgoyal14.github.io/blog/

作者:Raghav Goyal

「機器人圈」編譯:嗯~阿童木呀、多啦A亮

本文主要描述的是為視頻識別設計的深層網路的顯著圖(saliency maps)。從早前的論文《卷積神經網路的可視化》(European conference on computer vision. Springer, Cham, 2014)、《可識別定位的深度特徵學習》(In CVPR, 2016),以及《Grad-cam:何出此言?基於梯度定位的深度網路視覺解釋》(arXiv preprint arXiv:1610.02391 (2016). In ICCV 2017)可以看出,顯著圖能夠有助於可視化模型之所以產生給定預測的原因,發現數據中的假象,並指向一個更好的架構。

任務

從最近發布的數據集的視頻中識別人類行為,這需要對Goyal等人所著的《用於學習和評估視覺常識的「something something」視頻資料庫》中的概念進行細緻理解。被稱為「Something-Something」的數據集包含了174個類別的100000個視頻,其中涵蓋了一些諸如掉落、拾起和推之類的概念。

數據集中的幾個樣本示例

GIF/655K

將[something]撿起來

GIF/446K

假裝將[something]放到[something]上

GIF/321K

推動[something],使其從桌子上脫落

GIF/276K

將[something]放入[something]中

可視化技術Grad-CAM

Selvaraju等人在《Grad-cam:何出此言?基於梯度定位的深度網路視覺解釋》(arXiv:1610.02391 (2016). In ICCV 2017)提出的Grad-CAM或梯度加權類激活映射,使我們能夠獲得任何目標類的定位映射。它涉及,

?通過使用梯度作為權重,計算對這些激活圖的加權平均值。

?最後,應用ReLU函數突出顯示與所選類相關的區域。

?將所得到的結果以熱圖(粗糙的定位地圖)的形式投影到輸入空間。

請參閱Selvaraju等人所著的《Grad-cam:何出此言?基於梯度定位的深度網路視覺解釋》(鏈接:https://arxiv.org/abs/1610.02391)了解更多詳情。

架構詳情

對於視頻而言,我們一般選擇將視頻視為一系列圖像幀,並在時域上擴展2D-CNN濾鏡以獲得3D-CNN,D. Tran等人在《用3D卷積網路學習時空特徵》(ICCV 2015)和Carreira等人在《Quo Vadis,行動識別?一個新模型和動力學數據集》(arXiv:1705.07750)中,皆證明此方法非常適用於視頻識別任務。我們按照《Quo Vadis,行動識別?一個新模型和動力學數據集》中所使用的用於完成Inception-v1中類似工作的方法,對ImageNet中預訓練的ResNet-50過濾器在時間域內進行填充,並在數據集對生成模型進行訓練,選擇了《用於學習和評估視覺常識的「something something」視頻資料庫》中所描述的一個含有40個類的子集。

最終卷積層的激活維度為16x2048x7x7,輸入維度為16x3x224x224,遵循(圖像幀數x 信道數 x 寬度 x 高度)的約定。我們在時域內選擇了一個大小為3,且padding和步幅為1的統一內核。這導致激活圖具有與輸入相同的時間維度,但在時間上非相關。

這個含有40個類別的數據子集中總共包含53267個樣本,其中按照《用於學習和評估視覺常識的「something something」視頻資料庫》中所提及的8:1:1比例進行分割。上述架構的測試精度為51.1%,這要比本文所報告的36.2%要好15%左右。

時態定點陣圖

使用上述訓練模型,我們採用了一些隨機樣本,並按照《Grad-cam:何出此言?基於梯度定位的深度網路視覺解釋》和相關代碼資源(下載鏈接https://github.com/jacobgil/pytorch-grad-cam)中所提及的使用Grad-CAM對其進行可視化。數據以4fps採樣,並且剪輯大小為16幀(見上文),這些視頻最多顯示4秒的動作。

下面的樣本示例顯示了原始視頻以及它的熱圖疊加版本(紅色)。此外,每個樣本下面都顯示了真正的結果和前2個預測結果。

一些正案例:(左側為原圖,右側為熱圖版本)

GIF/347K

真實:放[something]

預測:1. 放 [something] :– 0.84;2. 扔掉[something] :– 0.10

GIF/490K

真實:撕裂[something]

預測:1.撕裂[something]:- 0.99;2.將多個[something]進行堆疊:- 0.00

GIF/390K

真實:揭開[something]

預測:1.揭開[something]:–0.99; 2.打開[something]:–0.00

GIF/440K

真實:關上[something]

預測:1.關上[something]:–0.96;2.打開[something]:–0.02

GIF/587K

真實:推動[something]使其輕微移動

預測:1. 推動[something]使其輕微移動:–0.43; 2.假裝將[something]從[somewhere]拿出:–0.20

GIF/696K

真實:拿著相機接近[something]

預測:1.拿著相機接近[something]:-0.26;2.扔掉[[something]:-0.15

GIF/491K

真實:將[something]撿起

預測:1.將[something]撿起:–0.99;2.放置[something]:–0.00

一些中性案例:(左側為原圖,右側為熱圖版本)

GIF/478K

真實:將[something]撿起

預測:1. 在拍攝[something]時向下轉動相機:–0.67;2. 將[something]撿起:–0.10

GIF/511K

真實:握住[something]

預測:1.在拍攝[something]時向左轉動相機:–0.21;2.在拍攝[something]時向右轉動相機:–0.21

GIF/414K

真實:將[something]扔到[something]上

預測:1.拋擲[something]:–0.97;2. 將[something]扔到[something]上:–0.01

GIF/730K

真實:將[something]撿起

預測1.用[something]推動[something]:–0.34;2. 將[something]撿起:–0.25

一些負案例:(左側為原圖,右側為熱圖版本)

GIF/415K

真實:握住[something]

預測:1.將[something]倒置:–0.07;2. 在拍攝[something]時向左轉動相機:–0.07

GIF/472K

真實:推動[something]使其輕微移動

預測:1.扔擲[something]:–0.50;2. 將[something]撿起:–0.11

GIF/462K

真實:握住[something]

預測:1.用[something]推動[something]:–0.19;2. 握住[something]:–0.15

討論

仔細看,上述例子表明,在大多數情況下,隨著時間推移該模型已經學會了關注感興趣的對象,今後我們將繼續跟蹤這項工作。

在TwentyBN(https://www.twentybn.com/)上,藉助我們專有的數據平台,我們正在收集描述世界上細粒度(fine-grained)概念的視頻,目的是使人類從視覺上了解世界。最近,我們發布了兩個大型視頻數據集(256591個標籤視頻),我們相信我們在這方面的努力將有助於我們面臨更多的挑戰。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器人圈 的精彩文章:

用AI預測北京霧霾?有Keras在手,LSTM可分分鐘解決
複製化石就位,英國古洞穴重新開業
一文初識 「金」在藥物研發及有機反應中的應用
花它1個億!NSF給19個「大腦」AI項目提供支持
你知道「模仿學習」功能強大,但它和「強化學習」有什麼關係?

TAG:機器人圈 |

您可能感興趣

就算有抑鬱癥狀,也並不代表你就是抑鬱症,你該如何識別抑鬱症?
不被情緒控制,要從捕捉它們開始 | 測試:你識別情緒的能力怎麼樣?
專家教你識別精神分裂癥狀,不要讓忽視讓我們悔恨終身
可能是5種病偽裝的,這些癥狀幫你識別它們
「春困」可能是5種病偽裝的,這些癥狀幫你識別它們
諦聽識別出假悟空卻不敢開口,更厲害的也都沒表態,他們怕什麼?
瓷器如何識別真假?教你幾招自己就可以識別
看起來蠢的可愛的綿羊,其實它人臉識別的能力非比尋常,聰明的讓你無法想像!
數博會熱議身份識別:知道"你是誰」不夠,還得檢驗「你知道什麼」
外星生命真的存在,我們可能也無法識別他們
拜師時如何識別其道士身份,不可不知!
兒童流感本身不可怕,可怕是這些併發症,那如何早期識別呢?
在發射信號彈時,要如何才能夠識別其位置,竟然需要這樣看
AI可以識別圖像 但它能理解標題嗎?
弱視的原理?教你如何識別弱視並通過訓練改善?
手機指紋識別不單單只是解鎖?其實還有其他的功能,網友:漲知識
奇石如何識別真假?教你幾招自己就可以識別
如果看到外星生命,我們能否識別出他們?
寧可不識字,不可不識人!教你識別薄情寡義之徒
林允錄視頻教貼膜,沒想到化妝後手機竟然識別不了自己!