視頻識別怎樣理解？其實，我們可以將其可視化！

科技 08-15

GIF/1.7M

原文來源：https://raghavgoyal14.github.io/blog/

作者：Raghav Goyal

「機器人圈」編譯：嗯~阿童木呀、多啦A亮

本文主要描述的是為視頻識別設計的深層網路的顯著圖（saliency maps）。從早前的論文《卷積神經網路的可視化》（European conference on computer vision. Springer, Cham, 2014）、《可識別定位的深度特徵學習》（In CVPR, 2016），以及《Grad-cam:何出此言？基於梯度定位的深度網路視覺解釋》（arXiv preprint arXiv:1610.02391 (2016). In ICCV 2017）可以看出，顯著圖能夠有助於可視化模型之所以產生給定預測的原因，發現數據中的假象，並指向一個更好的架構。

任務

從最近發布的數據集的視頻中識別人類行為，這需要對Goyal等人所著的《用於學習和評估視覺常識的「something something」視頻資料庫》中的概念進行細緻理解。被稱為「Something-Something」的數據集包含了174個類別的100000個視頻，其中涵蓋了一些諸如掉落、拾起和推之類的概念。

數據集中的幾個樣本示例

GIF/655K

將[something]撿起來

GIF/446K

假裝將[something]放到[something]上

GIF/321K

推動[something]，使其從桌子上脫落

GIF/276K

將[something]放入[something]中

可視化技術Grad-CAM

Selvaraju等人在《Grad-cam:何出此言？基於梯度定位的深度網路視覺解釋》（arXiv:1610.02391 (2016). In ICCV 2017）提出的Grad-CAM或梯度加權類激活映射，使我們能夠獲得任何目標類的定位映射。它涉及，

?通過使用梯度作為權重，計算對這些激活圖的加權平均值。

?最後，應用ReLU函數突出顯示與所選類相關的區域。

?將所得到的結果以熱圖（粗糙的定位地圖）的形式投影到輸入空間。

請參閱Selvaraju等人所著的《Grad-cam:何出此言？基於梯度定位的深度網路視覺解釋》（鏈接：https://arxiv.org/abs/1610.02391）了解更多詳情。

架構詳情

對於視頻而言，我們一般選擇將視頻視為一系列圖像幀，並在時域上擴展2D-CNN濾鏡以獲得3D-CNN，D. Tran等人在《用3D卷積網路學習時空特徵》（ICCV 2015）和Carreira等人在《Quo Vadis，行動識別？一個新模型和動力學數據集》（arXiv:1705.07750）中，皆證明此方法非常適用於視頻識別任務。我們按照《Quo Vadis，行動識別？一個新模型和動力學數據集》中所使用的用於完成Inception-v1中類似工作的方法，對ImageNet中預訓練的ResNet-50過濾器在時間域內進行填充，並在數據集對生成模型進行訓練，選擇了《用於學習和評估視覺常識的「something something」視頻資料庫》中所描述的一個含有40個類的子集。

最終卷積層的激活維度為16x2048x7x7，輸入維度為16x3x224x224，遵循（圖像幀數x 信道數 x 寬度 x 高度）的約定。我們在時域內選擇了一個大小為3，且padding和步幅為1的統一內核。這導致激活圖具有與輸入相同的時間維度，但在時間上非相關。

這個含有40個類別的數據子集中總共包含53267個樣本，其中按照《用於學習和評估視覺常識的「something something」視頻資料庫》中所提及的8：1：1比例進行分割。上述架構的測試精度為51.1％，這要比本文所報告的36.2％要好15％左右。

時態定點陣圖

使用上述訓練模型，我們採用了一些隨機樣本，並按照《Grad-cam:何出此言？基於梯度定位的深度網路視覺解釋》和相關代碼資源（下載鏈接https://github.com/jacobgil/pytorch-grad-cam）中所提及的使用Grad-CAM對其進行可視化。數據以4fps採樣，並且剪輯大小為16幀（見上文），這些視頻最多顯示4秒的動作。

下面的樣本示例顯示了原始視頻以及它的熱圖疊加版本（紅色）。此外，每個樣本下面都顯示了真正的結果和前2個預測結果。

一些正案例：（左側為原圖，右側為熱圖版本）

GIF/347K

真實：放[something]

預測：1. 放 [something] :– 0.84；2. 扔掉[something] :– 0.10

GIF/490K

真實：撕裂[something]

預測：1.撕裂[something]：- 0.99；2.將多個[something]進行堆疊：- 0.00

GIF/390K

真實：揭開[something]

預測：1.揭開[something]：–0.99； 2.打開[something]：–0.00

GIF/440K

真實：關上[something]

預測：1.關上[something]：–0.96；2.打開[something]：–0.02

GIF/587K

真實：推動[something]使其輕微移動

預測：1. 推動[something]使其輕微移動：–0.43； 2.假裝將[something]從[somewhere]拿出：–0.20

GIF/696K

真實：拿著相機接近[something]

預測：1.拿著相機接近[something]：-0.26；2.扔掉[[something]：-0.15

GIF/491K

真實：將[something]撿起

預測：1.將[something]撿起：–0.99；2.放置[something]：–0.00

一些中性案例：（左側為原圖，右側為熱圖版本）

GIF/478K

真實：將[something]撿起

預測：1. 在拍攝[something]時向下轉動相機：–0.67；2. 將[something]撿起：–0.10

GIF/511K

真實：握住[something]

預測：1.在拍攝[something]時向左轉動相機：–0.21；2.在拍攝[something]時向右轉動相機：–0.21

GIF/414K

真實：將[something]扔到[something]上

預測：1.拋擲[something]：–0.97；2. 將[something]扔到[something]上：–0.01

GIF/730K

真實：將[something]撿起

預測1.用[something]推動[something]：–0.34；2. 將[something]撿起：–0.25

一些負案例：（左側為原圖，右側為熱圖版本）

GIF/415K

真實：握住[something]

預測：1.將[something]倒置：–0.07；2. 在拍攝[something]時向左轉動相機：–0.07

GIF/472K

真實：推動[something]使其輕微移動

預測：1.扔擲[something]：–0.50；2. 將[something]撿起：–0.11

GIF/462K

真實：握住[something]

預測：1.用[something]推動[something]：–0.19；2. 握住[something]：–0.15

討論

仔細看，上述例子表明，在大多數情況下，隨著時間推移該模型已經學會了關注感興趣的對象，今後我們將繼續跟蹤這項工作。

在TwentyBN（https://www.twentybn.com/）上，藉助我們專有的數據平台，我們正在收集描述世界上細粒度（fine-grained）概念的視頻，目的是使人類從視覺上了解世界。最近，我們發布了兩個大型視頻數據集（256591個標籤視頻），我們相信我們在這方面的努力將有助於我們面臨更多的挑戰。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器人圈 的精彩文章:

※用AI預測北京霧霾？有Keras在手，LSTM可分分鐘解決
※複製化石就位，英國古洞穴重新開業
※一文初識「金」在藥物研發及有機反應中的應用
※花它1個億！NSF給19個「大腦」AI項目提供支持
※你知道「模仿學習」功能強大，但它和「強化學習」有什麼關係？

TAG:機器人圈 |

您可能感興趣

※就算有抑鬱癥狀，也並不代表你就是抑鬱症，你該如何識別抑鬱症？
※不被情緒控制，要從捕捉它們開始 | 測試：你識別情緒的能力怎麼樣？
※專家教你識別精神分裂癥狀，不要讓忽視讓我們悔恨終身
※可能是5種病偽裝的，這些癥狀幫你識別它們
※「春困」可能是5種病偽裝的，這些癥狀幫你識別它們
※諦聽識別出假悟空卻不敢開口，更厲害的也都沒表態，他們怕什麼？
※瓷器如何識別真假？教你幾招自己就可以識別
※看起來蠢的可愛的綿羊，其實它人臉識別的能力非比尋常，聰明的讓你無法想像！
※數博會熱議身份識別：知道"你是誰」不夠，還得檢驗「你知道什麼」
※外星生命真的存在，我們可能也無法識別他們
※拜師時如何識別其道士身份，不可不知！
※兒童流感本身不可怕，可怕是這些併發症，那如何早期識別呢？
※在發射信號彈時，要如何才能夠識別其位置，竟然需要這樣看
※AI可以識別圖像但它能理解標題嗎？
※弱視的原理？教你如何識別弱視並通過訓練改善？
※手機指紋識別不單單只是解鎖？其實還有其他的功能，網友：漲知識
※奇石如何識別真假？教你幾招自己就可以識別
※如果看到外星生命，我們能否識別出他們？
※寧可不識字，不可不識人！教你識別薄情寡義之徒
※林允錄視頻教貼膜，沒想到化妝後手機竟然識別不了自己！