AAAI 18論文解讀:基於強化學習的時間行為檢測自適應模型
AI 科技評論按:互聯網上以視頻形式呈現的內容在日益增多,對視頻內容進行高效及時的審核也變得越來越迫切。因此,視頻中的行為檢測技術也是當下熱點研究任務之一。本文主要介紹的就是一種比傳統視頻行為檢測方法更加有效的視頻行為檢測模型。
黃靖佳,北京大學深圳研究生院信息工程學院二年級博士生。2016 年畢業於華中科技大學計算機學院信息安全專業,獲學士學位。現研究方向為計算機視覺、行為檢測、增強學習等。
以下是 AI 科技評論對嘉賓分享的內容回顧。
分享主題:AAAI 2018 論文解讀:基於強化學習的時間行為檢測自適應模型
分享提綱:
行為檢測任務的介紹
SAP模型的介紹
實驗效果介紹
總結
分享內容:
大家好,我的分享首先是介紹一下行為檢測的應用背景,接下來介紹我們團隊提出的 SAP 模型,以及模型在實驗數據集上的性能,最後是對本次分享的總結。
行為檢測任務的介紹
一般對於視頻目標行為檢測任務的解決方法是:在一整段視頻中,對行為可能發生的時間段做一個定位,做完定位之後,把可能發生的行為送到分類器中做分類。這就是比較常用的「兩階段方法」。
但是這種方法在解決任務時存在兩個難點。
首先是對於一個沒有切割過的視頻,比如在圖中這個視頻中,所需要檢測的目標是一個三級跳運動,三級跳在不同的情況下,根據人的不同,所持續的時間也是不同的。
第二個難點是,目標時間出現的位置是在視頻中的任意時間點。
所以說用「兩階段方法」進行目標行為預測,會產生非常多不同尺度,不同位置 proposal。最簡單的方法是用不同尺度的滑動窗口,從前到後滑動,產生非常多的 proposal,然後再做分類。這種方法雖然行之有效,但時間複雜度和計算複雜度都相當高,使得在完成這項任務時往往需要花費大量的計算資源。
SAP 模型的介紹
為了避免這種低效的檢測方法,我們提出了一種可以自適應調整檢測窗口大小及位置的方法,對視頻進行高效的檢測。
我們最開始的想法是能不能僅使用一個滑動窗口,只需要從頭到尾滑動一遍就完成 proposal 產生過程呢?
這就必須要求窗口能不斷地自適應地根據窗口所覆蓋的內容,能夠不斷調節窗口的大小,最終的窗口大小能精確覆蓋目標運動,從而得到檢測的窗口區間。
我們使用增強學習作為背後的模型支撐來完成這樣的循環過程,達到我們的目的。下面是 SAP 模型的框架圖。
關於 Temporal Pooling Layer
在原有的 C3D 模型中,要求輸入的視頻幀是固定的,一般是 16 幀或 8 幀。以 16 幀為例,當視頻幀多於 16 幀,就需要對視頻幀下採樣,採樣成 16 幀,送到視頻中進行處理,這樣在採樣過程中會丟失非常多細節信息,造成特徵表達不準確等問題。
而我們提出的 Temporal Pooling Layer 的輸入幀可以是任意長度。
我們在增強學習中的獎勵設置機制。在增強學習中,對於一個 agent,如果 agent 執行了一個動作後,我們認為是執行正確的,就給一個獎勵;如果認為是錯的,就給一個懲罰。
SAP 模型的訓練過程,可到文末觀看嘉賓的視頻回放,或關注嘉賓的 GitHub 地址獲取相關代碼。
SAP 模型的測試
實驗過程
我們的實驗是在 THUMOS"14 數據集展開的,用它的 validation set 訓練模型,在 test set 上進行實驗評估。我們使用了是以下兩個衡量標準。第一個是 recall 值和平均 proposal 數量函數第二個是 recall 和 IoU。
proposal 做分類後的評判標準是:Average Precison 和 mAP
檢測性能的結果
上圖紅色圈注的部分比較的是不同的模型,在取相同的 proposal 數量,用同樣的分類器做分類,哪個模型的性能會更好。結果發現,在只有 50 個 proposal 的時候,我們的方法表現的最好。
總結
首先,我們提出了 SAP 模型,能夠不斷自適應調整當前觀測窗口大小,從而使觀測窗口能夠更為精確覆蓋可能存在目標運動的區域。
我們的方法是通過增強學習來驅動,讓 agent 通過增強學習網路學習到調整策略,使它調整自身的位置和大小。
在 C3D 模型中,我們還提出了 temporal pooling layer,使得模型能夠處理不限於 16 幀的視頻片段,並且能夠獲得比均勻採樣所得到的特徵表達更有效,更有利於做後面的視覺任務。
最後,我們在 THUMOS 14 數據集上驗證了我們的模型,得到了不錯的結果。
代碼相關資料 GitHub 地址:
https://github.com/hjjpku/Action_Dection_DQN
GAIR 大講堂視頻回放地址:
http://www.mooc.ai/open/course/459
————— AI 科技評論招人了 —————
————— 給愛學習的你的福利 —————
三大模塊,五大應用,手把手快速入門NLP
海外博士講師,豐富項目經驗
演算法+實踐,搭配典型行業應用
隨到隨學,專業社群,講師在線答疑
掃碼了解詳情
————————————————————


※心理學帶來曙光,DeepMind要像理解人一樣理解模型
※GANs 造假領銜,看 2018 最具落地潛力的 9大AI 技術趨勢
TAG:AI科技評論 |