CVPR 19 Oral評審排名Top:AI的視覺更逼近人類了!
【新智元導讀】AI的視覺系統不能完全模擬人類的「注意力轉移」機制。但近期,由南開大學程明明團隊(論文一作:范登平)研究的數據集和模型,使得AI的視覺離人類更近了一步!該論文已被CVPR 2019收錄為Oral,在5165篇論文中評審排名Top(所有評測結果和代碼即將公布)。
AI的視覺離人類更近了!
對人類來說,我們肉眼在看事物的時候,注意力會隨著事物的變化而發生改變。例如:
當我們看上面GIF圖時,我們一開始的注意力會集中在老師的身上;而當他拿起書時,我們的注意力又會集中在書本身上。
這樣的一個「注意力轉移」機制,對人類視覺系統來說當然是小菜一碟。而對AI,卻並沒有那麼容易。
來自南開大學計算機學院的程明明教授團隊(論文一作:范登平博士)、起源人工智慧研究院IIAI(Inception Institute of Artificial Intelligence)王文冠Research Scientist以及北京理工大學沈建冰教授,針對此問題提出了「聚焦視頻顯著性物體檢測」的解決方案:首次明確強調了視頻中的顯著對象可能會動態改變。
團隊為了讓AI的注意力轉移機制更加逼真,主要做了如下工作:
- 構建了一個和
人類視覺注意力相一致
的、稠密標註的DAVSOD數據集
,有226個視頻、2.4萬幀,涵蓋了不同的真實場景、對象、實例和動作; - 利用已建立的數據集和之前7個VSOD數據集,對17種最先進的模型進行了全面評估,使其成為最完整的VSOD評測(
耗時8000餘小時
); - 提出了一個面向顯著性轉移的VSOD基礎模型,可通過學習人類注意力轉移行為來有效地捕獲視頻動態顯著性。該模型已經近乎接近實時的效果,
首次讓視頻顯著性應用到真實場景中成為可能
。
該論文已被CVPR 2019收錄為Oral,根據論文評分概率,在5165篇論文中評審排名Top。
工作成果鏈接(論文目前未公布):
http://dpfan.net/publications/
DAVSOD數據集:與人類注意力相一致、稠密標註的數據集
DAVSOD數據集專門為VSOD任務設計的。
圖1 DAVSOD數據集的標註示例。所包含的豐富標註,如顯著性轉移,對象/實例-級VSOD用戶標註,顯著對象的數目,場景/對象類別以及相機/對象運動模式,這為VSOD任務提供了堅實的基礎並使得各種潛在應用收益。
圖2 DAVSOD數據集中的視頻示例。其結果由實例-級用戶標註的分割結果和注意視點圖(右下角)疊加而成。
圖1和圖2展示了帶標註的視頻幀。
視頻採集
DAVSOD的視頻序列源自DHF1K,DHF1K是當前最大規模的動態眼動追蹤數據集,利用其構建DAVSOD數據集的好處有:
- DHF1K是從Youtube上收集的,涵蓋了各種現實場景、多種物體外觀和運動模式、豐富的對象類別,以及動態場景中大部分常見的挑戰;
- DHF1K所提供的視覺注視點可以得到更合理的、生物啟發的對象-級顯著性標註。
圖3(c) 關於DAVSOD數據集的統計數據:(c)每個視頻序列中的圖像幀。
以手工的方式將視頻分為小片段(圖3.c)並刪除那些帶黑屏過渡的片段,最終得到了一個大型數據集:包括226個視頻,共計23,938幀,798秒。視頻解析度為640*360像素。
數據標註
⑴顯著性轉移標註
在真實的動態場景中,人類的注意力行為更加複雜。通過DHF1K的眼動追蹤記錄,可以觀察到數據驅動的注意力轉移普遍存在,如圖1所示。
然而,之前VSOD領域中的研究都沒有明確強調這種基本的視覺注意行為。在DAVSOD中,根據真實的人類注視點來標註顯著的對象,並且首次標註了注意力轉移所發生的時刻,強調了該領域中顯著性轉移這一更具挑戰的任務。
⑵場景和對象類別標註
人類活動有4個子類:運動、日常、社交以及藝術活動。至於對象類別,和MSCOCO一致,只包含「事物」。
如此,就可以建立一個大約70個最常出現的場景/對象列表。
圖3(a) 關於DAVSOD數據集的統計數據:(a)場景/對象類別。
編輯
請點擊輸入圖片描述
圖3(e) 關於DAVSOD數據集的統計數據:(e)表示(a)中場景類別之間的相互依賴關係。
圖3(a)和(e)中,分別展示了場景/對象類別及其相互依賴性。整個對象標註過程有五個標註者參與。
⑶實例/對象級顯著物體標註
讓20個標註者經過10個視頻示例預訓練後,從每個待標註的視頻幀中選擇出最多5個對象並細緻地標註它們。
標註者還被要求區分出不同的實例並且單獨進行標註,從而得到23,938幀對象級顯著性標註和39,498個實例級顯著性標註。
⑷視頻文本描述生成
讓一位標註者在觀看完整個視頻序列之後給視頻賦予一句簡短的描述(不超過15詞)來概括其主要內容。受試者在觀看的同時,會提供相應的對象和視頻標籤以供參考。
這樣的標註將有利於各種潛在的應用,例如基於顯著性的視頻字幕生成。
數據集的特點與統計
為了深入了解DAVSOD數據集,幾項重要特徵如下:
- 豐富多樣的顯著對象;
- 顯著對象實例的數量;
- 顯著對象的尺寸;
- 多樣化的相機運動模式;
- 不同的對象運動模式;
- 中心偏向。
SSAV模型:高度模擬人類視覺注意力轉移行為
團隊所提出的SSAV模型由兩個基本模塊構成:金字塔擴張卷積模塊(PDC)和顯著性轉移感知模塊(SSLSTM)。
- PDC用於魯棒地學習靜態顯著性特徵;
- SSLSTM將傳統的長短時卷積網路(convLSTM)與顯著性轉移感知注意(SSAA)機制相結合。
SSAV模型將經由PDC模塊得到的靜態特徵序列作為輸入,同時考慮時序變化和顯著性轉移,從而得到相應的VSOD結果。
SSAV模型與FGRNE(CVPR 18)輸出結果比較
值得一提的是,該模型中的6個數據集(共8個),在實驗結果性能方面達到了當前最優水平,可謂是一個模型「橫掃天下」!
評測結果
表1 17個最先進的VSOD模型在7個數據集上的評測結果
傳統模型的性能
根據表1,可以得到的結論是:「SFLR、SGSP和STBP是VSOD中非深度學習模型的前3名。」
SFLR和SGSP都顯式地考慮光流策略來提取運動特徵。但計算成本通常很高。
深度模型的性能
評測中前三名的模型(即SSAV、PDBM、MBNM)都基於深度學習技術,這表明神經網路具有強大的學習能力。
在ViSal數據集上,它們的平均性能(max F)甚至高於9.0。
傳統與深度VSOD模型的比較
從表1可見,幾乎所有深度模型都優於傳統演算法。經典方法中最好的模型在MCL、UVSD、ViSal及DAVSOD數據集上的性能比某些深度模型,如SCOM的性能更好。
說明在深度學習框架中研究如何有效利用人的先驗知識是很有前景的方向。
工作意義
本文的工作,不僅使得AI的注意力轉移機制更加逼近人類,並且會在視頻分割、視頻字幕生成、視頻壓縮、自動駕駛、人機互動等場景或領域中,帶來較大的推進作用。在學術和實際應用兩方面都具有較高的價值。
工作成果鏈接:
http://dpfan.net/publications/
CVPR 19 Oral評審排名Top:AI的視覺更逼近人類了!
※特朗普「美國AI計劃」遭抨擊:不如多發10000個人才簽證
※新鮮出爐!2019 AI演算法崗位求職終極攻略
TAG:新智元 |