視頻中的行為識別美亞技術分享VOL.61

最新 02-12

編者按

行為識別技術在智能監控、人機交互、視頻序列理解、醫療健康等眾多領域扮演著越來越重要的角色，而視頻中的行為識別技術受到遮擋，動態背景，移動攝像頭，視角和光照變化等因素的影響而具有很大的挑戰性。

今天，美亞柏科技術專家就近年一些比較有代表性的視頻行為識別技術和演算法進行了一個整理與簡述，拋磚引玉，期望與相關技術愛好者交流進步。

每年iPhone的發布都是一場不亞於春晚的大型段子手狂歡秀，今年iPhone X的黑科技人臉識別技術也沒有逃過魔爪。

事實上，虹膜識別，指紋識別和已經被玩壞的人臉識別等，各種各樣的生物識別技術已經慢慢的從《碟中諜》這類電影邁入了現實生活中，然而除了這些已經被大眾熟知的技術，還有一些更加黑科技的技術，比如我們今天要介紹的技術在電影里長這樣：

《碟中諜5》中的步態分析系統

圖中的步態分析系統，是通過記錄、觀察、分析身體運動方式，建立步態模型，並提取穩定的參數特徵，通過計算機去識別的過程。如同每個人擁有一幅獨特的面孔，每個人也擁有一種與眾不同的步態。從解剖學的角度分析，步態唯一性的物理基礎是每個人生理結構的差異性，不一樣的腿骨長度、不一樣的肌肉強度、不一樣的重心高度、不一樣的運動神經靈敏度，共同決定了步態的唯一性。

在人工智慧研究領域，這一技能是行為識別中的一種。在多個領域都有廣泛的應用。如通過智能監控實時檢測和分析老人的行動，判斷老人是否正常吃飯、服藥、是否保持最低的運動量、是否有異常行動出現（例如摔倒）,確保老人的生活質量。或者是人機交互系統，通過對人的行為進行識別，猜測用戶的「心思」，預測用戶的意圖，及時給予準確的響應。在安防領域，更是可以利用行為識別來進行尋找失蹤人口和嫌犯追逃的工作。

對行為識別的研究可以追溯到1973年，當時Johansson通過實驗觀察發現，人體的運動可以通過一些主要關節點的移動來描述，因此，只要10-12個關鍵節點的組合與追蹤便能形成對諸多行為例如跳舞、走路、跑步等的刻畫，做到通過人體關鍵節點的運動來識別行為。另一個重要分支則是基於RGB視頻做行為動作識別。

然而行為識別是一項具有挑戰性的任務，受光照條件各異、視角多樣性、背景複雜、類內變化大等諸多因素的影響。主要的關鍵點與難點如下：

1、強有力的特徵：即如何在視頻中提取出能更好的描述視頻判斷的特徵。特徵越強，模型的效果通常較好。

2、特徵的編碼（encode）/融合（fusion）：這一部分包括兩個方面，第一個方面是非時序的，另外一個方面是時序上的，一些動作看單幀的圖像是無法判斷的，只能通過時序上的變化判斷，所以需要將時序上的特徵進行編碼或者融合，獲得對於視頻整體的描述。

3、演算法速度：雖然在發論文刷資料庫的時候演算法的速度並不是第一位的。但高效的演算法更有可能應用到實際場景中去。

在深度學習進入該領域前，效果最好的方法是iDT方法（improved dense trajectories)，但是該演算法速度很慢。深度學習大熱之後，自然也沒有放過在該領域大展身手的機會，以下選取一些比較有代表性的深度學習方法論文進行簡要介紹。

(1) Two Stream Network及衍生方法

「Two-Stream Convolutional Networks for Action Recognition in Videos」（2014NIPS）

TwoStream方法最初在這篇文章中被提出，基本原理為對視頻序列中每兩幀計算密集光流，得到密集光流的序列（即temporal信息）。然後對於視頻圖像（spatial）和密集光流（temporal）分別訓練CNN模型，兩個分支的網路分別對動作的類別進行判斷，最後直接對兩個網路的class score進行fusion（包括直接平均和svm兩種方法），得到最終的分類結果。注意，對與兩個分支使用了相同的2D CNN網路結構，其網路結構見下圖。

實驗效果：UCF101-88.0%，HMDB51-59.4%

在two streamnetwork的基礎上的衍生演算法有

1. Convolutional Two-StreamNetwork Fusion for Video Action Recognition（2016CVPR）

在two stream network的基礎上，利用CNN網路進行了spatial以及temporal的融合，將基礎的spatial和temporal網路都換成了VGG-16 network。

實驗效果：UCF101-92.5%，HMDB51-65.4%

2.」Temporal Segment Networks: Towards Good Practices for Deep ActionRecognition」

這篇文章提出的TSN網路也算是spaital+temporal fusion，結構圖見下圖。這篇文章對如何進一步提高twostream方法進行了詳盡的討論。

實驗效果：UCF101-94.2%，HMDB51-69.4%

(2) C3D Network

"Learning spatiotemporal features with 3dconvolutional networks"

C3D是facebook的一個工作，採用3D卷積和3D Pooling構建了網路。通過3D卷積，C3D可以直接處理視頻（或者說是視頻幀的volume）。C3D的最大優勢在於其速度，在文章中其速度為314fps。而實際上這是基於兩年前的顯卡了。用Nvidia 1080顯卡可以達到600fps以上。所以C3D的效率是要遠遠高於其他方法的。

實驗效果：UCF101-85.2%

(3) 其他方法

1.「A Key VolumeMining Deep Framework for Action Recognition」

本文主要做的是keyvolume的自動識別。通常都是將一整段動作視頻進行學習，而事實上這段視頻中有一些幀與動作的關係並不大。因此進行關鍵幀的學習，再在關鍵幀上進行CNN模型的建立有助於提高模型效果。

實驗效果：UCF101-93.1%，HMDB51-63.3%

2. 」Deep Temporal Linear Encoding Networks」

本文主要提出了「TemporalLinear Encoding Layer」時序線性編碼層，主要對視頻中不同位置的特徵進行融合編碼。至於特徵提取則可以使用各種方法，文中實驗了two stream以及C3D兩種網路來提取特徵。

實驗效果：UCF101-95.6%，HMDB51-71.1%（特徵用two stream提取）。應該是目前為止看到效果最好的方法了。

然而，實際應用中，行為識別遠比想像中的困難。實際環境複雜，需要從連續的視頻流和其他感測設備中獲取動態的目標信息，對目標進行定位、跟蹤、判斷動作的起止、分解交織的動作等等，這本身就是一部分艱難的研發任務，同時還要克服背景變化，遮擋、攝像頭抖動等因素。當然，光靠識別單一動作是遠遠不夠的，需要結合畫面中的人臉、衣服顏色、步態等多維特徵構建人體基本信息。

以上只是對近年一些比較有代表性的技術和演算法進行了一個整理與簡述，除了上述的論文外，這個方向這幾年的論文還有許多，有興趣的讀者可以自行上網查閱文獻。可以看出，這幾年行為識別領域發展的非常快，各種各樣的方法被提出。儘管還未被大規模應用，但也不妨提前學習研究，做好準備，畢竟做IT的人不服輸。

附：一些行為識別公開資料庫匯總

1.HMDB51

來源為YouTube視頻，共計51類動作，約7000段視頻。資料庫主頁為：HMDB: a large human motion database

2. KTH人體行為資料庫

該資料庫包括6類行為（walking,jogging, running, boxing, hand waving, hand clapping）,是由25個不同的人執行的，分別在四個場景下，一共有599段視頻。背景相對靜止。正確率需要達到95.5%以上才能夠發文章。下載地址：http://www.nada.kth.se/cvap/actions/

3. INRIA XMAX多視角視頻庫

該資料庫從五個視角獲得，一共11個人執行14種行為。室內四個方向和頭頂一共安裝5個攝像頭。另外背景和光照基本不變。下載地址：http://4drepository.inrialpes.fr/public/viewgroup/6

4. UCF Sports 資料庫

該視頻包括150段關於體育的視頻，一共有13個動作。實驗室採用留一交叉驗證法。2011年cvpr有幾篇都用這個資料庫，正確率要達到87%才能發文章。下載地址：http://vision.eecs.ucf.edu/data.html

5. Hollywood 人體行為庫

該資料庫包括8類行為。這些都是電影中的片段。下載地址：http://www.di.ens.fr/~laptev/actions/hollywood2/

6. Olympic sports dataset

該資料庫有16種行為，783段視頻。現在的正確率大約在75%左右。下載地址：http://vision.stanford.edu/Datasets/OlympicSports/

7. 谷歌AVA dataset

是YouTube上提取的被標註的80個原子動作。共5.8萬個片段，包含握手、踢腿、擁抱、接吻、喝酒、玩樂器、散步等日常活動。下載地址：https://research.google.com/ava/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 美亞柏科 的精彩文章:

※卡巴斯基：發現最強大的Android間諜軟體「Skygofree」！

TAG:美亞柏科 |