聚焦解析：視頻用AI與圖像用AI的區別

最新 02-27

與圖像處理相比，從視頻當中提取見解或使用AI技術既帶來新的挑戰，同時也提供可觀的優化賒。有一種誤解認為，視頻AI只是簡單從視頻素材當中提取特定幀，並對各視頻幀運行計算機視覺演算法。雖然這種作法確實可行，但卻並不能真正帶來分析見解。在今天的文章中，我們將通過幾項實例來了解這種處理單一視頻幀方法的缺點。但考慮到篇幅有限，這裡我不會詳細討論克服這些缺點所需要的其它演算法。感興趣的朋友可以參考Video Indexer，其提供了多種能夠實現此類目標的特定視頻演算法。

視頻中出現的人物

我們一起來看以下[視頻]中的前25秒

請注意，在這25秒當中Doug一直出現在畫面之內。

如果要為Doug在視頻當中出現的情況繪製一條時間線，則應該如下圖所示。

請注意，在這一過程當中Doug並非全程面向鏡頭。在視頻的第7秒當中，他有在盯著Emily——第23秒也出現了同樣的情況。

如果您在視頻中的對應時段之內運行人臉檢測，則Doug的面部將無法被檢測到（請參閱以下截圖）。

換句話來說，如果只是在各視頻幀上進行人臉檢測，大家將無法繪製出如上所示的時間線。要獲得這樣的時間線，我們必須有能力跨越視頻分段追蹤面部，並考慮其中出現的臉部側面視圖。Video Indexer能夠追蹤面部，這意味著您將能夠看到之前展示的完整時間軸。

使用光學字元識別提取主題/關鍵詞

請看以下兩幀內容。

這兩幀來自主講人在舞台上進行演講的視頻，後面背景牆上的「Microsoft」一詞一直時隱時現。作為人類觀看者，我們當然能夠輕鬆推斷出其顯示的是「Microsoft」。但如果在這兩張圖片上運行OCR，輸出結果將只有「Microsc」與「crosoft」。如果在視頻剪輯當中處理完整的視頻幀序列，您會得到大量這種殘缺不全的辭彙。為了順利從鏡頭中提取到正確且完整的辭彙，您需要對這種部分辭彙應用演算法。Video Indexer能夠實現這項功能，並從視頻當中獲得更好的分析見解。

人臉識別

人臉識別系統由人臉資料庫組成，而該人臉資料庫則包含一組指向不同人物對象的訓練用圖像。其還提供一項查詢功能，用於從查詢圖像當中提取面部特徵，並將其與人臉資料庫相匹配。查詢函數的輸出結果包含可能的匹配列表以及置信度值。查詢功能的輸出質量，將取決於人臉資料庫與查詢圖像的實際質量。

在視頻處理場景下，其中將包含多個視頻幀，且人物會配合不同的頭部姿態及照明條件亮相。我們當然可以在每位人物出場時採取逐幀處理的方式進行人臉識別系統查詢，但這種作法可能導致各幀之間出現不同的人臉匹配結論與存在巨大差異的置信度值。換句話來說，我們需要使用額外的邏輯層來確定人臉匹配結果。作為優化手段，我們可以選擇合適的幀子集進行有針對性的人臉識別系統查詢，從而減少該系統的實際查詢次數。

在處理視頻時，我們還可以通過使用來自多個視頻幀的人物訓練圖像整理變化趨勢，從而構建並增強人臉資料庫。另外，大家也能夠建立邏輯以追蹤跨幀人物並利用啟發式演算法評估其中的變化。 Video Indexer同樣能夠實現這一功能，意味著用戶將能夠從當前視頻當中構建起質量更高的人臉資料庫成果。

原文標題：How is AI for video different from AI for images

【51CTO譯稿，合作站點轉載請註明原文譯者和出處為51CTO.com】

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 51CTO 的精彩文章:

※20年過去了，為什麼開源還是未能如願改變世界？

TAG:51CTO |