基於運動目標三維軌跡重建的視頻序列同步演算法

最新 01-11

「

視頻配準是計算機視覺領域中一個重要的基礎問題。涉及多個時空關聯視頻的視覺應用通常需要首先執行視頻配准，即通過聯合估計時間空間映射，將多個圖像序列註冊到統一的時間空間中，例如動作識別、基於內容的視頻檢索、多視頻監控以及三維重建與可視化等。

為了降低問題的複雜度，研究者們提出各種假設以減少待估計參數的數目。假設相機靜止或聯合運動相機，則空間變換關係恆定不變。假設相機沿相似軌跡運動，則對應圖像幀之間的相機運動可僅用旋轉矩陣表示（忽略平移）。假設時域映射為線性關係，例如兩序列間僅存在一個常數偏移量，或者幀率比不為1，則可以用一個簡單的參數化模型來描述該類時域映射。此外，關於演算法的輸入，現有演算法一般假設特徵點跟蹤持續整個圖像序列，且序列之間的特徵點對應關係已知。然而，實際問題要遠比這複雜得多。首先，對於自由運動相機和非剛性動態場景（多個運動目標）來說，由於遮擋、運動模糊、複雜背景、超出視野範圍等原因，要在多個視頻中做到長時間精確跟蹤同一個特徵點是十分困難的，在某些情況下甚至是不可能的。其次，在成像面上投影形成的光流是由相機自運動和目標運動共同產生的，如何對光流解耦，消除相機自運動的影響，從而得到序列時域配準的線索——目標運動，這是一個病態問題。另外，線性時域映射也無法處理非均勻時域採樣、丟幀等問題。

圖 1第一人稱視角圖像序列通過非線性映射實現時域配准

Fig.1 Two video sequences caputered by first-person cameras are temporally aligned via a nonlinear transformation

如圖1所示，針對同時空採集模式（多個相機在同一個時間空間中從不同視角對某個動態場景進行記錄），本文提出一種基於運動目標三維軌跡重建的多視頻時域配准演算法。其主要思路是基於軌跡基函數重建目標的三維軌跡，然後利用不同序列重建的三維運動軌跡來同步圖像序列。我們提出一種基於軌跡基係數的秩約束，結合基於圖的最優路徑搜索演算法，實現視頻間的非線性時域配准。該方法不要求跟蹤特徵點軌跡持續整個序列，也不依賴已知的序列間點對應關係。本文在模擬數據和真實數據集上驗證了提出方法的魯棒性和性能。

引用格式

王雪, SHI Jian-Bo, PARK Hyun-Soo, 王慶. 基於運動目標三維軌跡重建的視頻序列同步演算法. 自動化學報, 2017, 43(10): 1759-1772

作者簡介