美圖AAAI 2018論文：視頻語義理解的類腦智能

新聞 04-02

雷鋒網 AI 科技評論按：近日，美圖雲視覺技術部門與中科院自動化所共同合作研發，提出一種基於類腦智能的無監督的視頻特徵學習和行為識別的方法 NOASSOM (Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature Extraction for Human Action Recognition)，該方法不依賴於標籤信息，可以自適應地、無監督地學到視頻的特徵表示，相關成果已發表在 AAAI 2018 上，並以 oral 的形式在大會上進行了報告。

視頻語義理解一直是學術界的研究熱點之一。近兩年隨著短視頻領域的火爆發展，圍繞短視頻的業務場景應用也在增長，工業界應用場景都對視頻內容理解提出了迫切的落地需求。與學術界用的確定性數據集不同，工業界業務產生的視頻數據具有如下特點：首先，數據量大，每天都會有成千上百萬的視頻被上傳；其次，內容未知，現實生活中的場景是很複雜的，尤其對於 UGC 內容，無法確定用戶上傳的視頻中的主體和場景，行為更是無法預測；再次，時效性，在不同的時間段內視頻的主題、場景以及行為是不同的，它可能會隨著時間發生變化進行轉移。因此，在這樣的數據集上人工建立標籤體系非常困難。NOASSOM 演算法的提出有效解決了演算法模型在訓練過程中無標籤輸入的問題。

NOASSOM 是通過模擬視覺皮層中表面區域的結構來構建的，以數據驅動自組織更新，恢復基本視覺皮層中的神經元對輸入刺激的反應。NOASSOM 是對 ASSOM 方法的改進。ASSOM 是一種特徵提取方法，它可以從輸入數據中學習統計模式，並對學到的模式進行自組織排列，從而進行特徵表示。但是 ASSOM 只能處理有標籤的數據，並且只對線性化的數據有效，無法勝任其他複雜情形。NOASSOM 的提出解決了 ASSOM 的這兩個重要問題。首先，NOASSOM 通過引入一個非線性正交映射層，處理非線性的輸入數據，並使用核函數來避免定義該映射的具體形式。其次，通過修改 ASSOM 的損失函數，使輸入數據的每個樣本可以獨立地貢獻於損失函數，而不需要標籤信息。這樣，NOASSOM 可以有效地、無監督地學習數據的統計模式和本徵表示。圖 1 示意了 NOASSOM 與 ASSOM 的網路結構區別。

圖 1 NOASSOM 與 ASSOM 網路結構

ASSOM 由輸入層、子空間層、輸出層組成。NOASSOM 比 ASSOM 增加一個非線性正交映射層，用於實現輸入層和子空間層的非線性正交映射。為保證映射後的子空間基向量仍然保持正交性，NOASSOM 採用正交約束的核函數：

輸出層使用輸入在子空間的投影表示：

使用投影殘差構建損失函數：

原始的 ASSOM 的損失函數表示如下：

通過修改損失函數使每個樣本獨立地貢獻於損失函數，而不必使用 Class-specific 的數據進行有監督訓練。NOASSOM 使用隨機梯度下降法對網路進行訓練。

在每次迭代之後，重新對基向量進行正交化處理。演算法流程圖如下：

NOASSOM 論文進一步還提出一個層級的 NOASSOM 來提取高層的抽象特徵，有效地描述視頻中行為軌跡的表觀和運動信息，構建了一個層級的 NOASSOM 結構提取視頻中的局部行為特徵，並使用 FISHER VECTOR 進行聚合編碼，採用 SVM 進行分類，如圖 2 所示。

圖 2 層級 NOASSOM 特徵提取框架

訓練得到的基向量的可視化結果如圖 3 所示，左邊是表觀信息濾波器，右邊是運動信息濾波器。可以看出表觀信息濾波器可以學到一些類似邊緣檢測的濾波器，這樣類型的濾波器對圖像的水平邊沿和垂直邊沿能進行檢測，從而提取良好的輪廓紋理信息。右邊的運動信息濾波器學到了一些類似 Gabor 濾波器的濾波器，這樣的濾波器對運動信息更加敏感，實現對運動信息進行良好的提取。

圖 3 NOASSOM 中基向量的可視化結果

NOASSOM 中訓練得到的基向量的可視化結果如圖 2 所示，左邊是表觀信息濾波器，右邊是運動信息濾波器。可以看出表觀信息濾波器可以學到一些類似邊緣檢測的濾波器，這樣類型的濾波器能對圖像的水平邊沿和垂直邊沿進行檢測，從而提取良好的輪廓紋理信息。右邊的運動信息濾波器學到了一些類似 Gabor 濾波器學到的信息，這樣的濾波器對運動信息更加敏感，實現對運動信息地魯棒性提取。

NOASSOM 在國際公開大型數據集 UCF101, HMDB51 和小型數據集 KTH 上進行了評測，獲得了 93.8%，69.3% 和 98.2% 的識別率。在 UCF101 和 HMDB51 上，分別超出使用手工特徵的 iDt+HSV 基準方法 5.9% 和 8.2%，並且分別超出使用卷積神經網路模型的 iDt+CNN 方法 2.3% 和 3.4%，在 KTH 上超過 iDT+MBH 的基準方法 3.2% 以及基於 3D CNN 的方法 8.0%。公開數據集上的實驗結果表明，這種方法優於之前基於手工特徵的方法和大多基於深度特徵的方法。此外，在小資料庫上，性能更加優於基於 CNN 的方法。更多的技術細節和實驗結果請參考原始論文。

NOASSOM 方法的獨特優勢在於，可以從大量沒有標籤的數據進行更加快速的訓練，並且獲得和其他基於有標籤數據方法性能相當甚至更加優越的性能。基於這項技術的輸出將被應用於美拍短視頻多個業務場景中，如相似視頻的推薦和大規模視頻檢索，基於短視頻內容的用戶聚類和畫像，以及基於短視頻內容的運營標籤挖掘等等。

附：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※加州放開路測限制，完全無人駕駛汽車今年 4 月即可上路
※胡揚忠：海康威視 AI 平台將正式對外開放

TAG:雷鋒網 |