多模態視頻人物識別的關鍵技術與應用-愛奇藝技術沙龍

科技 04-16

近年來，隨著深度學習技術在圖像語音等領域的快速發展與應用，人物識別相關技術已日趨完善。但是傳統的研究方法往往側重於單一信息的模式識別，無法挖掘各模態信息之間的關聯性和可遷移性，無法對多模態信息進行高效融合。

將多模態技術應用於視頻業務中並不是一件很容易的事，主要難點在於需要探索高效整合的方式，採用模型學習和人工先驗結合的方式進行多模態信息整合，其中文本的抽象內容標籤和圖片、音頻的具體標籤的對應關係是最困難的，多模態信息融合策略、加速的問題如何迎刃而解？

本期愛奇藝技術沙龍也將圍繞「多模態視頻人物識別的關鍵技術與應用」這一主題，邀請來自中科院的技術專家，愛奇藝、英偉達等知名企業的技術專家，共同深度探討多模態視頻人物識別領域的難點與解決方法。

活動議程

主講嘉賓簡介

路香菊

愛奇藝科學家

路香菊博士，愛奇藝科學家，PersonAI團隊負責人，專註人物識別及視頻分析，創建百萬人物庫及兩萬卡通庫。組織創辦「愛奇藝多模態視頻人物識別賽」，開放全球首個影視視頻人物數庫iQIYI-VID。

演講主題：愛奇藝多模態人物識別及應用

海量視頻人物識別中的難度及挑戰，多模態與多任務訓練策略，愛奇藝多模態人物挑戰賽及視頻人物數據集iQIYI-VID的介紹，愛奇藝多模態人物識別技術如何輔助提升用戶體驗與智能創作，所支持的相關產品介紹。

神秘嘉賓

中科院計算所研究員

來自學術界的博士、博士生導師。主要研究複雜真實場景下的圖像視頻目標識別與檢索等問題。目前在領域主流國際期刊和會議發表論文60餘篇，獲授權國家發明專利6項，並於2015年獲得國家自然科學獎二等獎。

演講主題：面向視頻人臉識別與檢索的非線性度量學習

隨著視頻採集及存儲設備的廣泛採用，有關視頻人臉識別與檢索的研究課題正受到越來越多的關注。通過將視頻表示為圖像集合，本報告將介紹講者近年來圍繞圖像集合的黎曼流形統計建模、面向識別的黎曼度量學習、面向檢索的哈希學習等方面開展的一些研究工作。此外，報告也將分享近期在大規模圖像多功能哈希學習方面取得的一些進展。