極鏈科技首席科學家姜育剛：VideoAI的過去、現在和未來

知識 07-25

機器之心報道

演講者：姜育剛

整理：茜茜

市北·GMIS 2019 大會上，極鏈科技首席科學家、復旦大學計算機科學技術學院教授姜育剛為我們細緻解讀了 VideoAI 技術。

1991 年，好萊塢電影《終結者 2·審判日》就曾暢想過計算機的 AI 能力，除了檢測，還能識別。直到十年前，智能視頻技術還無法實用。

隨著數據、演算法、算力的綜合發展，智能視頻技術也取得了迅速發展，如今，已經在安防、醫療、金融、消費級視頻、新零售、輔助駕駛、工業視覺檢測等多個領域得到廣泛應用。

2015 年，視頻在互聯網中的佔比達到 70%；根據思科的預測，2020 年，佔比將達到 82%。在視頻數據大爆發的背景下，智能視頻技術成為關乎國家安全需求和國民經濟發展的共性關鍵技術。

成立於 2014 年的極鏈科技，將智能視頻技術應用於消費級視頻，目前已成為該領域的佼佼者，獲阿里、曠視投資，估值已達 70 億。

在今年上海召開的市北·GMIS 2019 大會上，我們邀請到了極鏈科技首席科學家、復旦大學計算機科學技術學院教授姜育剛，講述 VideoAI（智能視頻技術）的發展史，分享這項技術當下遇到的挑戰，以及極鏈科技的破局思路。

以下為演講內容，機器之心進行了不改變原意的編輯、整理：

大家下午好！非常高興和榮幸到這裡給大家做一個報告。

我今天聚焦在視頻數據上，給大家簡單回顧過去、介紹現在、展望未來。

視頻大數據的大背景下，智能視頻技術已成關鍵技術

我們先看一看背景。以思科公司統計數據為例：2015 年，視頻的互聯網佔比大概是 70% 左右。根據思科的預測，2020 年大概會佔到 82%，我估計現在的總量大概 80%。也就是說，互聯網的數據量中，大概有 4/5 是視頻。如果讓一個人去看現在互聯網每個月跑過的視頻的量，大概需要 500 萬年。

而且，互聯網上的視頻還僅僅是整個視頻大數據中的一部分，還有很多監控領域的視頻並沒有走互聯網。

所以，在視頻大數據這樣一個大背景下，智能視頻技術已經成為關乎國家安全需求和國民經濟發展的共性關鍵技術。

我先提一下在國家安全需求方面，智能視頻技術能發揮的作用：

一個是，數據流量爆發給監管帶來挑戰，這裡面有一些政治敏感的內容，還有一些色情暴恐的內容。國家對此也非常重視，採用了很多技術手段去監測互聯網上的暴恐內容。

另一個是，最近，隨著技術的發展，我們剛剛開始有所謂的新型的安全挑戰，挑戰很多，最近是很熱的話題，但是做的人相對少一些，因為剛剛啟動。我列了兩點：

一個是智能視頻的生成，另外一個是人工智慧換臉。AI 換臉，比如前段時間比較火的，把楊冪的臉放在朱茵的臉上，大家看到的效果也是非常不錯的。從娛樂的角度或者某些應用的角度來講，換臉這個技術還是不錯的。

但問題是，如果技術被濫用，比如，模仿各個國家的領導人講話，怎麼辦？

技術被濫用帶來的威脅是非常大的。我們怎麼應對這樣的挑戰？

一方面，我們研究人工智慧技術，生成非常逼真的視頻內容；另一方面，我們也要考慮這些技術如果被濫用帶來的一些負面影響。比如說，我們要研究怎麼用人工智慧的手段去檢測這些人工智慧生成的數據，判斷出它是演算法生成的而不是真實的，這是現在比較重要的一個方向。

極鏈科技：關注互聯網消費視頻

極鏈科技的應用主要圍繞國民經濟的發展，專註於互聯網消費視頻。所謂的互聯網消費視頻，是指大家經常在網上看的短視頻、長視頻、電影、電視等。

消費視頻有很多特點，比如，類目非常多樣，包含電影、電視、綜藝、體育、短視頻等。安防視頻通常都是監控攝像頭打過去，大部分背景是固定的，只關注裡面的運動目標——通常是人車物這三種，相對來講，目標更單一。

消費視頻的另一個特點是場景非常複雜。安防視頻的攝像頭是固定的，背景非常穩定。消費視頻，有的是專業人士用專業設備拍的，有的是業餘用手機拍的。專業拍攝里有很多鏡頭切換，手機拍的經常會有抖動，內容質量各方面參差不齊，且內容複雜。在這樣的數據上做內容識別，相對會難一些。

在這樣的背景下，極鏈科技主要用 VideoAI 的技術做兩個層面的事：

一個是內容理解，包括鏡頭識別、場景識別、事件識別、語音識別。做完這些之後，我們可以在裡面插入很多智能廣告——就是與內容相關的廣告，讓用戶產生更多場景的共鳴。

另一個是通過我們的 AI 技術，為擁有視頻內容的用戶提供審核服務，幫這些用戶把敏感信息、暴恐信息檢查出來。

十年前，視頻內容的智能識別技術還相當落後

我們簡單回顧一下過去。

十年前，很多相機上已經有人臉檢測的功能了。對著人拍照的時候，能夠自動把人臉框起來。不是識別，只是檢測，知道人臉在哪裡，幫助相機更好的對焦。

十年前，在圖像里做物體檢測，檢測結果也是非常粗糙的，非常不準確。

2010 年，我在國外參加過一個互聯網視頻內容識別的項目。第一次做這個項目是通過美國國家標準局舉辦的一個比賽，在裡面加了一個任務：視頻事件檢測。

第一年，他們只做了三個事件，一個是做蛋糕，一個是搭帳篷，還有一個是棒球裡面的一個動作，一個序列，叫 Batting a run in。

在很小的視頻量上檢測這三個動作，大概是什麼結果？大家可以看這張圖：

整體上，error 越低越好。彩色的是我在哥倫比亞大學的時候提交的，結果是最好的，error 大概是 50% 多一點。也就是說，超過一半是錯的，在這樣的情況下，還是排名最好的。所以，大家看到，十年前，視頻內容的智能識別技術是相當落後的，沒有辦法實用。

我們再看看現在。隨著深度學習、人工智慧技術的發展，演算法、算力、數據全面發展，帶來了行業欣欣向榮的狀態。各個行業里，有很多非常優秀的公司，做的很多產品也比較實用。

VideoAI 核心技術：全序列分析實現高精度識別

我們看看 VideoAI 的技術流程。

在消費視頻里做內容識別，基本上要經過這麼幾步：

首先，在輸入層，做視頻源管理；

然後，在這個基礎上處理視頻，做鏡頭分割、採樣、增強、去噪等工作。如果做抖音這樣的視頻，就不需要做視頻分割；如果做電影、電視這種長視頻，我們要把它切成比較小的單元，通常，是以鏡頭為單元來切。

後面，到內容提取層，做檢測、跟蹤、識別、檢索，這些都屬於模式識別里的基本動作。

之後，做語義的融合，把目標軌跡做融合，甚至分析高層語義的關聯關係，比如，A 和 B 是不是應該一起出現。

最後，輸出結果，進行結構化的管理。基於這樣的結果，可以做很多應用。

極鏈科技 VideoAI 的核心技術是：全序列分析實現高精度識別。

很多時候，消費視頻的內容比較複雜，同時可能存在著大量的鏡頭切換。鏡頭抖動，會造成多個目標同時出現，直接提取信息的時候會非常混亂。在這樣的數據上，我們用了一種跟蹤的手段。

我們在識別視頻里的目標時，不是說隨機采一幀就處理了，而是會對小目標進行一段時間的跟蹤。跟蹤一段時間後，再根據跟蹤的幀去判斷，哪一幀的質量比較好；在多幀識別後，進行一個整體融合。

舉個例子，比如在視頻里做人臉識別，其實視頻里有很多人在動，有時候是側臉，有時候甚至是背過身去，對這樣的人進行人臉識別，首先要判斷哪一幀適合做識別，比如正臉、清晰度很高的。因為有很多幀是有運動模糊的，所以需要做一些這樣的判斷。

我們可以識別八大維度，包括人臉、物體、品牌、地標、事件、動作等等，並做到比較高的識別精度。比如，我們連續兩年（2018、2019）在谷歌的地標比賽中拿到全球第一名。

「神眼系統」

極鏈科技還有一個產品，叫神眼系統，目前有很多大平台在使用。

內容審核這一塊，我們提供用戶生成內容（UGC）的審核，包括廣告內容審核以及鏡頭級的版權保護。

近年來，團隊在相關的比賽中持續拿到了一些比較好的成績。比如，在谷歌舉辦的地標識挑戰賽中連續兩年拿到全球第一名；在全國網路輿情分析邀請賽（音視頻）中拿到金獎；最近，在一周前剛剛結束的 ICME（IEEE 多媒體國際會議）上獲得最佳論文獎，我們的智能廣告投放演示還在大會上拿到了 Best Demo Runner-up Award。

展望未來：構建全新多維度數據集 VideoNet

未來，我想先在數據的基礎上討論。

大家看這張圖，上面是一些流行的關於圖像識別的數據集，橫軸是類別的數量，縱軸是樣本（圖片）的數量。類別和圖片數量都很多的，就是 ImageNet。ImageNet 對深度學習在 CV 領域的發展貢獻非常大。

再看這張圖，視頻領域，現在比較大的數據集就是 YouTube-8M（800 萬個 YouTube 視頻），是谷歌公布的一個數據集。

Fudan-Columbia Video Dataset (FCVID) 是我們復旦大學 2015 年公布的一個數據集，只有九萬多個視頻，也是 YouTube 上的一個數據。

這些數據都是整個視頻層面的標籤，一個 YouTube 視頻，我們可能五分鐘、十分鐘標出來。比如，這是關於小孩子過生日或者關於畢業典禮，只有一兩個標籤。

YouTube-8M，有 4000 多個標籤/類別。典型的分類和打標籤的任務，就是每個視頻只有一兩個標籤。受限於版權問題，谷歌不能提供原始視頻，只提供了 YouTube 上的 ID。幾年以後，拿著 ID 找視頻，找不全，因為有些視頻已經被原始用戶刪掉了。

所以，數據有很多問題。數據全，我們才能跟歷史的方法做比較。但是現在已經拿不到全面的數據了。

那麼，在視頻裡面的數據問題是什麼呢？大部分現有的數據集都是在整個視頻層面或者一段視頻層面的標籤，標註了這一段視頻里有什麼樣的內容，但是視頻里每個人、每個物體都出現在什麼位置（時間位置和空間位置），都不知道。

為什麼不知道呢？做這件事的代價非常高，受限於各種各樣成本的限制，沒有辦法去做。

基於這樣一個問題，我們最近下定決心想在這方面做一些嘗試。今年，極鏈科技和復旦大學聯合舉辦了一個 VideoNet 視頻內容識別挑戰賽。

我們希望通過幾年持續的努力，在視頻層面構建這樣一個數據級：第一，視頻量比較大；第二，標註的類別非常多；第三，標註出類別出現在視頻中的具體的時空位置。

這非常重要，如果沒有這樣的數據，就沒有辦法訓練演算法去理解視頻非常詳細的內容，演算法的發展就會非常受限。

今年，這個比賽剛剛開始，到目前為止，已經有 319 個隊報名。我們第一年的數據量不是非常大，我們在逐步往這個方向走。如果大家感興趣，可以掃二維碼關注一下。

在 VideoNet 這樣一個數據集里，我們想做什麼事呢？

以上面這張圖舉例，除了標註整個視頻是過生日慶祝的事件，我們還要標註裡面的每個人出現在什麼位置，什麼物體（比如蛋糕）在什麼位置出現，包括這是一個什麼樣的場景。我們希望把所有的內容都標註出來，這樣後面就可以訓練一個非常好的演算法。

大部分現有的數據集都是只有一種語義類型，比如，只關注了場景，只關注了物體或者只關注了事件。VideoNet 數據集里有幾種語義類型。

智能視頻技術面臨的最大問題：訓練數據不完整

這張 PPT 里，有三個很小的圖像的小塊，大家可以猜猜裡面是什麼內容。

其實，基於這樣小的圖像塊，會發現非常難猜。把它放大一點，放在整張圖上，再猜一猜。

最左邊，你覺得是什麼？顯示器？中間呢？右邊呢？很多人會猜是帽子。

我給大家看看原始的是什麼。

這個是跟大家開一個玩笑。左邊是 MIT 的實驗室做的，他們也在考慮上下文的重要性。他故意把垃圾筒放在顯示器的位置，電話是一個鞋子；右邊這個人頭上扣著一個垃圾筒。這種圖並不是很頻繁出現。

我想用這幾張圖說的是：你理解一個物體是什麼的時候，雖然它很模糊，但是你能夠根據它出現的場景把它猜出來。這一點很重要。

為什麼我們希望在視頻里做一個含有多維度的數據？同樣的道理，當你知道這個場景是什麼，知道某些物體是什麼的時候，可以幫你推斷其他的物體是什麼。

如果一個數據裡面只告訴計算機，這個視頻是一個關於什麼內容的視頻，不告訴它裡面是什麼場景、什麼物體，它就沒有辦法去學。

所以，可以講，在視頻層面，技術發展的階段，雖然在很多場景下可以使用，但是也存在很多問題。現在最大的問題就是受限於訓練數據非常匱乏且標籤不全面的狀態。數據很多，但是有標註信息的、有機器能學的知識的數據很少。

以極鏈科技在商業應用里遇到的目標識別問題舉例。大家看這張圖，識別奶瓶。奶瓶在視頻中其實是非常小的物體，直接提取特徵進行識別是蠻難的。如果提取整個視頻的特徵，背景已經把奶瓶這個信息覆蓋掉了，很難識別到奶瓶。

如果通過上下文的信息推理：奶瓶通常是跟小孩子一起，跟小孩子的嘴巴、臉在一起，在這樣一個邏輯下，如果你有這樣的一個知識/數據去訓練一個方法，可能會把直接識別比較難的問題轉化成比較容易的問題。

這是我們最近的嘗試，我們也相信，VideoAI 這一塊的技術，在這樣一些數據的幫助下，會往更好的方向去發展。

最後，跟大家報告一下，極鏈科技和復旦成立了「復旦-極鏈智能視頻技術聯合研究中心」。通過整合學校科研團隊的基礎科研能力和極鏈做產業應用的能力，希望能夠給大家帶來更多的技術，包括公益性的更多的數據，大家共同推動 VideoAI 技術的發展和落地應用。謝謝大家！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※3D重建傳統演算法對比深度學習，SFU譚平：更需要的是二者的融合
※超全深度學習細粒度圖像分析：項目、綜述、教程一網打盡

TAG:機器之心 |