谷歌發布電影動作數據集AVA，57600精準標註視頻教AI識別人類行為

新聞 10-25

【AI WORLD 2017世界人工智慧大會倒計時16天】

「AI達摩」齊聚世界人工智慧大會，AI WORLD 2017議程嘉賓重磅發布

大會早鳥票已經售罄，現正式進入全額票階段。還記得去年一票難求的AI WORLD 2016盛況嗎？今年，即將於2017年11月8日在北京國家會議中心舉辦的AI World 2017世界人工智慧大會上，我們請到CMU教授、冷撲大師發明人Tuomas Sandholm、百度副總裁王海峰、微軟全球資深副總裁王永東、亞馬遜AWS機器學習總監Alex Smola 、科大訊飛執行總裁胡郁，華為消費者事業群總裁邵洋、騰訊優圖實驗室傑出科學家賈佳亞等國內外人工智慧領袖參會並演講，一起探討中國與世界AI的最新趨勢。

點擊文末閱讀原文，馬上參會！

搶票鏈接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

大會官網：http://www.aiworld2017.com

新智元編譯

來源：qz.com

作者：Dave Gershgorn 編譯：馬文

【新智元導讀】教機器理解視頻中的人的行為是計算機視覺中的一個基本研究問題，谷歌最新發布一個電影片段數據集AVA，旨在教機器理解人的活動。該數據集以人類為中心進行標註，包含80類動作的 57600 個視頻片段，有助於人類行為識別系統的研究

數據集地址：https://research.google.com/ava/

論文：https://arxiv.org/abs/1705.08421

教機器理解視頻中的人的行為是計算機視覺中的一個基本研究問題，對個人視頻搜索和發現、運動分析和手勢界面等應用十分重要。儘管在過去的幾年裡，對圖像進行分類和在圖像中尋找目標對象方面取得了令人興奮的突破，但識別人類的動作仍然是一個巨大的挑戰。這是因為動作的定義比視頻中的對象的定義要差，因此很難構造一個精細標記的動作視頻數據集。許多基準數據集，例如 UCF101、activitynet 和DeepMind 的 Kinetics，都是採用圖像分類的標記方案，在數據集中為每個視頻或視頻片段分配一個標籤，而沒有數據集能用於包含多個可能執行不同動作的人的複雜場景。

谷歌上周發布一個新的電影片段數據集，旨在教機器理解人的活動。這個數據集被稱為 AVA（atomic visual action），這些視頻對人類來說並不是很特別的東西——僅僅是 YouTube 上人們喝水、做飯等等的3秒鐘視頻片段。但每段視頻都與一個文件捆綁在一起，這個文件勾勒了機器學習演算法應該觀察的人，描述他們的姿勢，以及他們是否正在與另一個人或物進行互動。就像指著一隻狗狗給一個小孩看，並教他說「狗！」，這個數據集是這類場景的數字版本。

與其他動作數據集相比，AVA具有以下幾個關鍵特徵：

以人類為中心的標註（Person-centric annotation）。每個動作標籤都與一個人相關聯，而不是與一個視頻或視頻剪輯關聯。因此，我們能夠為在同一場景中執行不同動作的多個人分配不同的標籤，這是種情況很常見。

原子視覺動作（Atomic visual actions）。我們將動作標籤限制在一定時間尺度（3秒），動作需要是物理性質的，並且有清晰的視覺信號。

真實的視頻材料。我們使用不同類型、不同國家的電影作為AVA的數據源，因此，數據中包含了廣泛的人類行為。

3秒視頻片段示例，每個片段的中間幀都有邊界框標註。（為了清晰起見，每個樣本只顯示一個邊界框）

當視頻中有多個人時，每個人都有自己的標籤。這樣，演算法就能知道「握手」的動作需要兩個人。

AVA 中共同出現頻率最高的動作對

這項技術可以幫助谷歌分析 YouTube 上的視頻。它可以應用來更好地投放定向廣告，或用於內容過濾。作者在相應的研究論文中寫道，最終的目標是教計算機社會視覺智能（social visual intelligence），即「理解人類正在做什麼，他們下一步將會做什麼，以及他們想要達到的目的。」

AVA 數據集的動作標籤分布（x軸只包括了辭彙表中的一部分標籤）

AVA 數據集包含 57600 個標記好的視頻，詳細記錄了80類動作。簡單的動作，例如站立、說話、傾聽和走路等在數據集中更有代表性，每個標籤都有超過1萬個視頻片段。研究人員在論文中寫道，使用電影中的片段確實會給他們的工作帶來一些偏見，因為電影有其「語法」，一些動作被戲劇化了。

「我們並不認為這些數據是完美的。」論文中寫道：「但這比使用由用戶上傳的內容更好，比如動物雜耍視頻、DIY教學視頻、兒童生日派對之類的視頻等等。」

論文引用中試圖找到「不同國籍的頂級演員」，但沒有詳細說明數據集可能會因種族或性別而產生偏見。研究者希望AVA的發布將有助於人類行為識別系統的研究，為基於個人行為層面的精細時空粒度的標籤對複雜活動進行建模提供機會。

原文：https://qz.com/1108090/google-is-teaching-its-ai-how-humans-hug-cook-and-fight/

【AI WORLD 2017世界人工智慧大會倒計時 16 天】點擊圖片查看嘉賓與日程。

大會門票銷售火熱，搶票鏈接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

【掃一掃或點擊閱讀原文搶購大會門票】

AI WORLD 2017 世界人工智慧大會購票二維碼：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※美媒：現在是投資AI股票的最佳時機
※「吳恩達推薦」40歲開始學習，4周編寫第一個AI演算法的經驗談

TAG:新智元 |