當前位置：

首頁 > 新聞 > 「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型，舉一反三生成多角度描述

「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型，舉一反三生成多角度描述

新聞 08-06

「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型，舉一反三生成多角度描述

1新智元專欄

「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型，舉一反三生成多角度描述

近年來，如何自動生成視頻描述引起了研究人員的廣泛興趣。我們希望計算機在看到一段視頻的時候，可以根據視頻的內容「講故事」。但是，視頻描述模型的訓練通常需要大量複雜的並且帶有一定主觀性的人工標註。在目前的數據集構建過程中，標註人員會在看過一段視頻之後，用一句話描述視頻的內容。但是，一段視頻中通常會發生幾個不同的事件，而由於標註人員具有一定主觀性，我們既不知道他的描述是針對哪個事件，也不知道他所描述的事件對應不同幀上的哪一個區域。現有方法的局限在於：或者認為一段視頻當中只發生了一件事，只需要生成一句描述；或者需要訓練數據對視頻里的不同事件以及事件對應的不同區域進行詳細的標註。這些都給視頻的標註工作和結果評估帶來了巨大的困難。

「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型，舉一反三生成多角度描述

圖 1 視頻密集描述生成模型

針對上述問題，英特爾中國研究院率先提出了弱監督視頻密集描述生成的方法，不需要訓練數據對視頻中的不同事件和對應區域進行分別標註，而僅僅使用標註員對視頻的一句話描述，就可以自動產生多角度的視頻描述，並且從中挑選出最具代表性的描述語句。這樣，計算機就不用人「手把手教」，而是可以做到「舉一反三，舌燦蓮花」。

我們的模型可以分為三個部分：

首先，在提取視頻特徵時，我們提出了Lexical-FCN模型，使用弱監督多實例多標籤演算法（Multi-instance Multi-label learning），構建一個從視頻的區域序列到單詞的弱映射，從而得到一個包含語義信息的視頻特徵。

「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型，舉一反三生成多角度描述

圖 2 Lexical-FCN 生成視頻區域到單詞的弱映射

從圖3可以看出，雖然訓練數據並沒有提供每個單詞對應視頻幀的位置，模型還是可以學習到視頻在不同幀中對單詞響應最大的區域。

「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型，舉一反三生成多角度描述

圖 3 視頻特徵語義響應示意圖

其次，在生成視頻區域序列時，我們採用子模塊最大化方案，根據Lexical-FCN的輸出在視頻中自動生成具有多樣性的區域序列。這種方法可以同時保證區域序列具有一定信息量，在不同幀的區域選擇上具有內容一致性，並且可以最大限度的保留序列之間的差異。

「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型，舉一反三生成多角度描述

圖 4 區域序列生成

最後，根據已生成的視頻區域序列，我們使用雙向LSTM模型生成對應的描述語句。在已生成的多個句子中，通過計算句子的信息量得分，可以從中挑選出最具有整體代表性的句子描述。從實驗結果可以看出，自動生成的語句具有內容上的多樣性。即使只衡量視頻的單個描述結果，我們的句子質量依然優於其他模型。

「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型，舉一反三生成多角度描述

圖 5 描述結果語義多樣性展示

「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型，舉一反三生成多角度描述

表 1 單個模型在MSR-VTT數據集上的實驗結果比較

「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型，舉一反三生成多角度描述

圖 6 視頻密集描述生成結果展示

弱監督視頻描述密集生成方法，提供了在視頻訓練數據對區域標註信息不完整的情況下，計算機自動學習並從多角度生成語義豐富的視頻描述的解決方案，也將機器的視覺理解向著更少人工，更全面理解的方向推進了一步。目前，相關文章已經發表在CVPR2017，歡迎大家持續關注。

附：論文鏈接 https://arxiv.org/abs/1704.01502

點擊閱讀原文可查看職位詳情，期待你的加入~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※Gartner重磅發布2017新興技術成熟度曲線：13大AI技術處曲線巔峰
※「IEEE Spectrum」神經網路視覺分類演算法的意外弱點
※「中美AI實力對比」中國數據龐大多樣性差，公司強大影響力差
※多目標跟蹤突破：上交大&中興 MOT Challenge 測評獲第一

TAG:新智元 |

您可能感興趣

※世界首創！CRISPR 調控單一基因位點生成幹細胞
※牛津大學提出全新生成式模型「SQAIR」，用於移動目標的視頻理解
※數據挖掘面試題之：生成模型 VS 判別模型
※在VR中模擬嗅覺？深度解析氣味生成裝置VAQSO VR
※黑白草圖就能生成2K視頻？NVIDIA超狂AI模型了解一下
※PHP 生成 CSV 文件
※劇本自動生成電影：杜克大學提出AI視頻生成新方法
※SOI生成方式演進，這項技術呼聲最高
※文本挖掘：LDA文檔主題生成模型
※上交大推出新型無監督生成模型演算法CoT，性能比GAN穩定！
※DeepMind提出圖形的深度生成式模型，可實現任意圖形的生成
※評價端到端生成式聊天系統，哈工大提出新型數據集 LSDSCC
※藝術字生成快捷指令下載 iPhone一鍵生成藝術字圖片教程
※Nvidia研發出能生成腦癌合成掃描的AI系統
※用 Pandoc 生成一篇調研論文
※PPT圖表進階技巧：如何讓生成的柱圖更迷人
※《殭屍世界大戰》AI程序化生成核心特色解釋
※告別歧視和偏見，用AI自動生成維基百科詞條
※超火的卡點視頻，一鍵生成！
※NVIDIA面目生成器再做突破