斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

新聞 07-07

1 新智元編譯

斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

視頻數據正在爆炸性地增長——僅英國就有超過400萬個CCTV監控攝像頭，用戶每分鐘上傳到 YouTube 上的視頻超過300小時。深度學習的最新進展已經能夠自動分析這些海量的視頻數據，讓我們得以檢索到感興趣的事物，檢測到異常和異常事件，以及篩選出不會有人看的視頻的生命周期。但是，這些深度學習方法在計算上是非常昂貴的：當前 state-of-the-art 的目標檢測方法是在最先進的NVIDIA P100 GPU上以每秒10-80幀的速度運行的。這對單個視頻來說還好，但對於大規模實際部署的視頻來說，這是難以維持的。具體來說，假如用這樣的方法來實時分析英國所有的CCTV監控視頻，僅在硬體上就得花費超過50億美元。

為了解決視頻增長速度與分析成本之間的巨大差距，我們構建了一個名為 NoScope 的系統，與目前的方法相比，它處理視頻內容的速度要快數千倍。我們的主要想法是，視頻是高度冗餘的，包含大量的時間局部性（即時間上的相似性）和空間局部性（即場景中的相似性）。為了利用這種局部性，我們設計了用於高效處理視頻輸入任務的 NoScope。通過利用一系列利用視頻局部性的優化，顯著降低了在每個幀上的計算量，同時仍保持常規檢索的高精度。

本文將介紹NoScope優化的一個示例，並描述NoScope如何在模型級聯中端到端地堆疊它們，以獲得倍增的加速——在現實部署的網路攝像機上可提速1000倍。

一個典型例子

試想一下，我們想檢索下面的監控攝像頭拍攝的視頻，以確定公交車在什麼時候經過台北的某個交叉路口（例如，用於交通分析）：

斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

台北某個交叉路口的兩個視頻片段

那麼，當前最好的視覺模型是如何處理這個問題的呢？我們可以運行 YOLOv2 或Faster R-CNN 之類的用於對象檢測的卷積神經網路（CNN），通過在視頻的每個幀上運行CNN來檢測公交車：

斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

使用YOLOv2標記的交叉路口片段

這種方法工作得很好，尤其是如果我們使視頻中出現的標籤流暢的話，那麼問題出現在哪裡呢？就是這些模型非常昂貴。這些模型的運行速度是每秒10-80幀，這對監控單個視頻輸入來說還好，但如果要處理上千個視頻輸入的話，效果並不好。

機會：視頻中的局部性

為了提高檢索的效率，我們應該看視頻內容本身的性質。具體來說，視頻的內容是非常冗餘性的。讓我們回到台北的街道監控視頻，看一下以下一些出現公交車的幀：

斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

從這個視頻影像的角度看，這些公交車看起來是非常相似的，我們稱這種局部（locality）形式為場景特定的局部性（scene-specific locality），因為在視頻影像中，對象之間看起來並沒有很大的不同（例如，與另一個角度的攝像頭相比）。

此外，從這個監控視頻中，很容易看出，即使公交車正在移動，每一個幀之間都沒有太大的變化：

斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

我們將這種特徵稱為時間局部性（temporal locality），因為時間點附近的幀看起來相似，並且包含相似的內容。

NoScope：利用局部性

為了利用上面觀察到的特徵，我們構建了一個名為 NoScope 的檢索引擎，可以大大加快視頻分析檢索的速度。給定一個視頻輸入（或一組輸入），一個（或一組）要檢測的對象（例如，「在台北的監控視頻影像中查找包含公交車的幀」），以及一個目標CNN（例如，YOLOv2），NoScope 輸出的幀與YOLOv2的一致。但是NoScope 比輸入CNN要快許多：它可以在可能的時候運行一系列利用局部性的更便宜的模型，而不是簡單地運行成本更高的目標CNN。下面，我們描述了兩類成本較低的模型：專門針對給定的視頻內容（feed）和要檢測的對象（以利用場景特定局部性）的模型，以及檢測差異（以利用時間局部性）的模型。

這些模型端到端地堆疊，比原來的CNN要快1000倍。

利用場景特定局部性

NoScope 使用專用模型來利用場景特定局部性，或訓練來從特定視頻內容的角度檢測特定對象的快速模型。如今的CNN已經能夠識別各種各樣的物體，例如貓、滑雪板、馬桶等等。但在我們的檢測台北地區的公交車的任務上，我們不需要關心貓、滑雪板或馬桶。相反，我們可以訓練一個只能從特定角度的監控視頻檢測公交車的模型。

舉個例子，下面的圖像是MS-COCO數據集中的一些樣本，也是我們在檢測中不需要關心的對象。

斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

MS-COCO數據集中沒有出現公交車的3個樣本

斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

MS-COCO數據集中出現公交車的2個樣本。

NoScope 的專用模型也是CNN，但它們比通用的對象檢測CNN更簡單（更淺）。這有什麼作用呢？與YOLOv2的每秒80幀相比，NoScope的專用模型每秒可以運行超過15000幀。我們可以將這些模型作為原始CNN的替代。

使用差異檢測器來利用時間局部性

NoScope 使用差異檢測器（difference detector）或設計來檢測對象變化的快速模型來利用時間局部性。在許多視頻中，標籤（例如「有公交車」，「無公交車」）的變化比幀的變化少很多（例如，一輛公交車出現在幀中長達5秒，而模型以每秒30幀的速度運行）。為了說明，下面是兩個都是150幀長度的視頻，但標籤並不是在每個視頻中都有變化。

斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

每個視頻都是150幀，標籤一樣，但下邊的視頻沒變過！

相比之下，現在的對象檢測模型是逐幀地運行的，與幀之間的實際變化無關。這樣設計的原因是，像YOLOv2這樣的模型是用靜態圖像訓練的，因此它將視頻視為一系列的圖像。因為NoScope可以訪問特定的視頻流，因此它可以訓練差異檢測模型，這些模型對時間依賴性敏感。NoScope的差異檢測器目前是使用逐幀計算的邏輯回歸模型實現的。這些檢測器在CPU上的運行速度非常快，每秒超過10萬幀。想專用模型一樣，NoScope可以運行這些差異檢測器，而不是調用昂貴的CNN。

把這些模型放到一起

NoScope將專用模型和差異檢測器結合在一起，堆疊在一個級聯中，或堆疊在使計算簡化的一系列模型。如果差異檢測器沒有發生任何變化，那麼NoScope會丟棄這一幀。如果專用模型對其標籤有信心，那麼NoScope會輸出這個標籤。而且，如果面對特別棘手的框架，NoScope 可以隨時返回到完整的CNN。

為了設置這個級聯（cascade）以及每個模型的置信度，NoScope提供了可以在精度和速度之間折衷的優化器。如果想更快地執行，NoScope將通過端到端級聯傳遞更少的幀。如果想得到更準確的結果，NoSceop 則將提高分類決定的簡化閾值。如下圖所示，最終結果實現了比當前方法快10000倍的加速。

斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

上圖是NoScope的系統圖示；下圖顯示了在一個有代表性的視頻中速度和準確度的相關性。

差異檢測器和專用模型都有助於這一結果。我們先是只使用YOLOv2進行因素分析，然後將每個類型的快速模型添加到級聯中。兩者都是為了實現最大話性能所必需的。

斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

NoScope系統的因素分析

總結NoScope的級聯車輛，優化器先在一個特定視頻流中運行較慢的參考模型（YOLOv2，Faster R-CNN等），以獲取標籤。給定這些標籤，NoScope訓練一組專用模型和差異檢測器，並使用一個holdout set來選擇使用哪個特定模型或差異檢測器。最後，NoScope的優化器將訓練好的模型串聯起來，可以在優化模型不確定是調用原始的模型。

結論

總結而言，視頻數據非常豐富，但使用現代神經網路進行檢索的速度非常慢。在NoScope中，我們利用時間局部性，將視頻專用管道中差異檢測和專用CNN相結合，視頻檢索速度比普通CNN檢索提高了1000倍。也就是說，每秒處理的視頻幀數超過8000幀。我們將繼續改進NoScope來支持多類分類，非固定角度監控視頻，以及更複雜的檢索。

原文：http://dawn.cs.stanford.edu/2017/06/22/noscope/

點擊閱讀原文查看新智元招聘信息

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※「北航新型人工突觸」能模擬人類神經系統基本功能的人工突觸誕生
※「Science AI特輯」變革了人類社會的基礎科學，正在遭遇AI革命
※「AI TOP 10」最新一季深度學習框架排名；特斯拉市值蒸發120億美元；AI分析社交媒體實現「數字永生」
※斯坦福新深度學習系統NoScope：視頻對象檢測快1000倍
※AI特輯：變革了人類社會的基礎科學，正在遭遇AI革命

TAG:新智元 |

您可能感興趣

※Windows 10 Build 17093版本更新上手體驗視頻
※【火器酷視頻】Shot Show 2018 - FN SCAR-SC步槍介紹
※提供24小時視頻諮詢，在線醫療平台 Doctor On Demand獲7400 萬美元融資
※Facebook推出360度視頻傳輸質量評估標準：SSIM360和360QVM
※Lumia 950安裝Windows 10 ARM視頻
※視頻線上學習平台Career Anna完成3000萬盧比融資
※P&E2018：尼康Nikon現場展示多款視頻拍攝套件
※發力360度VR視頻，英偉達推VRWorks 360 Video SDK v1.5
※Summit Tech在MWC 2018展示VR視頻通話
※小度在家 NV5001 智能視頻音箱圖集「Soomal」
※2018 Baselworld丨Dior全新頂級腕錶巴黎首發（視頻）
※[視頻]Photoshop 19.1更新：全面支持Surface Dial
※Christie Apex 0.9 LED拼接視頻牆
※ASPEED發布360度視頻的球形圖像處理器Cupola360
※詳細介紹Visbit 360度視頻基準測試VB2018VR
※NTT Docomo推出8K 360視頻解決方案
※尼康推出D850「Filmmaker」視頻套裝
※Win10 RS5預覽版17639上手視頻：Sets激動
※索尼Xperia XZ1體驗：五軸防抖加持960幀超慢速視頻
※為4K視頻而生，SanDisk推出更快的400GB microSD卡