史上最全!歷年 CVPR 最佳論文盤點(2000 年——2018 年)
雷鋒網 AI 科技評論按:作為計算機視覺領域的頂級學術會議,CVPR 2019 近期公布了最終論文接收結果,引來學界密切關注。據悉,CVPR 2019 今年一共獲得 5165 篇有效提交論文,最終抉出了 1300 篇接收論文,接收率達到 25.2% 。
(接收論文列表:http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt)
正當學界紛紛議論各單位獲接收論文多寡的當兒,雷鋒網 AI 科技評論為大家精心整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單,藉此對這批計算機領域的重要論文進行複習。
2018年最佳論文
任務學:任務遷移學習的解耦
Taskonomy: Disentangling Task Transfer Learning
核心內容:論文研究了一個非常新穎的課題,那就是研究視覺任務之間的關係,根據得出的關係可以幫助在不同任務之間做遷移學習。該論文提出了「Taskonomy」——一種完全計算化的方法,可以量化計算大量任務之間的關係,從它們之間提出統一的結構,並把它作為遷移學習的模型。實驗設置上,作者首先找來一組一共 26 個任務,當中包括了語義、 2D、2.5D、3D 任務,接著為任務列表裡的這 26 個任務分別訓練了 26 個任務專用神經網路。結果顯示,這些遷移後的模型的表現已經和作為黃金標準的任務專用網路的表現差不多好。論文提供了一套計算和探測相關分類結構的工具,其中包括一個求解器,用戶可以用它來為其用例設計有效的監督策略。
論文鏈接:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf
2017年最佳論文
密集連接的卷積網路
Densely Connected Convolutional Networks
核心內容:近期的研究已經展現這樣一種趨勢,如果卷積網路中離輸入更近或者離輸出更近的層之間的連接更短,網路就基本上可以更深、更準確,訓練時也更高效。這篇論文就對這種趨勢進行了深入的研究,並提出了密集卷積網路(DenseNet),其中的每一層都和它之後的每一層做前饋連接。對於以往的卷積神經網路,網路中的每一層都和其後的層連接,L 層的網路中就具有 L 個連接;而在 DenseNet 中,直接連接的總數則是 L(L+1)/2 個。對每一層來說,它之前的所有的層的 feature-map 都作為了它的輸入,然後它自己的 feature-map 則會作為所有它之後的層的輸入。
論文鏈接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Huang_Densely_Connected_Convolutional_CVPR_2017_paper.pdf
通過對抗訓練從模擬的和無監督的圖像中學習
Learning from Simulated and Unsupervised Images through Adversarial Training
核心內容:隨著圖像領域的進步,用生成的圖像訓練機器學習模型的可行性越來越高,大有避免人工標註真實圖像的潛力。但是,由於生成的圖像和真實圖像的分布有所區別,用生成的圖像訓練的模型可能沒有用真實圖像訓練的表現那麼好。為了縮小這種差距,論文中提出了一種模擬+無監督的學習方式,其中的任務就是學習到一個模型,它能夠用無標註的真實數據提高模擬器生成的圖片的真實性,同時還能夠保留模擬器生成的圖片的標註信息。論文中構建了一個類似於 GANs 的對抗性網路來進行這種模擬+無監督學習,只不過論文中網路的輸入是圖像而不是隨機向量。為了保留標註信息、避免圖像瑕疵、穩定訓練過程,論文中對標準 GAN 演算法進行了幾個關鍵的修改,分別對應「自我正則化」項、局部對抗性失真損失、用過往的美化後圖像更新鑒別器。
論文鏈接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Shrivastava_Learning_From_Simulated_CVPR_2017_paper.pdf
2016年最佳論文
圖像識別的深度殘差學習
Deep Residual Learning for Image Recognition
核心內容:在現有基礎下,想要進一步訓練更深層次的神經網路是非常困難的。我們提出了一種減輕網路訓練負擔的殘差學習框架,這種網路比以前使用過的網路本質上層次更深。我們明確地將這層作為輸入層相關的學習殘差函數,而不是學習未知的函數。同時,我們提供了全面實驗數據,這些數據證明殘差網路更容易優化,並且可以從深度增加中大大提高精度。我們在 ImageNet 數據集用 152 層--比 VGG 網路深 8 倍的深度來評估殘差網路,但它仍具有較低的複雜度。在 ImageNet 測試集中,這些殘差網路整體達到了 3.57% 的誤差。該結果在 2015 年大規模視覺識別挑戰賽分類任務中贏得了第一。此外,我們還用了 100 到 1000 層深度分析了的 CIFAR-10。
對於大部分視覺識別任務,深度表示是非常重要的。僅由於極深的表示,在 COCO 對象檢查數據時,我們就得到了近 28% 相關的改進。深度剩餘網路是我們提交給 ILSVRC 和 COCO2015 競賽的基礎,而且在 ImageNet 檢測任務,ImageNet 定位,COCO 檢測和 COCO 分割等領域贏我們獲得了第一。
論文鏈接:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf
2015年最佳論文
動態融合:實時非剛性場景的重建與跟蹤
DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time
核心內容:作者提出第一個結合商用感測器對 RGBD 掃描結果進行捕獲,該結果可實時重建非剛性變形場景的密集 SLAM 系統。被稱作 DynamicFusion 的這種方法在重建場景幾何的當兒,還能同時估算一個密集體積的 6D 運動場景,並將估算結果變成實時框架。與 KinectFusion 一樣,該系統可以生成越來越多去噪、保留細節、結合多種測量的完整重建結果,並實時顯示最新的模型。由於該方法無需基於任何模板或過往的場景模型,因此適用於大部分的移動物體和場景。
論文鏈接:https://rse-lab.cs.washington.edu/papers/dynamic-fusion-cvpr-2015.pdf
2014年最佳論文
關於未知雙向反射分布函數,攝像機運動揭示了什麼
What Object Motion Reveals About Shape With Unknown BRDF and Lighting
核心內容:作者提出了一種理論,用於解決在未知遠距離照明以及未知各向同性反射率下,運動物體的形狀識別問題,無論是正交投影還是穿透投影。該理論對錶面重建硬度增加了基本限制,與涉及的方法無關。在正交投影場景下,三個微分運動在不計 BRDF 和光照的情況下,可以產生一個將形狀與圖像導數聯繫起來的不變數。而在透視投影場景下,四個微分運動在面對未知的 BRDF 與光照情況,可以產生基於表面梯度的線性約束。此外,論文也介紹了通過不變數實現重建的拓撲類。
最後,論文推導出一種可以將形狀恢復硬度與場景複雜性聯繫起來的通用分層。從定性角度來說,該不變數分別是用於簡單照明的均勻偏微分方程,以及用於複雜照明的非均勻方程。從數量角度來說,該框架表明需要更多的最小運動次數來處理更複雜場景的形狀識別問題。關於先前假設亮度恆定的工作,無論是 Lambertian BRDF 還是已知定向光源,一律被被當作是分層的特殊情況。作者利用合成與真實數據進一步說明了重建方法可以如何更好地利用這些框架。
論文鏈接:https://cseweb.ucsd.edu/~ravir/differentialtheory.pdf
2013年最佳論文
在單個機器上快速、準確地對100,000個物體類別進行檢測
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
核心內容:許多物體檢測系統受到將目標圖像與過濾器結合進行卷積所需時間的約束,這些過濾器從不同的角度對物件的外表(例如物體組件)進行編碼。作者利用局部敏感散列這點,將卷積中的點積內核運算符替換為固定數量的散列探測器,這些探測器可以在無視濾波器組大小情況下,及時、有效地對所有濾波器響應進行採樣。
為了向大家展示技術的有效性,作者將其用於評估 100,000 組可變形零件模型,模型將根據目標圖像的多個維度需要運用超過一百萬個濾波器,作者需在 20 秒內通過 20GB RAM 的單個多核處理器來達成評估目標。實驗結果顯示,與其他同樣硬體配置下執行卷積的系統相比,該模型獲得了大約 20,000 倍的提速 - 相等於四個量級。模型在針對 100,000 個物體類別的平均精確度達到了 0.16,主要因為在訓練數據與基本實施的收集上面臨挑戰,最終模型在三分之一類別上實現至少 0.20 的 mAP,另外在大約 20%的類別上實現 0.30 或更高的 mAP。
論文鏈接:https://www.cv-foundation.org/openaccess/content_cvpr_2013/papers/Dean_Fast_Accurate_Detection_2013_CVPR_paper.pdf
2012年最佳論文
一個針對基於活動分解非剛性結構的簡單、無先驗方法
A Simple Prior-free Method for Non-Rigid Structure-from-Motion Factorization
核心內容:作者提出一種簡單的「無先驗」方法來解決非剛性結構的運動因子分解問題。除了基本的低秩條之外,該方法無需任何關於非剛性場景或相機運動的先驗知識。即便如此,它依然得以穩定運行,併產生最佳結果,且不受許多傳統非剛性分解技術的基礎 - 模糊性問題(basis-ambiguity issue)困擾。
該方法易於實現,可以解決包括小型與固定大小的 SDP(半定規劃)、線性最小二乘或範數最小化追蹤等問題。大量實驗結果表明,該方法優於現有的多數非剛性因子分解線性方法。本論文不僅提供全新的理論見解,同時提供了一種適用於非剛性結構運動分解的實用日常解決方案。
論文鏈接:http://users.cecs.anu.edu.au/~hongdong/CVPR12_Nonrigid_CRC_17_postprint.pdf
2011年最佳論文
針對單個深度圖像部件的實時人體姿態識別模型
Real-Time Human Pose Recognition in Parts from Single Depth Images
核心內容:作者提出一種可以基於無時間信息從單個深度圖像中快速、準確預測身體關節 3D 位置的方法。通過採用物體識別方法設計出身體部位的間接表示,進而將有難度的姿勢估計問題映射為簡單的每像素分類問題。作者同通過龐大、多樣化的訓練數據集,讓分類器可以針對身體部位的姿勢、身體形狀、衣服等不變數進行預估,進而通過重新投影分類結果找到局部模式,最終生成具有置信度的身體關節 3D 建模。
該系統能在消費類硬體上以每秒 200 幀的速度運行。評估系統在合成與實際測試集的處理結果中顯示了高精度,並分析了幾個訓練參數對此的影響。與相關工作相比,該模型實現了目前最先進的精度,並在全骨架最近鄰匹配上有了很大進步。
論文鏈接:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/BodyPartRecognition.pdf
2010年最佳論文
利用L1範數對數據缺失的魯棒低秩近似矩陣進行有效計算
Efficient Computation of Robust Low-Rank Matrix Approximations in the Presence of Missing Data using the L1 Norm
核心內容:低秩近似矩陣計算是許多計算機視覺應用中的基礎操作。這類問題的主力解決方案一直是奇異值分解(Singular Value Decomposition)。一旦存在數據缺失和異常值,該方法將不再適用,遺憾的是,我們經常在實踐中遇到這種情況。
論文提出了一種計算矩陣的低秩分解法,一旦丟失數據時會主動最小化 L1 範數。該方法是 Wiberg 演算法的代表——在 L2 規範下更具說服力的分解方法之一。通過利用線性程序的可區分性,可以對這種方法的基本思想進行擴展,進而包含 L1 問題。結果表明,現有的優化軟體可以有效實現論文提出的演算法。論文提供了令人信服、基於合成與現實數據的初步實驗結果。
論文鏈接:https://acvtech.files.wordpress.com/2010/06/robustl1_eriksson.pdf
2009年最佳論文
暗通道先驗去霧法
Single Image Haze Removal Using Dark Channel Prior
核心內容:本文中提出了一個簡單卻有效、針對單個輸入圖像的暗通道去霧法。暗通道先驗去霧法是一種戶外去霧圖像的統計方法,它主要基於一個關鍵的觀察——室外無霧圖像中的大多數局部斑塊包含一些像素,這些像素的強度起碼有一個顏色通道處於低狀態。使用這種基於霧度成像模型的先驗方法,我們可以直接估計圖像的霧霾厚度,藉此將圖像恢復至高質量的無霧狀態。各種模糊圖像的去霧結果證明了論文所提出先驗方法的成效。此外,我們可以通過該方法獲得高質量的深度圖。
論文鏈接:http://www.jiansun.org/papers/Dehaze_CVPR2009.pdf
2008年最佳論文
二階平滑先驗下的全局立體重建
Global Stereo Reconstruction under Second Order Smoothness Priors
核心內容:3D 曲面平滑度中的二階先驗是比一階先驗更好的典型場景模型。然而,基於全局推理演算法(如圖形切割)的二階平滑先驗法未能與二階先驗很好地進行結合,因為表達所需的三重集會產生難以處理的(非子模塊)優化問題。
本文表明三重集的推理可以獲得有效的優化。作者提出的優化策略是基於 α 擴展的最新研究結果,源自「QPBO」演算法。該策略通過 QPBO 演算法的最新擴展對提議深度圖進行重複合併。對於提案深度圖的來源並不受局限,比如可以是α擴展的前平行平面,亦或者帶有任意參數設置的實際立體演算法。最終實驗結果證明了二階先驗法以及框架優化策略的有效性。
論文鏈接:http://www.robots.ox.ac.uk/~ojw/2op/Woodford08.pdf
超越滑動窗口:利用高效子窗口搜索實現對象定位
Beyond Sliding Windows: Object Localization by Efficient Subwindow Search
核心內容:大部分有效的物體識別系統都依賴於二進位分類,不過這種方法只能確認物體是否存在,而無法提供物體的實際位置。為了實現物體定位功能,我們可以考慮採用滑動窗口法,然而這將大大增加計算成本,因為必須在大量的候選子窗口上進行分類器函數評估。
為此,論文提出了一種簡單而強大的分支界定方案,可以在所有可能子圖像上有效最大化大類分類器函數。它在次線性時間內提供基於全局最優解的收斂方案。論文展示了該方法如何適用於不同的檢測對象與場景。該方案實現的加速效果允許使用類似具有空間金字塔內核的 SVMs 或者基於χ2-距離的最近鄰分類器來進行物體定位,而在過去,這些分類器被認為在處理相關任務時的速度太慢了。該方案在 UIUC 車輛數據集、PASCAL VOC 2006 數據集以及 PASCAL VOC 2007 競賽中均取得了最先進的結果。
論文鏈接:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/34843.pdf
2007年最佳論文
在移動工具中進行動態三維場景分析
Dynamic 3D Scene Analysis from a Moving Vehicle
核心內容:論文提出一個集成了全自動場景幾何估計、2D 物體檢測、3D 定位、軌跡估計和跟蹤功能的系統,以用於分析移動工具的動態場景。該系統的唯一輸入來源是汽車頂部經過校準的立體裝置。從這些視頻流中,我們得以實時估計 Structurefrom-Motion(SfM)和場景幾何。與此同時,作者還試圖執行多視圖/多類別對象識別,以檢測攝像里的汽車和行人。
通過 SfM 自定位系統,我們可以將檢測到的 2D 對象轉換為 3D 成像,並在真實世界的坐標系中持續累積。隨後跟蹤模塊將對 3D 觀測結果進行分析,進而找到跟物理空間吻合的時空軌跡。最後,全局優化標準會將對象 - 對象交互(object-object interactions)考慮在內,以獲得精確的汽車和行人的 3D 定位和軌跡預估結果。論文展示了該集成系統在挑戰真實世界數據方面的表現,該數據集顯示了擁堵市區內的汽車行駛情況。
論文鏈接:https://homes.esat.kuleuven.be/~konijn/publications/2007/00483.pdf
2006年最佳論文
在透視場景中放置物體
Putting Objects in Perspective
核心內容:圖像理解不僅需要考慮視覺世界中的元素,還需要考慮這些元素之間的相互作用。本文提出了一個在 3D 場景語境中進行局部對象檢測的框架,該框架主要基於物體、表面方向以及攝像機視點的相互作用。
大多數物體檢測方法會考慮圖像的比例和位置。通過對 3D 幾何進行概率預估(包括表面以及世界坐標),我們可以將物體放置在透視圖中,進而對圖像的比例和位置變化進行建模。該方法通過對物體概率進行假設以細化幾何,藉此反映問題的周期性,反之亦然。該框架允許任意物體探測器進行「無痛」替換,且便於擴展至包括圖像理解在內的其他方面。最終實驗結果證實該綜合方法的優勢。
論文鏈接:http://dhoiem.cs.illinois.edu/publications/hoiem_cvpr06.pdf
2005年最佳論文
實時非剛性表面檢測
Real-Time Non-Rigid Surface Detection
核心內容:論文提出一種無需任何先驗知識、可實時檢測變形表面的方法。該方法從一組寬基線點開始,在物體未變形圖像及檢測圖像之間進行匹配。該匹配不僅可用於檢測,同時還可以用來計算點與點之間的精確映射。該演算法在面對嚴重變形、光照變化、運動模糊以及遮擋問題時具有魯棒性。它在 2.8 GHz 的 PC 上以每秒 10 幀的速度運行,據作者了解,尚未有其他產生類似結果的技術。
將可變形網格與設計良好的魯邦性估計器進行結合,是該方法得以處理涉及大量參數的可變形表面建模,且獲得高達 95% 避免錯誤匹配率的關鍵,遠遠超過了實際要求。
論文鏈接:https://infoscience.epfl.ch/record/128408/files/PiletLF05.pdf
2004年最佳論文
使用電子微鏡陣列實現可編程的圖像創建
Programmable Imaging using a Digital Micromirror Array
核心內容:論文介紹了可編程成像系統的概念。該成像系統為人類或視覺系統提供了對系統輻射度與幾何特徵的控制方法。該靈活性是通過可編程微鏡陣列才得以實現的。我們可以通過把控空間和時間上的高精度來控制陣列方向,使得系統可以根據應用需要來靈活選擇並調製光線。
作者成功實現了一種基於數字微鏡裝置(DMD)的可編程成像系統,用於處理數字光。雖然設備的鏡像只能置於兩個鏡頭中的一個,結果卻表明該系統可以實現各種成像功能,其中包括高動態範圍成像、特徵檢測以及物體識別。論文在最後探討了如何在無需動用移動部件情況下,使用微鏡陣列進行視場控制。
論文鏈接:https://www.researchgate.net/publication/4082198_Programmable_imaging_using_a_digital_micromirror_array
2003年最佳論文
使用尺度無關的無監督學習實現物體類型識別
Object Class Recognition by Unsupervised Scale-Invariant Learning
核心內容:論文提出一種通過尺度不變方法(scale invariant manner)從未標記、未分段的雜亂場景中學習並識別物體類模型的方法。這些物體被建模成靈活性的系列部件。概率表示方法被用於識別物體的所有方面,包括形狀、外觀、遮擋物以及相對比例。基於熵的特徵檢測器則用於對圖像內的區域及其比例做選擇。在這過程中,尺度不變對象模型的參數將被模型預估,這是通過最大似然設置(maximum-likelihood setting)中的期望最大化(expectation-maximization)來完成的。該模型基於貝葉斯方式對圖像進行分類。通過一系列在幾何約束類(例如面部,汽車)和柔性物體(例如動物)數據集上取得的優異結果,證明了該模型的靈活性。
論文鏈接:https://cs.nyu.edu/~fergus/papers/fergus03.pdf
2001年最佳論文
視頻中的形變三維模型
Morphable 3D models from video
核心內容:非剛性運動 3D 結構 和 2D 光流被認為是張量分解領域的問題。通過嘈雜仿射變換方法,我們可以將這兩者問題變為組合非剛性結構強度問題,進而使用結構化矩陣分解方法進行解決。然而,圖像雜訊及數據缺陷將導致該因式分解法的前提條件無法成立。即便如此,我們依然可以通過等級約束、範數約束以及強度值來解決這兩個問題,進而產生針對不確定性 SVD、不確定性分解、非剛性因子分解以及子空間光流的全新解決方案。最終獲得的集成演算法可以跟蹤以及進行 3D 重建具有細小紋理的非剛性表面,比如具有平滑部分的面部。通過結合低解析度低紋理的「視頻發現」,這些方法可以產生良好的跟蹤與 3D 重建結果。
論文鏈接:http://www.merl.com/publications/docs/TR2001-37.pdf
2000年最佳論文
運用均值漂移實現對非剛性物體的實時追蹤
Real-Time Tracking of Non-Rigid Objects using Mean Shift
核心內容:論文提出一種可以從移動攝像機實時追蹤非剛性物體的全新方法。中央計算模塊將基於均值漂移以及當前幀中的目標可能位置進行運算。目標模型(顏色分布)與目標候選者之間的差異由 Bhattacharyya 係數進行表示。該方法的理論分析表明,它與貝葉斯框架息息相關,同時提供了實用、快速且有效的解決方案。針對多個圖像序列的演示結果,展示了該方法跟蹤並處理實時部分遮擋、顯著雜波以及目標比例變化的能力。
論文鏈接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.28.41&rep=rep1&type=pdf
雷鋒網 AI 科技評論


※華為發布首款5G摺疊屏手機Mate X 售價17500元今年年中上市
※斯坦福大學發布 StanfordNLP,支持多種語言
TAG:雷鋒網 |