當前位置:
首頁 > 最新 > CVPR 2018現場見聞

CVPR 2018現場見聞

關於作者:萬緯韜,本科畢業於清華大學電子工程系,現於清華大學信息認知與智能系統研究所攻讀博士二年級,主要研究方向包括基於深度學習的人臉檢測與識別,對抗樣本,圖像語義分割。

計算機視覺頂級會議 CVPR 於 2018 年於 6 月 18 日在美國鹽湖城召開。一年一度的 CVPR 收錄了來自全球學者的最新研究,這裡不僅是學術界交流的盛會,還是產業界展示成果的平台。隨著演算法與硬體的飛速發展,計算機視覺、人工智慧等技術在我們的生產和生活中的應用越來越普及,與此同時,CVPR 會議本身也在不斷地發展和變化。

CVPR 如同一個風向標,向我們展示了在最近一年裡該領域的關注熱點和最優秀的成果。筆者全程參與了本屆 CVPR 會議,在這裡與大家分享本屆會議的特點、最新的研究熱點和該領域相關企業的動向。

會議規模顯著擴大

今年 CVPR 的論文投遞數逾 3359 篇,相比去年增長約 25%。而論文接收率幾乎不變(約 29%),最終被接收的論文多達 979 篇。從如此大量的論文中挑選出符合 CVPR 品質的論文絕非易事,會議組織了 2385 名來自世界各地的優秀審稿人進行評審。同時,參會人數多達 6500 餘人,比去年增長約 30%。

因此,正如會議的 general chair,Michael Brown 教授所說,參會者不可能在 5 天的時間裡顧全所有的事情,你必須做出取捨,這樣才能充分的利用時間。的確如此,在主會議期間,每天都會並行地開展 3 場 oral/spotlight 報告,參會者需要提前了解並從中選擇自己最感興趣的話題來聽。

▲圖說:CVPR的參會人數和投稿數都出現了大幅增長

除了論文數量明顯增長,今年贊助商的數量和贊助金額也明顯增長。會議擁有來自全世界的 149 家贊助商,共接收贊助/展示費用達 200 萬美元。可以看到,產業界對 CVPR 這一學術會議顯示出了極大的興趣,這也從側面反映了計算機視覺、人工智慧等方面的研究在實際場景中有巨大應用價值。贊助商除了在會場以豐富的形式展示各自的產品和研究成果以外,還提供了大量的招聘和實習崗位,希望吸引來自該領域的精英加入他們。一部分參會者就是沖著這些名企的招聘來,對他們來說這裡也相當於是一場招聘會。

值得注意的是,無論是論文發表還是贊助商方面,華人都貢獻了巨大的力量。在已接收的論文中,華人作者所佔比重相當可觀。在 9 家鑽石贊助商中,中國企業就有 3 家;在 20 家鉑金贊助商中,中國企業佔到 9 家。一個最直觀的感受是,在會議現場,中國人面孔非常普遍。在參加 poster 展覽時,常常一篇 poster 面前全是中國學者,這個時候作者也許會索性用中文給大家講解。參會的人面前都掛著自己的名牌,上面寫有姓名和學校/單位,會議現場常常有人看了一眼筆者的名牌,然後就開始用中文打招呼。在這種氛圍下,雖然身處美國,也有一種賓至如歸的感覺

企業參與度極高

相關領域的企業通過多種方式深度參與了本次會議。

首先,在主會期間,大量贊助商在會場展示區通過多種形式展示了各自的研究和應用。有以視頻 Demo 形式展示的,比如位元組跳動(ByteDance),他們以世界盃比賽視頻為例展示了基於計算機視覺的足球比賽理解技術。該技術能夠對球員和足球進行實時的追蹤和分割,並且能自動生成鳥瞰圖。目前正值俄羅斯世界盃期間,這樣的展示很容易吸引參觀者圍觀。公司旗下的短視頻應用非常火爆,他們也展示了對於短視頻中多人物的實時姿態檢測,以及基於這些技術的有趣應用,比如抖音尬舞機,讓人印象深刻

▲位元組跳動的系統可以基於計算機視覺,理解足球比賽技術

現場還有以視頻或實體模型形式來展示的公司,比如 Momenta、圖森科技、AURORA 等。京東展示了倉庫巡邏機器人等無人倉庫場景下的智能產品。還有以用戶互動形式來展示的公司,比如商湯科技允許用戶坐在模擬駕駛位,展示其對司機駕駛狀態、目光注意力以及司機手勢的識別能力;Adobe 則允許用戶在觸摸板上畫出一個人像,然後演算法會對其自動上色。會場中,各個企業展示了涵蓋智能監控、自動駕駛、無人商店和智慧理療等多個重要領域的 AI 應用,顯示出 AI 落地的廣闊前景。

除了在主會展示,各大企業都在不同場所分別組織了 party,邀請 CVPR 的參會者參與。筆者參與了商湯、位元組跳動(旗下有今日頭條和抖音等產品)和 Momenta 的聚會。在活動中,企業詳細介紹了自己的企業文化、主要產品和研究方向,以及未來的發展規劃。以位元組跳動為例,作為國內發展勢頭迅猛的 AI 企業,它已經開始了全球布局,例如在包括美國矽谷在內的全球各地設立 AI 實驗室,從而招募更多的行業精英。以數據挖掘、內容推薦為驅動的今日頭條吸引了大量用戶。基於視頻理解技術,它在短視頻、視頻直播等應用上也推出了極具創新的應用,助使其打造 AI+ 娛樂應用新模式。在宴會期間,筆者與同一桌的參會者進行了交流。他們都是來自中國的在讀博士,除了一位來自英國帝國理工大學,一位來自同濟大學,其餘都來自美國的各個不同大學

值得注意的是,企業同時也是 CVPR 會議中重要的論文發表者。據統計,論文發表數名列前茅的是,谷歌發表 45 篇,商湯科技發表 44 篇,Facebook 發表 35 篇,騰訊 AILab 發表 21 篇。可以看到,相關 AI 企業展示出越來越強大的科研實力和科研熱情。產業界在實際應用中會第一時間發現問題、提出問題並迅速尋找解決方案。通過學術論文的發表,產業界與學術界共同分享新的思路和想法,這對學術的發展起到了很好的推動作用。如今,產業界和學術界的聯繫越來越緊密,在 AI 領域,真正做到了高效的產學研結合,這對整個 AI 生態的高效可持續發展是至關重要的。

研究熱點概覽

深度學習在計算機視覺領域繼續發揮重要作用。眾所周知,深度學習是數據驅動的,在這個數據為王的時代,收集和標註大量的數據來訓練模型往往是實際場景中提升性能最簡單有效的辦法。然而,即便是有大量人力物力的企業,也很難對手頭的海量數據完全標註,因此,半監督/弱監督學習是一個十分重要的課題。

以語義分割任務為例,研究者往往會採用圖像類別標籤進行弱監督學習。利用類別概率的響應熱圖(class activation map 或 peak response map)產生初始分割,不同的文章在後續進行各自的處理,從而實現弱監督的圖像語義分割。

關於數據的另一個問題是,即使我們在一個龐大的數據集上訓練得到了很好的模型(以驗證集為評價依據),當我們將其投入實際應用時,可能會因為該場景下的數據分布與已有的數據分布有較大差異,性能明顯下降。例如,這一問題在行人再識別中尤其明顯,由於攝像頭參數、光照等原因,實際場景可能會遇到分布很不相同的數據。遷移學習(Transfer Learning)是解決這一問題的常用思路,這也是本次會議論文的一個重要方向。

生成對抗網路(GAN)依然火熱,在多種應用中都發揮了重要作用。比如,本屆 CVPR 的 oral 文章《Finding Tiny Faces in the Wild with Generative Adversarial Network》,想要解決人臉檢測中尺度多變的問題。為了更好地檢測圖像中較小的人臉,它利用生成器將低解析度圖像轉換為高解析度圖像,並設計了兩路的判別器,對高解析度/低解析度、人臉/背景進行判斷。該方法能有效地對低解析度的 proposal 進行超解析度變換,並且能保持其原有的類別(人臉或背景),從而有效地幫助檢測圖像中解析度很低的人臉。在其他方面,我們也看到了許多關於 GAN 的應用。

隨著深度學習應用落地,在很多場景下可利用的存儲和計算資源受限,比如在手機端、自動駕駛車輛上。因此,關於模型壓縮、計算加速的文章也是非常重要的課題。比如 UC Berkeley 提出的《Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions》,提出了通過平移feature map和使用卷積的方式,來取代傳統的卷積,從而極大地縮小模型尺寸、減小計算量,並且由於去除了隱層特徵中的冗餘信息,該方法還能帶來識別率上的提升。

筆者來到這篇文章的 poster 面前時,發現圍觀的人群已經擠滿了位置。展板前面一位面似中國人的帥小伙在聲情並茂地為大家講解,而且他的口語十分地道。後來等到人群散去,我與他交流才發現原來他是美國人,不會說中文。他看到我的名牌後說,他的 mentor,即本文的第一作者,也來自清華。我與這位學長溝通後知道,原來他也是清華電子系畢業,在伯克利讀博,已經五年級了。他向我介紹了他們實驗室目前在於自動駕駛公司合作,做的項目專註於深度學習的模型壓縮、加速,以及基於激光雷達的語義分割等。他們還舉辦了本屆 CVPR 的一場 workshop:Efficient Deep Learning for Computer Vision。筆者參加了這場 workshop,有許多大牛來講解了在硬體資源受限的情況下,高效地設計和使用神經網路的相關技術和研究。

獲得了 ImageNet 2017 冠軍的 Squeeze-and-Excitation Networks 也在現場進行了講解,Oral 的時間雖然是早晨 8 點多,但依舊吸引了大批觀眾,Poster 前更是聚攏了一大群交流的學者。SE 架構大幅提升了模型的精度。通過引入全局圖像的信息自動對卷積特徵重新分配權重,增強對分類有用的特徵,而抑制無效或收益甚微的特徵。在只引入極少的計算量和參數量的情況下,可以將現有的絕大多數 CNN 的性能進行大幅提升。

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 PaperWeekly 的精彩文章:

使用PaddleFluid和TensorFlow訓練RNN語言模型

TAG:PaperWeekly |