當前位置:
首頁 > 最新 > CVPR 2018:十大最酷論文

CVPR 2018:十大最酷論文

來源:Medium

編譯:Bing

編者按:上周,2018年計算機視覺和圖像識別會議(CVPR 2018)在美國鹽湖城舉行,這是計算機視覺領域的頂級會議之一,今年,CVPR共收到了3300份論文,最終接收了979份,與會者超過6500人。作者George Seif在博客上分享了自己最喜歡的10篇論文,其中不乏新奇有趣的項目,讓我們一起來看看吧!

每年的CVPR都有各路大神和他們的作品,總有可以學習的新事物。當然,我們也總能看到具有創新性的突破性成果,給行業注入新鮮的血液。這些論文通常在計算機視覺下的子類中獲得頂尖的結果。

這幾天最開心的就是看這些論文了!很多成果展示的是全新深度網路在視覺中的應用,它們也許不是最基礎的突破性成果,但是往往都能提供一種創新思維,給人展示一種新思路。總之非常酷!

在這篇文章里,我將總結我個人認為CVPR中最酷的10篇論文,其中既有深度網路下的新應用,也有從新的角度提出運用方法的。讓我們開始吧!

Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization

這篇論文來自英偉達,核心思想是用合成數據訓練卷積神經網路(CNNs)。研究人員為Unreal Engine 4創造了一個插件,使其能夠生成合成訓練數據。其中的關鍵是他們將訓練數據可能擁有的變數進行了隨機化,包括:

目標物體的數量和種類

干擾項的數量、種類、顏色和規模

目標物和背景照片的圖案

針對不同場景的虛擬攝像機的位置

針對不同場景攝像機的角度

點光源的數量和位置

研究人員展示了利用合成數據進行預訓練後出色的效果和效率,達到了前所未有的水平。這也為沒有重要數據來源的情況提供了一種思路,即生成並使用合成數據。

論文地址:https://arxiv.org/abs/1804.06516

WESPE: Weakly Supervised Photo Enhancer for Digital Cameras

這篇非常精妙!研究人員訓練了一個生成對抗網路(GAN),能夠自動「修圖」。最酷的部分是,它是弱監督的,你不需要有輸入和輸出的圖像對!想要訓練網路,你只需要擁有一套「好看」的圖片和一套「粗糙」的圖片,想進一步調整。之後,研究者會訓練生成對抗網路,使其更符合審美,通常是改進色彩和圖片的對比度。

這一模型非常簡單並且能快速上手,你無需擁有成對的圖片,最終會得到一個通用的圖片增強器。我還喜歡這篇論文的一點是它是弱監督的方法,非監督學習看起來很遙遠,但是對CV領域的許多子類來說,弱監督似乎是一個更可靠的方向。

論文地址:http://www.vision.ee.ethz.ch/~ihnatova/wespe.html

Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++

深度網路之所以能有巨大幫助,正是得益於大型的經過標註的數據集。但是對很多機器視覺任務來說,想獲得這樣的數據會很耗費時間並且成本高昂。特別是分割的數據需要對圖片中的每個像素進行分類標註。所以對大型數據集來說,標註是永遠都標不完的,這輩子都不可能標完。

有了Polygon-RNN++,你可以在圖中每個目標物體的周圍大致圈出多邊形形狀,網路會自動生成分割的注釋!論文中表明,這一方法的表現非常不錯,並且能在分割任務中快速生成建議的標註。

論文地址:https://arxiv.org/abs/1803.09693

Creating Capsule Wardrobes from Fashion Images

每天早上你是否都會面臨「不知道穿什麼衣服」的難題,現在「膠囊衣櫃(Capsule Wardrobes)」來幫你了!在這篇論文中,作者設計了一款模型,給定現成的服裝和首飾,模型能對各件單品進行組合,提供所有可能的混合搭配方案。事實上它是使用目標函數進行訓練,這些目標函數只在捕捉視覺兼容性、多功能性和用戶偏好等關鍵要素。有了膠囊衣櫃,媽媽再也不用擔心我穿錯衣服啦!

論文地址:https://arxiv.org/abs/1712.02662

SuperSloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation

這篇論文論智君曾專門報道過:《CVPR 2018:英偉達用深度學習實現任意視頻的完美慢鏡頭回放》。這篇英偉達的論文講述了用CNN估計視頻中間幀,可以將標準的30fps視頻轉化成240fps的慢動作回放視頻!模型估計了幀與幀之間的光流,並將它插入視頻幀中間,讓慢動作看起來更清晰流暢。

論文地址:https://arxiv.org/abs/1712.00080

Who Let The Dogs Out? Modeling Dog Behavior From Visual Data

這個題目可能是最酷的了吧!這篇文章的研究方向是嘗試對狗狗的思想和活動建模。作者在狗狗的四肢上安裝了感測器,收集其運動時的數據;他們還在狗狗頭上安裝了攝像機,從而獲得「狗狗視角下的畫面」。為了從視頻幀中提取圖片特徵,研究人員用到了CNN特徵提取器,之後和感測器數據一起被傳輸到LSTM中,預測狗狗的行為。這一充滿創造性的應用和任務搭建方法讓這篇論文非常有可讀性!希望這樣的數據收集方法和深度學習技術的應用能激勵未來的研究。

論文地址:https://towardsdatascience.com/the-10-coolest-papers-from-cvpr-2018-11cb48585a49

Learning to Segment Every Thing

Facebook人工智慧研究專家何愷明的團隊在過去幾年做了太多CV方面的研究了,他們的論文一向以創新性和簡潔性著稱。ResNet和Mask R-CNN都算不上是最瘋狂、最複雜的點子,雖然它們很簡單,但在實際中非常高效。但這次卻有所不同。

Learning to Segment Every Thing是Mask R-CNN的擴展,他可以讓網路分割在訓練時從未見過的目標物體!這對於快速獲取數據集中的標籤非常有幫助,同時成本也較低。它可以對從未見過的目標種類獲取強大的基本分類,這對於實際應用這類分割網路是非常重要的,因為在這樣的環境中可能有很多陌生種類。總的來說,這是大多數深度網路模型應該考慮的正確方向。

論文地址:https://arxiv.org/abs/1711.10370

Soccer on Your Tabletop

在世界盃期間發表這篇論文,時機剛剛好。簡單地說,論文作者訓練了一個模型,給定足球比賽的視頻後,模型可以輸出一個動態3D重建比賽,也就是說你可以用AR技術隨時隨地查看比賽。

最巧妙的是,作者將不同種類的信息結合了起來。網路是用視頻數據訓練的,數據可以通過3D網格提取。在測試時,運動員的邊界框、姿勢和軌跡都被提取出來,以進行分割。這些3D分割可以輕鬆投射到任意平面上。在我看來這也是用合成數據進行訓練的好方法。

論文地址:https://arxiv.org/abs/1806.00890

LayoutNet: Reconstruction the 3D Room Layout from a Single RGB Image

這種CV應用我們很多人可能都想到過:利用一個攝像機進行拍攝,然後用數字3D重建場景。這就是論文討論的重點——3D重建房間。研究人員將全景圖像當做輸入,之後精確輸出3D重建的圖像。模型可以生成不同形狀、含有不同傢具的房間。

論文地址:https://arxiv.org/abs/1803.08999

Learning Transferable Architectures for Scalable Image Recognition

最後是我認為未來深度學習發展方向的論文:神經架構搜索(NAS)。NAS背後的原理是,不手動設計網路結構,而是用另一個網路「搜尋」最佳模型結構。搜索會基於一個獎勵函數,在驗證集上函數會根據模型表現進行獎勵。作者表示這種架構比手動設計的精確度更高,並且靈活性更好。

論文地址:https://arxiv.org/abs/1707.07012

結語

希望以上論文能給你帶來靈感,甚至嘗試pick一些新思路應用到自己的項目中吧!如果覺得不錯,請分享給更多人哦!

原文地址:towardsdatascience.com/the-10-coolest-papers-from-cvpr-2018-11cb48585a49

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 論智 的精彩文章:

神經網路愛好者注意:MIT研究揭示大腦可塑性基本規則
IBM研究院提出Graph2Seq,基於注意力機制的圖到序列學習

TAG:論智 |