CVPR 2018：十大最酷論文

最新 07-06

來源：Medium

編譯：Bing

編者按：上周，2018年計算機視覺和圖像識別會議（CVPR 2018）在美國鹽湖城舉行，這是計算機視覺領域的頂級會議之一，今年，CVPR共收到了3300份論文，最終接收了979份，與會者超過6500人。作者George Seif在博客上分享了自己最喜歡的10篇論文，其中不乏新奇有趣的項目，讓我們一起來看看吧！

每年的CVPR都有各路大神和他們的作品，總有可以學習的新事物。當然，我們也總能看到具有創新性的突破性成果，給行業注入新鮮的血液。這些論文通常在計算機視覺下的子類中獲得頂尖的結果。

這幾天最開心的就是看這些論文了！很多成果展示的是全新深度網路在視覺中的應用，它們也許不是最基礎的突破性成果，但是往往都能提供一種創新思維，給人展示一種新思路。總之非常酷！

在這篇文章里，我將總結我個人認為CVPR中最酷的10篇論文，其中既有深度網路下的新應用，也有從新的角度提出運用方法的。讓我們開始吧！

Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization

這篇論文來自英偉達，核心思想是用合成數據訓練卷積神經網路（CNNs）。研究人員為Unreal Engine 4創造了一個插件，使其能夠生成合成訓練數據。其中的關鍵是他們將訓練數據可能擁有的變數進行了隨機化，包括：

目標物體的數量和種類

干擾項的數量、種類、顏色和規模

目標物和背景照片的圖案

針對不同場景的虛擬攝像機的位置

針對不同場景攝像機的角度

點光源的數量和位置

研究人員展示了利用合成數據進行預訓練後出色的效果和效率，達到了前所未有的水平。這也為沒有重要數據來源的情況提供了一種思路，即生成並使用合成數據。

論文地址：https://arxiv.org/abs/1804.06516

WESPE: Weakly Supervised Photo Enhancer for Digital Cameras

這篇非常精妙！研究人員訓練了一個生成對抗網路（GAN），能夠自動「修圖」。最酷的部分是，它是弱監督的，你不需要有輸入和輸出的圖像對！想要訓練網路，你只需要擁有一套「好看」的圖片和一套「粗糙」的圖片，想進一步調整。之後，研究者會訓練生成對抗網路，使其更符合審美，通常是改進色彩和圖片的對比度。

這一模型非常簡單並且能快速上手，你無需擁有成對的圖片，最終會得到一個通用的圖片增強器。我還喜歡這篇論文的一點是它是弱監督的方法，非監督學習看起來很遙遠，但是對CV領域的許多子類來說，弱監督似乎是一個更可靠的方向。

論文地址：http://www.vision.ee.ethz.ch/~ihnatova/wespe.html

Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++

深度網路之所以能有巨大幫助，正是得益於大型的經過標註的數據集。但是對很多機器視覺任務來說，想獲得這樣的數據會很耗費時間並且成本高昂。特別是分割的數據需要對圖片中的每個像素進行分類標註。所以對大型數據集來說，標註是永遠都標不完的，這輩子都不可能標完。

有了Polygon-RNN++，你可以在圖中每個目標物體的周圍大致圈出多邊形形狀，網路會自動生成分割的注釋！論文中表明，這一方法的表現非常不錯，並且能在分割任務中快速生成建議的標註。

論文地址：https://arxiv.org/abs/1803.09693

Creating Capsule Wardrobes from Fashion Images

每天早上你是否都會面臨「不知道穿什麼衣服」的難題，現在「膠囊衣櫃（Capsule Wardrobes）」來幫你了！在這篇論文中，作者設計了一款模型，給定現成的服裝和首飾，模型能對各件單品進行組合，提供所有可能的混合搭配方案。事實上它是使用目標函數進行訓練，這些目標函數只在捕捉視覺兼容性、多功能性和用戶偏好等關鍵要素。有了膠囊衣櫃，媽媽再也不用擔心我穿錯衣服啦！

論文地址：https://arxiv.org/abs/1712.02662

SuperSloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation

這篇論文論智君曾專門報道過：《CVPR 2018：英偉達用深度學習實現任意視頻的完美慢鏡頭回放》。這篇英偉達的論文講述了用CNN估計視頻中間幀，可以將標準的30fps視頻轉化成240fps的慢動作回放視頻！模型估計了幀與幀之間的光流，並將它插入視頻幀中間，讓慢動作看起來更清晰流暢。

論文地址：https://arxiv.org/abs/1712.00080

Who Let The Dogs Out? Modeling Dog Behavior From Visual Data

這個題目可能是最酷的了吧！這篇文章的研究方向是嘗試對狗狗的思想和活動建模。作者在狗狗的四肢上安裝了感測器，收集其運動時的數據；他們還在狗狗頭上安裝了攝像機，從而獲得「狗狗視角下的畫面」。為了從視頻幀中提取圖片特徵，研究人員用到了CNN特徵提取器，之後和感測器數據一起被傳輸到LSTM中，預測狗狗的行為。這一充滿創造性的應用和任務搭建方法讓這篇論文非常有可讀性！希望這樣的數據收集方法和深度學習技術的應用能激勵未來的研究。

論文地址：https://towardsdatascience.com/the-10-coolest-papers-from-cvpr-2018-11cb48585a49

Learning to Segment Every Thing

Facebook人工智慧研究專家何愷明的團隊在過去幾年做了太多CV方面的研究了，他們的論文一向以創新性和簡潔性著稱。ResNet和Mask R-CNN都算不上是最瘋狂、最複雜的點子，雖然它們很簡單，但在實際中非常高效。但這次卻有所不同。

Learning to Segment Every Thing是Mask R-CNN的擴展，他可以讓網路分割在訓練時從未見過的目標物體！這對於快速獲取數據集中的標籤非常有幫助，同時成本也較低。它可以對從未見過的目標種類獲取強大的基本分類，這對於實際應用這類分割網路是非常重要的，因為在這樣的環境中可能有很多陌生種類。總的來說，這是大多數深度網路模型應該考慮的正確方向。