2017年度最值得讀的AI論文

最新 02-01

2017 年，這些計算機視覺論文是你心中的最佳么？

歷時九天，我們收到了近千份有效讀者投票，2017 年度最值得讀的 AI 論文評選也正式結束。

我們根據讀者的投票情況，選出了自然語言處理和計算機視覺領域「2017 年最值得讀的十大論文」。讓我們一起來看看過去一整年，在 PaperWeekly 讀者心中排名前十的計算機視覺論文都有哪些？還有給我們留言的讀者，在表達對這十篇論文的喜愛之情時都說了些什麼？

此外，小編也在所有留言中選出了自己最鐘意的五條，還在所有成功參與投票的讀者中隨機抽取了 13 位，他們都將獲得 PaperWeekly 精心準備的新年禮物。

論文 Mask R-CNN

鏈接 https://www.paperweekly.site/papers/672

源碼 https://github.com/CharlesShang/FastMaskRCNN

Mask R-CNN 是 ICCV 2017 的最佳論文。Faster R-CNN 用於目標檢測，FCN 用於物體分割，概念基本深入人心。本文提出一個高效實體分割+目標檢測+關鍵點檢測框架，各任務之間並行實現，速率 5fps（在單 GPU 運行時間是 200ms/幀，使用 8 GPU 卡，在 COCO 數據集訓練只需要 2 天時間），模型簡潔，沒有靠 trick 提升性能，網路框架主體就是 Faster R-CNN+FCN。

實體分割需要正確檢測圖片所有的物體並實現像素級分割。在論文之前的實現方式是分割之後做分類，而 Mask-RCNN 的檢測和分割是並行出結果。該網路還很容易擴展到其他領域，像目標檢測、分割和人物關鍵點檢測等任務。

論文 Image-to-Image Translation with Conditional Adversarial Networks

鏈接 https://www.paperweekly.site/papers/1401

源碼 https://github.com/phillipi/pix2pix

將 GAN 的對抗 loss 引入有監督圖像轉換任務的經典之作。

原有的傳統圖像轉換任務中 L1、L2 等人工設計的損失函數並不能產生令人滿意的視覺效果，本文提出的 pix2pix 模型則藉助了條件判別網路來充當一個隱式的損失函數，讓它在與生成網路對抗的過程中超越人工設計的損失函數，取得良好的視覺效果。

本文提出的 PatchGAN 要求判別網路只對圖像的一小塊區域進行判別，專註捕捉高頻信息，這也成為後續很多圖像轉換論文的常見做法。

論文 A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection

鏈接 https://www.paperweekly.site/papers/314

源碼 https://github.com/xiaolonw/adversarial-frcnn

遮擋和形變在物體檢測中是很難的一類樣本，而它們又具有長尾性，即使收集一個很大的數據集也很難涵蓋不常見的情況。本文提出用 GAN 來生成遮擋和形變的樣本，這是第一篇將 GAN 引入物體檢測的文章。

這兩類樣本的生成都是在特徵層面，而不是在圖片層面。對於遮擋，作者採用一個 ASDN 網路，它的目標是對 ROI-pooling 的特徵生成一個 mask，通過 mask 遮擋掉部分特徵，以騙過分類器。

類似的，對於形變，通過 STN 網路在一定範圍內生成一組旋轉、縮放、平移的參數，再作用到特徵上，使得分類器分錯。而分類器的目標是儘可能地避免被這兩類生成樣本欺騙。

ASDN、ASTN 和 Fast-RCNN 可以聯合訓練，以避免在某些固定的生成模式下過擬合。實驗表明，A-Fast-RCNN 在 VOC07 和 12 的數據上都有 2% 以上的 mAP 提升。

論文 Bayesian GAN

鏈接 https://www.paperweekly.site/papers/1102

源碼 https://github.com/andrewgordonwilson/bayesgan/

本文將貝葉斯公式引入到做無監督和半監督學習的 GAN 模型中，採用哈密頓蒙特卡羅隨機梯度演算法優化生成器和判別器。作者指出，在不需要 feature matching 和 mini-batch discrimination 等 tricks 的情況下，能夠取得不錯的分類性能。

此外，Bayesian GAN 還能避免模式坍塌（mode collapse）。文章在 SVHN、CelebA 和 CIFAR-10 等數據集上取得了 state-of-the-art 的半監督分類效果。

論文 Interpretable R-CNN

鏈接 https://www.paperweekly.site/papers/1215

源碼暫無

本文使用 R-CNN 展示了一種學習定性可解釋模型的方法。R-CNN 由一個區域建議網路和一個感興趣區域預測網路（RoI，Region of interest）組成。通過使用可解釋的模型，可在檢測中（對任何部分都不使用監督的情況下）自動地、同步地學習展開目標實例的隱藏部分結構。

本文還提出了一種 AOG 解析運算元來取代 R-CNN 中常用的 RoI 池化運算元，因此該方法可以適用於很多基於卷積神經網路的頂尖目標檢測系統。

在實驗中，作者在 R-FCN 之上創建模型並在 PASCAL VOC 2007、 PASCAL VOC 2012 數據集上進行測試，最終的性能與目前最先進的方法具有可比性。

論文 Learning Feature Pyramids for Human Pose Estimation

鏈接 https://www.paperweekly.site/papers/1325

源碼 https://github.com/bearpaw/PyraNet

本文是香港中文科技大學王曉剛教授團隊之作，目前在 MPII 官網 Single Person 領域，PCKh @ 0.5 evaluation measure，取得 state-of-the-art 水平。

論文在 Stacked Hourglass 基礎上，提出 Pyramid Residual Module，金字塔殘差模塊，通過學習 DCNNs 中的特徵金字塔來增強深度模型的尺度的不變性，而模型複雜度只有很小的增加。

本文針對具有多個輸入或多個輸出分支圖層的 DCNNs 初始化問題，提出了有效的初始化方案，可用於 inception 和 ResNets 等模型。此外，本文還解決了由 identity mapping 引起的激活方差積累的問題。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 PaperWeekly 的精彩文章:

TAG:PaperWeekly |