當前位置:
首頁 > 最新 > 2017年度最值得讀的AI論文

2017年度最值得讀的AI論文

2017 年,這些計算機視覺論文是你心中的最佳么?

歷時九天,我們收到了近千份有效讀者投票,2017 年度最值得讀的 AI 論文評選也正式結束。

我們根據讀者的投票情況,選出了自然語言處理和計算機視覺領域「2017 年最值得讀的十大論文」。讓我們一起來看看過去一整年,在 PaperWeekly 讀者心中排名前十的計算機視覺論文都有哪些?還有給我們留言的讀者,在表達對這十篇論文的喜愛之情時都說了些什麼?

此外,小編也在所有留言中選出了自己最鐘意的五條,還在所有成功參與投票的讀者中隨機抽取了 13 位,他們都將獲得 PaperWeekly 精心準備的新年禮物。

論文 Mask R-CNN

鏈接 https://www.paperweekly.site/papers/672

源碼 https://github.com/CharlesShang/FastMaskRCNN

Mask R-CNN 是 ICCV 2017 的最佳論文。Faster R-CNN 用於目標檢測,FCN 用於物體分割,概念基本深入人心。本文提出一個高效實體分割+目標檢測+關鍵點檢測框架,各任務之間並行實現,速率 5fps(在單 GPU 運行時間是 200ms/幀,使用 8 GPU 卡,在 COCO 數據集訓練只需要 2 天時間),模型簡潔,沒有靠 trick 提升性能,網路框架主體就是 Faster R-CNN+FCN。

實體分割需要正確檢測圖片所有的物體並實現像素級分割。在論文之前的實現方式是分割之後做分類,而 Mask-RCNN 的檢測和分割是並行出結果。該網路還很容易擴展到其他領域,像目標檢測、分割和人物關鍵點檢測等任務。

論文 Image-to-Image Translation with Conditional Adversarial Networks

鏈接 https://www.paperweekly.site/papers/1401

源碼 https://github.com/phillipi/pix2pix

將 GAN 的對抗 loss 引入有監督圖像轉換任務的經典之作。

原有的傳統圖像轉換任務中 L1、L2 等人工設計的損失函數並不能產生令人滿意的視覺效果,本文提出的 pix2pix 模型則藉助了條件判別網路來充當一個隱式的損失函數,讓它在與生成網路對抗的過程中超越人工設計的損失函數,取得良好的視覺效果。

本文提出的 PatchGAN 要求判別網路只對圖像的一小塊區域進行判別,專註捕捉高頻信息,這也成為後續很多圖像轉換論文的常見做法。

論文 A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection

鏈接 https://www.paperweekly.site/papers/314

源碼 https://github.com/xiaolonw/adversarial-frcnn

遮擋和形變在物體檢測中是很難的一類樣本,而它們又具有長尾性,即使收集一個很大的數據集也很難涵蓋不常見的情況。本文提出用 GAN 來生成遮擋和形變的樣本,這是第一篇將 GAN 引入物體檢測的文章。

這兩類樣本的生成都是在特徵層面,而不是在圖片層面。對於遮擋,作者採用一個 ASDN 網路,它的目標是對 ROI-pooling 的特徵生成一個 mask,通過 mask 遮擋掉部分特徵,以騙過分類器。

類似的,對於形變,通過 STN 網路在一定範圍內生成一組旋轉、縮放、平移的參數,再作用到特徵上,使得分類器分錯。而分類器的目標是儘可能地避免被這兩類生成樣本欺騙。

ASDN、ASTN 和 Fast-RCNN 可以聯合訓練,以避免在某些固定的生成模式下過擬合。實驗表明,A-Fast-RCNN 在 VOC07 和 12 的數據上都有 2% 以上的 mAP 提升。

論文 Bayesian GAN

鏈接 https://www.paperweekly.site/papers/1102

源碼 https://github.com/andrewgordonwilson/bayesgan/

本文將貝葉斯公式引入到做無監督和半監督學習的 GAN 模型中,採用哈密頓蒙特卡羅隨機梯度演算法優化生成器和判別器。作者指出,在不需要 feature matching 和 mini-batch discrimination 等 tricks 的情況下,能夠取得不錯的分類性能。

此外,Bayesian GAN 還能避免模式坍塌(mode collapse)。文章在 SVHN、CelebA 和 CIFAR-10 等數據集上取得了 state-of-the-art 的半監督分類效果。

論文 Interpretable R-CNN

鏈接 https://www.paperweekly.site/papers/1215

源碼 暫無

本文使用 R-CNN 展示了一種學習定性可解釋模型的方法。R-CNN 由一個區域建議網路和一個感興趣區域預測網路(RoI,Region of interest)組成。通過使用可解釋的模型,可在檢測中(對任何部分都不使用監督的情況下)自動地、同步地學習展開目標實例的隱藏部分結構。

本文還提出了一種 AOG 解析運算元來取代 R-CNN 中常用的 RoI 池化運算元,因此該方法可以適用於很多基於卷積神經網路的頂尖目標檢測系統。

在實驗中,作者在 R-FCN 之上創建模型並在 PASCAL VOC 2007、 PASCAL VOC 2012 數據集上進行測試,最終的性能與目前最先進的方法具有可比性。

論文 Learning Feature Pyramids for Human Pose Estimation

鏈接 https://www.paperweekly.site/papers/1325

源碼 https://github.com/bearpaw/PyraNet

本文是香港中文科技大學王曉剛教授團隊之作,目前在 MPII 官網 Single Person 領域,PCKh @ 0.5 evaluation measure,取得 state-of-the-art 水平。

論文在 Stacked Hourglass 基礎上,提出 Pyramid Residual Module,金字塔殘差模塊,通過學習 DCNNs 中的特徵金字塔來增強深度模型的尺度的不變性,而模型複雜度只有很小的增加。

本文針對具有多個輸入或多個輸出分支圖層的 DCNNs 初始化問題,提出了有效的初始化方案,可用於 inception 和 ResNets 等模型。此外,本文還解決了由 identity mapping 引起的激活方差積累的問題。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 PaperWeekly 的精彩文章:

TAG:PaperWeekly |