解讀谷歌NASNet:一個大規模圖像識別架構!
導讀:谷歌推出的NASNet架構,用於大規模圖像分類和識別。NASNet架構特點是由兩個AutoML設計的Layer組成——Normal Layer and Reduction Layer,這樣的效果是不再需要相關專家用human knowledge來搭建卷積網路架構,直接用RNN把Hyperparameter計算出來,這樣就實現了AI自動學習。
我們之前推出了AutoML項目,這是一種實現機器學習模型設計自動化的方式。儘管AutoML 能夠設計出性能可與人類專家設計的神經網路相媲美的小型神經網路,但仍被限制在 CIFAR-10 和 Penn Treebank 一類的小型學術數據集方面。我們對這種方法在更大、更具挑戰性的數據集(例如ImageNet圖像分類和 COCO 對象檢測)上的表現充滿好奇。
在學習可轉移的架構來實現可擴展的圖像識別 (Learning Transferable Architectures for Scalable Image Recognition)論文中,我們將 AutoML 應用到 ImageNet 圖像分類和COCO對象檢測數據集中 - ImageNet 和 COCO 是計算機視覺領域兩個最受認可的大規模學術數據集。這兩個數據集對我們來說是一項非常大的挑戰,因為它們要比 CIFAR-10 和 Penn Treebank 數據集大許多數量級。例如,單單將 AutoML 直接應用到 ImageNet 中就需要對我們的方法進行數月的訓練。
為了應用到 ImageNet,我們對 AutoML 做了兩點調整,讓它可以更容易地處理大規模數據集:
重新設計了搜索空間,以便 AutoML 找到最佳層並靈活進行多次堆疊來創建最終網路。
在 CIFAR-10 上執行了架構搜索,並將學到的最好架構轉移到 ImageNet 圖像分類和 COCO 對象檢測中。
通過這種方法,AutoML 能夠找到在 CIFAR-10 以及 ImageNet 分類和 COCO 對象檢測上都有優異表現的最佳層。這兩個層組合形成一種新的架構,我們稱之為「NASNet」。
我們的 NASNet 架構由兩種類型的層組成:正常層(左)和還原層(右)。這兩種層都由 AutoML 設計。
在 ImageNet 圖像分類上,NASNet 在驗證集上的預測準確率達到了 82.7%,超過了之前構建的所有 Inception 模型 [2, 3, 4]。此外,NASNet 的準確率比之前公布的所有結果提升了 1.2%。NASNet 還可以調整規模,生成一系列可以實現較高準確率的模型,同時將計算開銷控制在非常低的水平。例如,小版本的 NASNet 可以實現 74% 的準確率,比面向移動平台的同等規模最先進模型提升了 3.1%。大型 NASNet 則可實現最高的準確率,同時將 arxiv.org 上最佳報告結果(即 SENet)的計算開銷減半 [5]。
NASNet 與人類發明的各種規模的最先進模型在 ImageNet 圖像分類中的準確率。
可將學到的特徵從 ImageNet 轉移到對象檢測。實驗中,將在 ImageNet 分類中學到的特徵與 Faster-RCNN 框架 [6] 相結合超過了 COCO 對象檢測任務之前公布的最佳預測性能,無論檢測任務在最大的模型上執行,還是在針對移動設備優化的模型上執行,結果都是如此。最大的模型的平均準確率 (mAP) 達到了 43.1%,比之前公布的最佳結果提升了 4%。
結合使用 Faster-RCNN 和 NASNet 的示例對象檢測。
論文:https://arxiv.org/pdf/1707.07012.pdf
掃描圖中二維碼,報名加入學習


TAG:AI講堂 |