谷歌發布高效的移動端視覺識別模型：MobileNets

知識 06-15

選自Google Research

機器之心編譯

參與：蔣思源

近日，谷歌開源了 MobileNets，一個支持多種視覺識別任務的輕量級模型，還能高效地在移動設備上運行。同時機器之心也關注過開源圈內利用蘋果最新發布的 Core ML 實現的谷歌移動端神經網路 MobileNet。此外，谷歌的這次開源充分地體現了其「移動優先」與「AI 優先」的有機結合。

項目地址：https://github.com/tensorflow/models/blob/master/slim/nets/mobilenet_v1.md

近年來，隨著神經網路大大加強了視覺識別技術，深度學習令計算機視覺取得了極大的進展。雖然如今通過 Cloud Vision API 和聯網設備提供了大量的計算機視覺應用，如目標識別、地標識別、商標和文本識別等，但我們相信隨著移動設備的計算力日益增長，這些技術不論何時、何地、有沒有聯網都可以載入到用戶的移動設備中。然而移動設備和嵌入式應用的視覺識別還存在著很多挑戰，即模型必須在有限資源的環境中充分利用計算力、功率和儲存空間以在高精度下快速運行。

因此近日谷歌發布了 MobileNets 網路架構，它是一系列在 TensorFlow 上高效、小尺寸的移動優先型視覺模型，其旨在充分利用移動設備和嵌入式應用的有限的資源，有效地最大化模型的準確性。MobileNets 是小型、低延遲、低功耗的參數化模型，它可以滿足有限資源下的各種應用案例。它們可以像其他流行的大規模模型（如 Inception）一樣用於分類、檢測、嵌入和分割任務等。

應用案例包括目標檢測、細粒度分類、人臉屬性和地標識別等。

該版本可在 TensorFlow 中使用 TF-Slim 對 MobileNets 模型進行定義，同樣還有 16 個預訓練 ImageNet 分類保存點（checkpoints）以適用於所有大小的移動項目。這些模型可以藉助 TensorFlow Mobile 在移動設備上高效地運行。

如上圖所示，我們需要選擇正確的 MobileNet 模型以符合所需的延遲和模型大小。內存和磁碟上的神經網路規模和參數的數量成正比。神經網路的延遲和功率大小與乘積累加（Multiply-Accumulates/MAC）數量成比例調整。MAC 度量了融合乘法和累加運算操作的數量。Top-1 和 Top-5 精度是在 ILSVRC 數據集上度量的。

如下圖所示，MobileNets 權衡了模型的延遲、規模和準確度。

該版本可用 TF-Slim 對 MobileNets 模型進行定義。TF-slim 是用於定義、訓練和評估複雜模型的 TensorFlow（tensorflow.contrib.slim）輕量級高層 API。其 Github 目錄包含使用 TF-slim 訓練和評估幾種廣泛使用的卷積神經網路（CNN）圖像分類模型的代碼，同時還包括腳本以允許從頭開始訓練模型或微調預訓練模型。

谷歌表明他們很高興能將 MobileNets 分享到開源社區中，讀者也可以閱讀以下資源進一步了解 MobileNets：

使用該模型庫的更多信息可以閱讀 TensorFlow-Slim Image Classification Library ：https://github.com/tensorflow/models/blob/master/slim/README.md

如何在移動設備上運行模型可以閱讀 TensorFlow Mobile：https://www.tensorflow.org/mobile/

更詳細的內容可閱讀以下論文。

論文：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

論文鏈接：https://arxiv.org/abs/1704.04861v1

摘要：我們提出了 MobileNets：一種用於移動端和嵌入式視覺應用的新模型。它基於一種流線型架構，使用深度可分離卷積方法來構建輕量級深度神經網路。我們引入了兩個簡單的全局超參數，可以在延遲和準確性之間找到平衡點。這些超參數允許模型開發者針對應用面臨的局限性選擇正確尺寸的模型。在 ImageNet 分類任務中，我們的模型具有資源消耗和精度的平衡性，並展示了頗具競爭力的性能。我們也展示了 MobileNets 在多種不同應用中的有效性，其中包括物體檢測、粒度分類、面部屬性和大規模地理定位。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※開源｜谷歌發布高效的移動端視覺識別模型：MobileNets
※Facebook開源基於強化學習的端到端談判AI
※Vicarious詳解新型圖式網路：賦予強化學習泛化能力
※微軟全球資深副總裁王永東：人工智慧一面是智能，另一面一定要接近於人
※機器翻譯新突破：谷歌實現完全基於attention的翻譯架構

TAG:機器之心 |

您可能感興趣

※原Movidius CEO Remi El-Ouazzane：深度了解終端視覺處理器VPU
※中文字幕 C4D《Arnold阿諾德真實材質渲染寶典》高端視頻教程
※前端視界：Chrome71Beta、Node.js11、Reactv16.6.0、RN0.57.4、Angular7.0.1……
※B站網頁端視頻文件上限全面升級至8GB
※1 台機櫃成就 1 個城市大腦視覺中樞：依圖發布最強雲端視覺推理 AI 晶元
※西瓜視頻也將暫時關閉移動端視頻上傳功能
※西瓜視頻暫時關閉移動端視頻上傳等功能全面自糾自查
※奧林巴斯高端視頻機曝光或明年發布