谷歌MobileNet：移動和嵌入式設備視覺應用模型，效果超越眾主流模型

新聞 05-06

新智元編譯

谷歌MobileNet：移動和嵌入式設備視覺應用模型，效果超越眾主流模型

摘要

引言

自 AlexNet 在 ILSVRC 2012 利用深度卷積神經網路贏得 ImageNet 挑戰賽以來，卷積神經網路（CNN）已經被計算機視覺應用普遍使用。這方面的應用總的趨勢是用更深、更複雜的網路實現更高的精度。但是，考慮到模型大小和速度，精度的提高不一定會讓模型更高效。在機器人、無人駕駛汽車、增強現實等許多現實世界的應用中，識別任務需要在計算力有限的平台上實時地進行。

本論文中，我們提出一個高效的網路架構以及一組兩個超參數，以構建非常小，低延遲的模型，能夠輕鬆適應移動和嵌入式設備的視覺應用的設計要求。

谷歌MobileNet：移動和嵌入式設備視覺應用模型，效果超越眾主流模型

圖1：MobileNet 模型可以應用於各種識別任務，實現高效的設備上智能。

實驗

本節中，我們首先調查了 depthwise convolution 的影響，以及通過減小網路的寬度而不是減少層數來選擇壓縮的模型。然後，我們基於兩個超參數來權衡收縮網路：width multiplier 和 resolution multiplier，並將其結果與一些流行模型進行比較。我們的研究證明 MobileNet 可以應用於許多不同的任務。

模型選擇

谷歌MobileNet：移動和嵌入式設備視覺應用模型，效果超越眾主流模型

首先，我們比較了 depthwise separable 卷積的 MobileNet 和完全卷積的模型，如表4所示，使用 depthwise separable 卷積的 MobileNet 和完全卷積的相比，在 ImageNet 的精度只降低了1%，但大大節省了 mult-adds 和參數。表5顯示，在計算和參數數量相似時，更淺的模型比更小的模型結果精度低3%。

任務1：細粒度識別

谷歌MobileNet：移動和嵌入式設備視覺應用模型，效果超越眾主流模型

我們在 Stanford Dogs 數據集上訓練 MobileNet 進行細粒度識別。結果如表10所示，MobileNet 在大大減少計算量和減小模型大小的情況下實現了[18]的結果。

任務2：大規模地理定位

谷歌MobileNet：移動和嵌入式設備視覺應用模型，效果超越眾主流模型

我們使用 MobileNet 架構在相同的數據上重新訓練 PlaNet。如表11所示，MobileNet 版本與 PlaNet 相比，規模小了很多，性能只低一點點，但也比 Im2GPS 更優。

任務3：人臉屬性提取

谷歌MobileNet：移動和嵌入式設備視覺應用模型，效果超越眾主流模型

MobileNet 的另一個使用情景是壓縮具有未知或複雜訓練程序的大型系統。在人臉屬性分類（face attribute classification）任務中，我們證明了 MobileNet 與 distillation 間的協同關係，這是深度網路的一種知識遷移技術。我們試圖簡化一個具有7500萬超參數和16億 Mult-Adds 的大型人臉屬性分類器。該分類器在一個類似 YFCC100M 的多屬性數據集（mult-attribute dataset）上訓練。

我們使用 MobileNet 架構提取一個人臉屬性分類器（face attribute classifier）。distillation 是通過訓練分類器模擬一個更大的模型的輸出，而非人工標註標籤工作，因此能夠從大型（可能是無限大）未標記數據集訓練。結合 distillation 的可擴展性和 MobileNet 的簡約參數化，終端系統不僅不需要正則化，而且表現出更好的性能，如表12所示。

任務4：物體檢測

谷歌MobileNet：移動和嵌入式設備視覺應用模型，效果超越眾主流模型

MobileNet 也可以作為一個有效的基網路（base network）部署在現代物體檢測系統上。基於最近在2016 COCO 挑戰賽上獲勝的工作，我們比較了在 COCO 數據上訓練的 MobileNet 進行物體檢測的結果。表13列出了在 Faster-RCNN 和 SSD 框架下，MobileNet，VGG 以及 Inception V2 的比較。實驗中，SSD 以300的輸入解析度（SSD 300）與分別是300和600輸入解析度的 Faster-RCNN（FasterRCNN 300, Faster-RCNN 600）進行比較。在兩個框架下，MobileNet 實現了不輸其他兩個網路的結果，而且計算的複雜性和模型大小相對更小。

任務5：Face Embeddings

谷歌MobileNet：移動和嵌入式設備視覺應用模型，效果超越眾主流模型

FaceNet 模型是目前 state-of-the-art 的人臉識別模型，它基於 triplet loss 建 face Embedding。為了搭建移動設備上的 FaceNet 模型，通過最小化訓練數據上 Facenet 和 MobileNet 輸出的方差，我們使用 distillation 來訓練。表14列出了非常小的 MobileNet 模型的結果。

結論

新智元招聘

職位：客戶經理

職位年薪：12 - 25萬（工資+獎金）

工作地點：北京-海淀區

所屬部門：客戶部

彙報對象：客戶總監

工作年限：3 年

語言：英語 + 普通話

學歷要求：全日制統招本科

職位描述：

精準把握客戶需求和公司品牌定位，策劃撰寫合作方案；
思維活躍、富有創意，文字駕馭能力強，熟練使用PPT，具有良好的視覺欣賞及表現能力，PS 能力優秀者最佳；
熱情開朗，擅長人際交往，良好的溝通和協作能力，具有團隊精神；
優秀的活動籌備與執行能力，較強的抗壓能力和應變能力，適應高強度工作；
有4A、公關公司工作經歷優先；
對高科技尤其是人工智慧領域有強烈興趣者加分。

崗位職責：

參與、管理、跟進上級指派的項目進展，確保計劃落實。制定、參與或協助上層執行相關的政策和制度。定期向公司提供準確的市場資訊及所屬客戶信息，分析客戶需求，維護與指定公司關鍵顧客的關係，積極尋求機會發展新的業務。建立並管理客戶資料庫，跟蹤分析相關信息。

應聘郵箱：jobs@aiera.com.cn

HR微信：13552313024

新智元歡迎有志之士前來面試，更多招聘崗位請點擊【新智元招聘】查看。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

TAG:新智元 |

您可能感興趣

※Tensorflow系列專題：RNN的應用及注意力模型
※Mozilla WebXR應用Hubs開始支持文檔、視頻、3D模型導入
※Google 最強開源模型 BERT 在 NLP 中的應用 | 技術頭條
※進一步改進GPT和BERT：使用Transformer的語言模型
※TVM：Deep Learning模型的優化編譯器
※谷歌提出移動端AutoML模型MnasNet：精度無損速度更快
※用PyTorch搞定GluonCV預訓練模型，這個計算機視覺庫真的很好用
※資源 | 用PyTorch搞定GluonCV預訓練模型，這個計算機視覺庫真的很好用
※PrintMyRoute公司推出將運動路線轉化為3D列印模型的服務
※TensorFlow推出新工具Seedbank：即刻使用的預訓練模型庫
※利用搖滾樂隊學習TensorFlow，Word2Vec模型和TSNE演算法
※IBM、哈佛聯合提出Seq2Seq-Vis：機器翻譯模型的可視化調試工具
※一行代碼切換TensorFlow與PyTorch，模型訓練也能用倆框架
※加入物理模型改善VR交互，《Boneworks》VR遊戲來襲
※解密谷歌Gmail新功能：結合BoW模型和RNN-LM，幫助用戶快速寫郵件
※加入Transformer-XL，這個PyTorch包能調用各種NLP預訓練模型
※使用PaddleFluid和TensorFlow訓練RNN語言模型
※圖靈獎得主Joseph Sifakis：將模型檢測從學術應用至產業界的功臣
※圖靈獎得主 Joseph Sifakis：將模型檢測從學術應用至產業界的功臣
※C/C++ 使用 TensorFlow 預訓練好模型——間接調用 Python 實現