當前位置:
首頁 > 新聞 > 谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

新智元編譯

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

摘要

引言

自 AlexNet 在 ILSVRC 2012 利用深度卷積神經網路贏得 ImageNet 挑戰賽以來,卷積神經網路(CNN)已經被計算機視覺應用普遍使用。這方面的應用總的趨勢是用更深、更複雜的網路實現更高的精度。但是,考慮到模型大小和速度,精度的提高不一定會讓模型更高效。在機器人、無人駕駛汽車、增強現實等許多現實世界的應用中,識別任務需要在計算力有限的平台上實時地進行。

本論文中,我們提出一個高效的網路架構以及一組兩個超參數,以構建非常小,低延遲的模型,能夠輕鬆適應移動和嵌入式設備的視覺應用的設計要求。

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

圖1:MobileNet 模型可以應用於各種識別任務,實現高效的設備上智能。

實驗

本節中,我們首先調查了 depthwise convolution 的影響,以及通過減小網路的寬度而不是減少層數來選擇壓縮的模型。然後,我們基於兩個超參數來權衡收縮網路:width multiplier 和 resolution multiplier,並將其結果與一些流行模型進行比較。我們的研究證明 MobileNet 可以應用於許多不同的任務。

模型選擇

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

首先,我們比較了 depthwise separable 卷積的 MobileNet 和完全卷積的模型,如表4所示,使用 depthwise separable 卷積的 MobileNet 和完全卷積的相比,在 ImageNet 的精度只降低了1%,但大大節省了 mult-adds 和參數。表5顯示,在計算和參數數量相似時,更淺的模型比更小的模型結果精度低3%。

任務1:細粒度識別

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

我們在 Stanford Dogs 數據集上訓練 MobileNet 進行細粒度識別。結果如表10所示,MobileNet 在大大減少計算量和減小模型大小的情況下實現了[18]的結果。

任務2:大規模地理定位

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

我們使用 MobileNet 架構在相同的數據上重新訓練 PlaNet。如表11所示,MobileNet 版本與 PlaNet 相比,規模小了很多,性能只低一點點,但也比 Im2GPS 更優。

任務3:人臉屬性提取

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

MobileNet 的另一個使用情景是壓縮具有未知或複雜訓練程序的大型系統。在人臉屬性分類(face attribute classification)任務中,我們證明了 MobileNet 與 distillation 間的協同關係,這是深度網路的一種知識遷移技術。我們試圖簡化一個具有7500萬超參數和16億 Mult-Adds 的大型人臉屬性分類器。該分類器在一個類似 YFCC100M 的多屬性數據集(mult-attribute dataset)上訓練。

我們使用 MobileNet 架構提取一個人臉屬性分類器(face attribute classifier)。distillation 是通過訓練分類器模擬一個更大的模型的輸出,而非人工標註標籤工作,因此能夠從大型(可能是無限大)未標記數據集訓練。結合 distillation 的可擴展性和 MobileNet 的簡約參數化,終端系統不僅不需要正則化,而且表現出更好的性能,如表12所示。

任務4:物體檢測

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

MobileNet 也可以作為一個有效的基網路(base network)部署在現代物體檢測系統上。基於最近在2016 COCO 挑戰賽上獲勝的工作,我們比較了在 COCO 數據上訓練的 MobileNet 進行物體檢測的結果。表13列出了在 Faster-RCNN 和 SSD 框架下,MobileNet,VGG 以及 Inception V2 的比較。實驗中,SSD 以300的輸入解析度(SSD 300)與分別是300和600輸入解析度的 Faster-RCNN(FasterRCNN 300, Faster-RCNN 600)進行比較。在兩個框架下,MobileNet 實現了不輸其他兩個網路的結果,而且計算的複雜性和模型大小相對更小。

任務5:Face Embeddings

谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型

FaceNet 模型是目前 state-of-the-art 的人臉識別模型,它基於 triplet loss 建 face Embedding。為了搭建移動設備上的 FaceNet 模型,通過最小化訓練數據上 Facenet 和 MobileNet 輸出的方差,我們使用 distillation 來訓練。表14列出了非常小的 MobileNet 模型的結果。

結論

新智元招聘

職位:客戶經理

職位年薪:12 - 25萬(工資+獎金)

工作地點:北京-海淀區

所屬部門:客戶部

彙報對象:客戶總監

工作年限:3 年

語 言:英語 + 普通話

學歷要求:全日制統招本科

職位描述:

  1. 精準把握客戶需求和公司品牌定位,策劃撰寫合作方案;

  2. 思維活躍、富有創意,文字駕馭能力強,熟練使用PPT,具有良好的視覺欣賞及表現能力,PS 能力優秀者最佳;

  3. 熱情開朗,擅長人際交往,良好的溝通和協作能力,具有團隊精神;

  4. 優秀的活動籌備與執行能力,較強的抗壓能力和應變能力,適應高強度工作;

  5. 有4A、公關公司工作經歷優先

  6. 對高科技尤其是人工智慧領域有強烈興趣者加分。

崗位職責:

參與、管理、跟進上級指派的項目進展,確保計劃落實。制定、參與或協助上層執行相關的政策和制度。定期向公司提供準確的市場資訊及所屬客戶信息,分析客戶需求,維護與指定公司關鍵顧客的關係,積極尋求機會發展新的業務。建立並管理客戶資料庫,跟蹤分析相關信息。

應聘郵箱:jobs@aiera.com.cn

HR微信:13552313024

新智元歡迎有志之士前來面試,更多招聘崗位請點擊【新智元招聘】查看。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

TAG:新智元 |

您可能感興趣

Tensorflow系列專題:RNN的應用及注意力模型
Mozilla WebXR應用Hubs開始支持文檔、視頻、3D模型導入
Google 最強開源模型 BERT 在 NLP 中的應用 | 技術頭條
進一步改進GPT和BERT:使用Transformer的語言模型
TVM:Deep Learning模型的優化編譯器
谷歌提出移動端AutoML模型MnasNet:精度無損速度更快
用PyTorch搞定GluonCV預訓練模型,這個計算機視覺庫真的很好用
資源 | 用PyTorch搞定GluonCV預訓練模型,這個計算機視覺庫真的很好用
PrintMyRoute公司推出將運動路線轉化為3D列印模型的服務
TensorFlow推出新工具Seedbank:即刻使用的預訓練模型庫
利用搖滾樂隊學習TensorFlow,Word2Vec模型和TSNE演算法
IBM、哈佛聯合提出Seq2Seq-Vis:機器翻譯模型的可視化調試工具
一行代碼切換TensorFlow與PyTorch,模型訓練也能用倆框架
加入物理模型改善VR交互,《Boneworks》VR遊戲來襲
解密谷歌Gmail新功能:結合BoW模型和RNN-LM,幫助用戶快速寫郵件
加入Transformer-XL,這個PyTorch包能調用各種NLP預訓練模型
使用PaddleFluid和TensorFlow訓練RNN語言模型
圖靈獎得主Joseph Sifakis:將模型檢測從學術應用至產業界的功臣
圖靈獎得主 Joseph Sifakis:將模型檢測從學術應用至產業界的功臣
C/C++ 使用 TensorFlow 預訓練好模型——間接調用 Python 實現