谷歌MobileNet:移動和嵌入式設備視覺應用模型,效果超越眾主流模型
新智元編譯
摘要
引言
自 AlexNet 在 ILSVRC 2012 利用深度卷積神經網路贏得 ImageNet 挑戰賽以來,卷積神經網路(CNN)已經被計算機視覺應用普遍使用。這方面的應用總的趨勢是用更深、更複雜的網路實現更高的精度。但是,考慮到模型大小和速度,精度的提高不一定會讓模型更高效。在機器人、無人駕駛汽車、增強現實等許多現實世界的應用中,識別任務需要在計算力有限的平台上實時地進行。
本論文中,我們提出一個高效的網路架構以及一組兩個超參數,以構建非常小,低延遲的模型,能夠輕鬆適應移動和嵌入式設備的視覺應用的設計要求。
圖1:MobileNet 模型可以應用於各種識別任務,實現高效的設備上智能。
實驗
本節中,我們首先調查了 depthwise convolution 的影響,以及通過減小網路的寬度而不是減少層數來選擇壓縮的模型。然後,我們基於兩個超參數來權衡收縮網路:width multiplier 和 resolution multiplier,並將其結果與一些流行模型進行比較。我們的研究證明 MobileNet 可以應用於許多不同的任務。
模型選擇
首先,我們比較了 depthwise separable 卷積的 MobileNet 和完全卷積的模型,如表4所示,使用 depthwise separable 卷積的 MobileNet 和完全卷積的相比,在 ImageNet 的精度只降低了1%,但大大節省了 mult-adds 和參數。表5顯示,在計算和參數數量相似時,更淺的模型比更小的模型結果精度低3%。
任務1:細粒度識別
我們在 Stanford Dogs 數據集上訓練 MobileNet 進行細粒度識別。結果如表10所示,MobileNet 在大大減少計算量和減小模型大小的情況下實現了[18]的結果。
任務2:大規模地理定位
我們使用 MobileNet 架構在相同的數據上重新訓練 PlaNet。如表11所示,MobileNet 版本與 PlaNet 相比,規模小了很多,性能只低一點點,但也比 Im2GPS 更優。
任務3:人臉屬性提取
MobileNet 的另一個使用情景是壓縮具有未知或複雜訓練程序的大型系統。在人臉屬性分類(face attribute classification)任務中,我們證明了 MobileNet 與 distillation 間的協同關係,這是深度網路的一種知識遷移技術。我們試圖簡化一個具有7500萬超參數和16億 Mult-Adds 的大型人臉屬性分類器。該分類器在一個類似 YFCC100M 的多屬性數據集(mult-attribute dataset)上訓練。
我們使用 MobileNet 架構提取一個人臉屬性分類器(face attribute classifier)。distillation 是通過訓練分類器模擬一個更大的模型的輸出,而非人工標註標籤工作,因此能夠從大型(可能是無限大)未標記數據集訓練。結合 distillation 的可擴展性和 MobileNet 的簡約參數化,終端系統不僅不需要正則化,而且表現出更好的性能,如表12所示。
任務4:物體檢測
MobileNet 也可以作為一個有效的基網路(base network)部署在現代物體檢測系統上。基於最近在2016 COCO 挑戰賽上獲勝的工作,我們比較了在 COCO 數據上訓練的 MobileNet 進行物體檢測的結果。表13列出了在 Faster-RCNN 和 SSD 框架下,MobileNet,VGG 以及 Inception V2 的比較。實驗中,SSD 以300的輸入解析度(SSD 300)與分別是300和600輸入解析度的 Faster-RCNN(FasterRCNN 300, Faster-RCNN 600)進行比較。在兩個框架下,MobileNet 實現了不輸其他兩個網路的結果,而且計算的複雜性和模型大小相對更小。
任務5:Face Embeddings
FaceNet 模型是目前 state-of-the-art 的人臉識別模型,它基於 triplet loss 建 face Embedding。為了搭建移動設備上的 FaceNet 模型,通過最小化訓練數據上 Facenet 和 MobileNet 輸出的方差,我們使用 distillation 來訓練。表14列出了非常小的 MobileNet 模型的結果。
結論
新智元招聘
職位:客戶經理
職位年薪:12 - 25萬(工資+獎金)
工作地點:北京-海淀區
所屬部門:客戶部
彙報對象:客戶總監
工作年限:3 年
語 言:英語 + 普通話
學歷要求:全日制統招本科
職位描述:
精準把握客戶需求和公司品牌定位,策劃撰寫合作方案;
思維活躍、富有創意,文字駕馭能力強,熟練使用PPT,具有良好的視覺欣賞及表現能力,PS 能力優秀者最佳;
熱情開朗,擅長人際交往,良好的溝通和協作能力,具有團隊精神;
優秀的活動籌備與執行能力,較強的抗壓能力和應變能力,適應高強度工作;
有4A、公關公司工作經歷優先;
對高科技尤其是人工智慧領域有強烈興趣者加分。
崗位職責:
參與、管理、跟進上級指派的項目進展,確保計劃落實。制定、參與或協助上層執行相關的政策和制度。定期向公司提供準確的市場資訊及所屬客戶信息,分析客戶需求,維護與指定公司關鍵顧客的關係,積極尋求機會發展新的業務。建立並管理客戶資料庫,跟蹤分析相關信息。
應聘郵箱:jobs@aiera.com.cn
HR微信:13552313024
新智元歡迎有志之士前來面試,更多招聘崗位請點擊【新智元招聘】查看。
TAG:新智元 |
※Tensorflow系列專題:RNN的應用及注意力模型
※Mozilla WebXR應用Hubs開始支持文檔、視頻、3D模型導入
※Google 最強開源模型 BERT 在 NLP 中的應用 | 技術頭條
※進一步改進GPT和BERT:使用Transformer的語言模型
※TVM:Deep Learning模型的優化編譯器
※谷歌提出移動端AutoML模型MnasNet:精度無損速度更快
※用PyTorch搞定GluonCV預訓練模型,這個計算機視覺庫真的很好用
※資源 | 用PyTorch搞定GluonCV預訓練模型,這個計算機視覺庫真的很好用
※PrintMyRoute公司推出將運動路線轉化為3D列印模型的服務
※TensorFlow推出新工具Seedbank:即刻使用的預訓練模型庫
※利用搖滾樂隊學習TensorFlow,Word2Vec模型和TSNE演算法
※IBM、哈佛聯合提出Seq2Seq-Vis:機器翻譯模型的可視化調試工具
※一行代碼切換TensorFlow與PyTorch,模型訓練也能用倆框架
※加入物理模型改善VR交互,《Boneworks》VR遊戲來襲
※解密谷歌Gmail新功能:結合BoW模型和RNN-LM,幫助用戶快速寫郵件
※加入Transformer-XL,這個PyTorch包能調用各種NLP預訓練模型
※使用PaddleFluid和TensorFlow訓練RNN語言模型
※圖靈獎得主Joseph Sifakis:將模型檢測從學術應用至產業界的功臣
※圖靈獎得主 Joseph Sifakis:將模型檢測從學術應用至產業界的功臣
※C/C++ 使用 TensorFlow 預訓練好模型——間接調用 Python 實現