谷歌AI再突破，Efficientnets有望成為計算機視覺任務的新基礎！

新聞 05-31

智造觀點

谷歌人工智慧研究部門的科學家認為Efficientnets通過寬度、深度、解析度三個維度的複合擴展，展現出比現行的CNN更高的精度和效率，將成為未來計算機視覺任務的新基礎。

卷積神經網路（CNN）作為人工神經網路的一種，是當下語音分析和圖像識別領域的研究熱點。

它的人工神經元可以響應一部分覆蓋範圍內的周圍單元，所以對於大型圖像處理有出色表現，但是如果要某一點上提高準確性，就需要進行較為繁瑣的優化調整。

針對這一現象，谷歌人工智慧研究部門的科學家正在研究一種「更結構化」的方式，用以「縮放」CNN，期望獲得更好的精度和效率。

最近，他們在Arxiv.org上發表的一篇論文（EfficientNet : Rethinking Model Scaling for Convolutional Neural Networks）並附帶了一篇博客文章中對其進行描述。他們聲稱，這個被稱為「Efficientnets」的AI系統，超過了最先進的精度，並且提升了10倍的效率。

這篇論文的作者工程師Mingxing Tan 和谷歌人工智慧首席科學家Quocv.le都來自谷歌大腦。

他們認為，模型縮放的傳統做法是任意增加CNN的深度或寬度，或者使用更大的輸入圖像解析度進行訓練和評估。區別於傳統方法，他們採用了一組固定的縮放係數來均勻縮放每個尺寸。

圖中最右側就是他們的方案，在寬度、深度、解析度三個維度進行複合擴展。單一調整一個維度能夠獲得精度提升，但是隨著參數調的越大，精度增益越平滑，改進將會不明顯。而聯合調整就能夠獲得相對更好的精度增益曲線。

那麼，它是如何做到的呢？

首先，在固定的資源約束下，通過進行柵欄搜索，識別基線網路不同維度之間的關係。例如，增加兩倍的FLOPS。這決定了每一個維度適當的縮放係數，將應用於基線網路縮放至需要的模型尺寸或者計算預算。為了進一步提高性能，科研人員提出了一種新的基線網路，即MBConv，可以為EfficientNets模型體系提供種子。

在測試的過程中，Efficientnets展現出比現行的CNN更高的精度和效率，將參數大小和FLOPS減少了一個數量級。

其中，Efficientnet-B7比CNNgpipe小8.4倍，快6.1倍，分別在imagenet中上達到了Top-1（84.4%）和Top-5（97.1%）的精度。與resnet-50相比，EfficientNet-B4使top-1精度從ResNet-50的76.3%提高至82.6%。

EfficientNets在其他數據集的表現也很好。在5/8的廣泛使用的轉移學習數據集中，EfficientNets都達到了最先進的精度，並且減少了21個參數。例如，CIFAR-100（91.7％）和Flowers（98.8％），這也表明EfficientNets有很好地轉移。

兩位作者表示，通過對模型效率的顯著改進，EfficientNets有可能成為未來計算機視覺活動的新基礎。他們開源了所有EfficientNet模型，希望這些模型可以使機器學習社區受益。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 人工智慧觀察 的精彩文章:

TAG:人工智慧觀察 |