如何讓手機快速運行AI應用？這有份TVM優化教程

科技 01-22

原作：鄭憐憫（上海交大）

允中摘錄編譯

量子位出品 | 公眾號 QbitAI

在移動設備上部署深度神經網路的需求正在快速增加。

和桌面平台類似，GPU也能在移動平台加速推理速度、降低能耗。但問題是，大多數現有深度學習框架並不能很好的支持移動GPU。

為什麼會這樣？因為移動GPU和桌面GPU在架構上存在差異。

所以想要利用移動GPU，還得進行專門的優化。這種額外的工作，最終導致的結果就是大多數深度學習框架都對移動GPU的支持不足。

TVM通過引入一個統一的IR堆棧來解決不同硬體平台的部署問題。使用TVM/NNVM可以為ARM Mali GPU生成高效內核，並且進行端到端的編譯。

基於Mali-T860 MP4的測試結果表明，與Arm Compute Library相比，上面這個方法在VGG-16上快1.4倍，在MobileNet上快2.2倍。

在鄭憐憫發表的這篇文章中，他還從GPU架構、卷積為例的優化等方面進行了更為詳細的闡述。我們在這裡就不詳細複述。

—

完—

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: