如何讓手機快速運行AI應用?這有份TVM優化教程
科技
01-22
原作:鄭憐憫(上海交大)
允中 摘錄編譯
量子位 出品 | 公眾號 QbitAI
在移動設備上部署深度神經網路的需求正在快速增加。
和桌面平台類似,GPU也能在移動平台加速推理速度、降低能耗。但問題是,大多數現有深度學習框架並不能很好的支持移動GPU。
為什麼會這樣?因為移動GPU和桌面GPU在架構上存在差異。
所以想要利用移動GPU,還得進行專門的優化。這種額外的工作,最終導致的結果就是大多數深度學習框架都對移動GPU的支持不足。
TVM通過引入一個統一的IR堆棧來解決不同硬體平台的部署問題。使用TVM/NNVM可以為ARM Mali GPU生成高效內核,並且進行端到端的編譯。
基於Mali-T860 MP4的測試結果表明,與Arm Compute Library相比,上面這個方法在VGG-16上快1.4倍,在MobileNet上快2.2倍。
在鄭憐憫發表的這篇文章中,他還從GPU架構、卷積為例的優化等方面進行了更為詳細的闡述。我們在這裡就不詳細複述。
—
完—
TAG:量子位 |