當前位置:
首頁 > 新聞 > ICLR oral:清華提出離散化架構WAGE,神經網路訓練推理合二為一

ICLR oral:清華提出離散化架構WAGE,神經網路訓練推理合二為一

圖 1 吳雙(左側)和李國齊(右側)- 被錄用文章的兩位作者

新智元報道

來源:清華類腦計算研究中心

【新智元導讀】清華大學類腦計算研究中心博士生吳雙的論文被 ICLR2018 收錄並在會上做口頭報告。迄今為止,這是中國作為第一署名單位里唯一一篇被 ICLR 會議收錄的口頭報告文章。該報告主要探討如何實現對全離散化深度神經網路進行訓練和推理,便於部署到嵌入式設備中。

論文地址:https://openreview.net/forum?id=HJGXzmspb

ICLR 是深度學習領域的頂會,更被譽為深度學習的 「無冕之王」,得到了 google, Facebook, DeepMind, Amazon,IBM 等眾多高科技公司的高度關注和參與。ICLR2018 於當地時間 2018 年 4 月 30 日在加拿大溫哥華會展中心召開,為期 4 天。本次大會的主席是深度學習領域三巨頭中的 Yoshua Bengio(蒙特利爾大學)和 Yann LeCun (紐約大學 & Facebook),本次大會收到一千多篇投稿文章,其中僅有 23 篇被收錄為本次會議的口頭報告文章。

吳雙同學的報告題目為 「Training and Inference with Integers in Deep Neural Networks」。

離散化架構 WAGE,訓練推理合二為一

該報告主要探討如何實現對全離散化深度神經網路進行訓練和推理,便於部署到嵌入式設備中

在深度學習領域,高精度意味著大面積、高功耗,從而導致高成本,這背離了嵌入式設備的需求,因此硬體加速器和神經形態晶元往往採用低精度的硬體實現方式。在低精度的演算法研究方面,之前的工作主要集中在對前向推理網路的權重值和激活值的縮減,使之可以部署在硬體加速器和神經形態晶元上;而網路的訓練還是藉助於高精度浮點實現(GPU)。這種訓練和推理的分離模式往往導致需要耗費大量的額外精力,對訓練好的浮點網路進行低精度轉換,這不僅嚴重影響了神經網路的應用部署,更限制了在應用端的在線改善。

為應對這種情況,本文提出了一種聯合的離散化架構 WAGE,首次實現了將離散化神經網路的反向訓練過程和前向推理合二為一。具體來說就是將網路權重、激活值、反向誤差、權重梯度用全用低精度整形數表達,在網路訓練時去掉難以量化的操作及操作數(比如批歸一化等),從而實現整個訓練流程全部用整數完成。

在數據集實測中,WAGE 的離散化方法能夠有效的提高測試精度。由於該方法能夠同時滿足深度學習加速器和神經形態晶元的低功耗和反向訓練需求,更使之具備高效地在線學習的能力,對未來多場景、多目標的可遷移、可持續學習的人工智慧應用將大有裨益。

WAGE框架將訓練和推理中的所有層中的權重( weights ,W)激活值( activations ,A)梯度( gradients ,G)誤差( errors ,E)限制為低位整數。首先,對於操作數,應用線性映射和方向保持移位來實現三元權重,用於激活和梯度累加的8位整數。其次,對於操作,批歸一化由一個常數因子取代。用於微調的其他技術(如具有動量和L2正則化的SGD優化器)可以簡化或放棄,性能的下降很小。考慮到整體雙向傳播,我們完全簡化了累積比較周期的推理,並分別訓練到具有對齊操作的低位乘法累加(MAC)周期。

所提出的框架在MNIST,CIFAR10,SVHN,ImageNet數據集上進行評估。相對於只在推理時離散權重和激活的框架,WAGE具有可比的準確性,並且可以進一步減輕過擬合。WAGE為DNN生成純粹的雙向低精度整數數據流,可以將其用於專門硬體的訓練和推理。我們在GitHub上發布了代碼。

圖1

圖2:WAGE的量化方法

實現細節

MNIST:採用LeNet-5的一個變體。WAGE中的學習率η在整個100個epochs中保持為1。我們報告了測試集上10次運行的平均準確度。

SVHN&CIFAR10:錯誤率的評估方式與MNIST相同。

ImageNet:使用AlexNe模型在ILSVRC12數據集上評估WAGE框架。

表1:WAGE及其他方法在多個數據集上的測試或驗證錯誤率(%)

圖3:訓練曲線

結論和未來工作

這項工作的目標是展示在DNN中應用低位整數訓練和推理的潛力。與FP16相比,8-bit整數運算不僅會降低IC設計的能耗和面積成本(約5倍,見Table 5),還會減少訓練期間內存訪問成本和內存大小要求,這將大大有利於具有現場學習能力的的移動設備。這個工作中有一些沒有涉及到的點,未來的演算法開發和硬體部署還有待改進或解決。

表5

WAGE使DNN的純低位整數數據流進行訓練和推理得以實現。我們引入一種新的初始化方法和分層常數比例因子來取代批歸一化,這是網路量化的一個難點。此外,還探討了誤差計算和梯度累積的位寬要求。實驗表明,我們可以量化梯度的相對值,並且在反向傳播中丟棄大多數小值及其數量級。雖然為了穩定收斂和最終的精度,權重更新的積累是必不可少的,但仍然可以在訓練中進一步減少壓縮和內存消耗。WAGE在多個數據集實現了最高精度。通過微調、更有效的映射、批歸一化等量化方法,對增量工作有一定的應用前景。總而言之,我們提出了一個沒有浮點表示的框架,並展示了在基於整數的輕量級ASIC或具有現場學習能力的FPGA上實現離散訓練和推理的潛力。

【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號:aiera2015_3入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

中國強勢打造世界新智極AI、量子計算、25位AI領袖預測智能大躍遷
華為:2025 年全球智能終端將達400億,智能助理普及率超90%

TAG:新智元 |