當前位置:
首頁 > 最新 > 2018年嵌入式處理器報告:神經網路加速器的崛起

2018年嵌入式處理器報告:神經網路加速器的崛起

AiTechYun

編輯:Yining

人工智慧和機器學習應用程序代表了嵌入式處理器的下一個重大市場機遇。然而,傳統的處理解決方案並不是為了計算神經網路的工作負載,這些工作負載為許多應用程序提供了動力,因此需要新的架構來滿足我們對智能日益增長的需求。

隨著數十億聯網感測器節點被部署到物聯網領域,有一件事已經變得清晰起來:自動化無處不在。考慮到物聯網系統的本質,其中許多具有嚴重的經濟、生產力和安全影響,這一需求超越了簡單規則引擎或編程閾值的使用。作為回應,行業轉向了人工智慧和機器學習。

如今的人工智慧和機器學習應用程序依賴於人工神經網路。人工神經網路是一種演算法,通過將其定義特徵組織成一系列結構層來分析數據集的不同方面。這些網路最初是建立在高性能計算平台上的,這些平台教演算法根據特定的參數做出決策或預測。然後,該演算法可以進行優化,並將其移植到一個嵌入式目標中,在此基礎上,根據該欄位中接收到的輸入數據進行推斷。

使用不同的嵌入式處理解決方案來執行基於應用程序的神經網路演算法,為人工智慧和機器學習開發人員提供了多種選擇。但是,正如著名研究機構The Linley Group的高級分析師麥克·戴姆勒所指出的那樣,每一種處理器都在性能和成本方面有所權衡。

戴姆勒說:「沒有一種嵌入式的人工智慧處理器。神經網路引擎可能會使用CPU, DSP, GPU或專門的深度學習加速器,或者是它們的一種組合。」

「這一趨勢無疑是向CPU, GPU和DSP添加加速器。原因是它們比其他的通用核心(core)有更大的面積和效率。像Caffe和TensorFlow這樣的開放深度學習框架增加了使用標準,以及像GoogleNet和ResNet這樣的開放源碼網路,IP供應商更容易設計出具有專門用於運行各種神經網路層的硬體。這就是為什麼很多加速器都在不斷地添加越來越大的乘積累加器陣列,因為在神經網路中,大多數的計算都是乘積累加計算(MAC)。」

人工智慧工作負載的新興架構

IP供應商針對神經網路工作負載的一個主要關注點是「靈活性」,因為在不斷發展地人工智慧市場中,需求正在迅速變化。在CEVA最近發布的NeuPro AI處理器架構中可以找到這樣的例子,它由一個完全可編程的向量排列單元(VPU)和專門的用於矩陣乘法和計算激活(activation)、池化(pooling)、卷積(convolutional)和完全連接的神經網路層(圖1)的特殊引擎組成。

圖1:CEVA的NeuPro架構支持高達4000 8×8的MAC,超過了90%的MAC利用率。

處理神經網路工作負載的一個常見挑戰是需要將大數據集轉移到內存中。為了克服這一點,NeuPro架構結合直接內存訪問(DMA)控制器,從而提高了雙倍數據速率(DDR)的帶寬利用率。

架構的一個更有趣的特性是能夠動態地擴展解析度以適應各個網路層的精度要求。根據CEVA的成像和計算機視覺產品營銷主管麗蘭·巴爾的說法,這有助於最大程度地提高神經網路的準確性。

「並不是所有的層都需要同樣的精度。事實上,許多商業化的神經網路需要16位的解析度來保持較高的精確度,但同時,8位的解析度對於某些層來說已經足夠了。NeuPro預先決定了每8位個或16位解析度的層的精度,以實現完整的靈活性。例如,在使用NP4000產品時,可以在運行時動態選擇4000 8×8、2048 16×8或1024 16×16的MAC。」

類似的功能也可以使用Imagination Technologies發布的PowerVR Series2NX,這是一種神經網路加速器(NNA),它的原生支持可以將位深(bit depth)降低到4位。然而,PowerVR Series2NX將動態擴展到極致,在相同的核心支持4、5、6、7、8、10、12和16位的解析度,從而實現更好的精度(圖2)。

圖2:PowerVR Series2NX是一種神經網路加速器(NNA),它可以運行現成的網路,如GoogLeNet Inception,每秒鐘可以進行500次的推斷(inference)。

「我們可以把NNA架構看作是一個張量處理管道。」 Imagination Technologies的視覺和人工智慧副總裁羅素·詹姆斯說道。「它有一個神經網路計算引擎,優化了對大張量(輸入數據和權重)的快速卷積,並由其他單元執行元素和張量操作,如激活、池化和規格化。該體系結構還使用了優化的數據流,使操作可以被分組到傳遞中,從而最小化外部內存訪問。」

PowerVR Series2NX的另一個獨特功能是它能夠將數據轉換為內存中的交換格式,可以由CPU或GPU讀取,這使得異構系統在神經網路處理中處於領先地位。Imagination提供了一個網路開發工具包(NDK)來評估核心,它包含了將神經網路映射到NNA的工具,優化網路模型,以及轉換在諸如Caffe和TensorFlow等框架中開發的網路。

除了IP供應商之外,主要晶元製造商還在繼續利用人工智慧的工作負載。NVIDIA Tegra和Xavier SoCs將CPU、GPU和自定義深度學習加速器結合在了自動駕駛系統上,而高通則繼續在其六邊形DSP中構建機器學習特性。甚至Google也創建了一個TPU。

這些公司都採用不同的方法處理神經網路工作負載,每種架構處理的用例略有不同。但是,對於開發者來說,越多的選擇,當然就越好。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 ATYUN訂閱號 的精彩文章:

人工智慧領域發展現狀如何?一文帶你探究竟
Facebook推薦演算法應該被監控嗎?

TAG:ATYUN訂閱號 |