Arm 機器學習處理器的獨特之處

新聞 05-29

Arm Community所有者：Arm Community 】

雷鋒網按：Arm 社區近期發表文章，深入地介紹了一個機器學習處理器（Machine Learning Processor），據了解，這個處理器能夠在邊緣設備上加速計算過程；這是 Arm 第一次專門推出類似於 NPU 的 AI 專用處理器。雷鋒網將全文編譯如下。

想一下，你有多少個互聯設備？

無論你是一個電子產品成癮者，還是只是一個普通電子產品擁有者，你現在擁有的電子產品很有可能會比五年前的多。從智能手機、平板電腦到個人健康追蹤器、智能哮喘吸入器和智能門鈴，我們年復一年都忙著加強互聯互通，這讓個人數據呈現爆炸式增長。根據最近的一份報告，在近十年里，全球人均聯網設備的數量不足 2 台，到 2020 年，這個數據將躍升至 6.58 ——大量的設備製造了大量的數據。

一直以來，這些數據會發送到雲端進行處理；但隨著數據和設備的數量呈指數型增長，要想不斷地來回移動數據都不太實際，更不用說安全和成本效益。幸運的是，機器學習（Machine Learning，以下簡稱 ML）的最新進展意味著現在比以往任何時候可以在設備上完成更多的處理和預處理。這帶來了一些好處，數據泄露的風險降低從而提高了安全性，節約了成本和電力。將數據在雲端和設備之間來回傳輸的基礎設施並不便宜，因此在設備上可以完成的處理越多越好。

性能曲線上的功率和效率

設備上的機器學習是從 CPU 開始的， CPU 充當一個熟練的「流量控制器」，要麼單獨管理整個機器學習工作量，要麼將選定的任務分配給特定的機器學習處理器。

Arm CPU 和 GPU 已經跨過性能曲線，為成千上萬的 ML 用例提供動力，尤其是在移動端，邊緣機器學習已經驅動了消費者所期望的標準特性。

隨著這些處理器變得越來越強大，越來越高效，它們能夠驅動更高的性能，從而為邊緣的安全 ML 提供更多的設備上計算能力。（例如，可以在不影響電池壽命的情況下，管理計算密集型任務的第三代 DynamIQ 大核心 Arm Cortex-A77 CPU，以及為 ML 提供了 60% 的性能改進的 Arm Mali-G77 GPU。）

但是，儘管 CPU 和 GPU 本身就是 ML 的動力源，但是在最密集、最高效的性能需求下，它們自身可能很難滿足這個需求。在這些任務中，專用神經處理單元( NPU )的強大功能（如 Arm ML 處理器）將派上用場，為邊緣的 ML 推理提供最高的吞吐量和最高效的處理。

在性能和功耗之間做平衡

是什麼讓 ML 處理器變得如此特別？

它的特別之處在於，它以全新的體系結構為基礎，以連接設備為目標，例如智能手機，智能相機，增強現實與虛擬現實設備（AR/VR）、無人機，還有醫療電子和消費電子產品。它的運算性能多達 4 TOP/s，從而能夠啟動以前由於電池壽命或熱量限制而無法實現的新用例——這讓開發人員能夠創建出新的用戶體驗，比如說 3D 人臉解鎖，或是具有深度控制或人像照明功能的高級人像模式等。

當然，性能優越是件好事。但是，如果它需要你每隔幾個小時就得給你的設備充電，或者到哪都要帶著你的充電寶，這就沒那麼好了。為了將用戶從充電電纜的「暴政」中解放出來，這個 ML 處理器擁有業界領先 5TOPs/W 的電源效率，這是通過最先進的優化（例如重量壓縮、活化壓縮，Winograd ）來實現的。

Winograd 使關鍵卷積濾波器的性能比其他 NPU 高出 225% ，佔用的空間更小，還能在減少任何給定設計所需組件數量的同時提高效率。這進而降低了成本和電力需求，同時又不影響用戶體驗。

該體系結構由固定函數引擎和可編程層引擎組成，前者用於高效執行卷積層，後者用於執行非卷積層和實現選定的原語和運算符。這些本地支持的功能與常見的神經框架緊密結合，減少了網路部署成本，從而加快了上市時間。

Arm Community所有者：Arm Community 】

我們再來看一下這款處理器的參數：

效能：CPUs, GPUs, DSPs 提供巨大提升力，多達 5 TOPs/W 的加速器；

網路支持：處理各種流行的神經網路，包括卷積層（CNNs）和遞歸（RNNs），用於分類、物體探測、圖像增強、語音識別以及自然語言理解；

安全性：使用 Arm TrustZone 體系結構的基礎，以最小攻擊面執行；

可擴展性：通過多核擴展，單個集群中最多有 8 個 NPUs 和 32 個 TOPs，網格配置中最多有 64 個NPUs；

神經框架支持：與現有框架緊密集成：TensorFlow , TensorFlow Lite , Caffe , Caffe 2 以及其他通過 ONNX 實現的框架；

Winograd 卷積：與其他 NPUs 相比，普通過濾器的速度提高了 225%，能夠在更小的區域內獲得更高的性能；

內存壓縮：通過各種壓縮技術，將系統內存帶寬最小化；

異構 ML 計算：優化使用 Arm Cortex-A CPUs 和 Arm Mali GPUs；

開源軟體功能：通過 Arm NN 的支持去減少成本和避免鎖定；

面向開發人員和未來

為了讓開發人員輕鬆一些，這個 ML 處理器有一個集成的網路控制單元和 DMA（Direct Memory Access，直接內存存取），這個 DMA 能夠管理整個網路的執行和遍歷，還能在後台將數據移入和移出主內存。

同時，板載存儲器允許中央存儲權重和特徵圖，減少了外部儲存器的通信，延長了電池的壽命，這是對消費者所期望的標準用戶體驗的又一次認可。

至關重要的是，這個 ML 處理器足夠靈活，可以支持具有更高需求的用例，運行更多且更大的並發特性：在單個集群中可配置 8 個內核，達到 32 TOP/s 的性能；或是在網格配置中達到 64 NPUs。

最終，這個 ML 處理器增強了性能，提高了效率，減少了網路部署成本，並且，通過固定功能和可編程引擎的緊密耦合，讓固件隨著新功能的開發而更新，從而使得這個設計不會過時。

總而言之，通過能力、效率、靈活性三者的結合，這個 ML 處理器在邊緣定義了 ML 推理的未來，讓開發者在創建今天最佳用戶體驗的同時，滿足未來的用例需求。

雷鋒網註：本文編譯自Arm Community，雷鋒網編譯。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※Intel 10 nm 來了！第十代酷睿系列採用全新架構，AI 成最大亮點
※人民日報：中國「極米」讓用戶享受極致體驗——做打動世界的科技產品

TAG:雷鋒網 |