當前位置:
首頁 > 最新 > 仔細看看ARM的機器學習硬體 它具有怎樣的優勢?

仔細看看ARM的機器學習硬體 它具有怎樣的優勢?

AiTechYun

編輯:nanan

幾周前,ARM宣布推出第一批專用機器學習(ML)硬體。在「Project Trillium」項目中,該公司為智能手機等產品推出了專用的ML處理器,以及專門為加速對象檢測(OD)用例而設計的第二款晶元。讓我們更深入地研究下Project Trillium項目,以及該公司為不斷增長的機器學習硬體市場制定的更廣泛計劃。

值得注意的是,ARM的聲明完全與推理硬體有關。其ML和OD處理器被設計成能有效地在消費級硬體上運行經過訓練的機器學習任務,而不是在龐大的數據集上訓練演算法。首先,ARM將重點放在ML推理硬體兩大市場:智能手機和互聯網協議/監控攝像頭。

新的機器學習處理器

儘管Project Trillium發布了新的專用機器學習硬體公告,但ARM仍然致力於在其CPU和GPU上支持這些類型的任務,並在其Cortex-A75和A55內核中實現了優化的點積產品功能。Trillium通過更加優化的硬體增強了這些功能,使機器學習任務能夠以更高的性能和更低的功耗完成。但是ARM的ML處理器並不僅僅是一個加速器——它本身就是一個處理器。

該處理器在1.5W的功率範圍內擁有4.6 TOP/s的峰值吞吐量,使其適用於智能手機和更低功耗的產品。基於7納米的實施,這給晶元提供了3 TOP/W的功率效率,同時,這對於節能產品開發商來說是一個很大的吸引力。

有趣的是,ARM的ML處理器與高通(Qualcomm)、華為(Huawei)和聯發科技(MediaTek)採用一種不同的實現方式,所有這些處理器都重新設計了數字信號處理器(DSP),以幫助他們在高端處理器上運行機器學習任務。在MWC(全球行動通訊大會)的一次聊天中,ARM副總裁Jem Davies提到,收購DSP公司是進入這個硬體市場的一個選擇,但最終,該公司決定為最常見的操作進行專門優化的地面解決方案。

ARM的ML處理器專為8位整數運算和卷積神經網路(CNNs)設計。它專門用於小位元組大小數據的大量乘法,這使得它在這些類型的任務中比通用DSP更快,更高效。CNN被廣泛用於圖像識別,可能是目前最常見的ML任務。所有這些讀取和寫入外部存儲器通常會成為系統中的瓶頸,因此ARM也包含了一大塊內部存儲器以加速執行。這個內存池的大小是可變的,ARM希望根據用例為其合作夥伴提供一系列優化設計。

ARM的ML處理器專為8位整數運算和卷積神經網路而設計

ML處理器核心可以從單一核配置到16個核,以提高性能。每個組件包括優化的固定功能引擎和可編程層。這為開發人員提供了一定程度的靈活性,並確保處理器能夠隨著他們的發展而處理新的機器學習任務。該單元的控制由網路控制單元監控。

最後,處理器包含一個直接存儲器訪問(DMA)單元,以確保快速直接訪問系統其他部分的內存。ML處理器可以作為自己的獨立IP模塊,具有ACE-Lite介面,可以將其併入SoC,或者作為SoC之外的固定模塊運行,甚至可以與Armv8.2-A CPU(如Cortex-A75和A55)一起集成到DynamIQ集群中。集成到DynamIQ集群可能是一個非常強大的解決方案,可以為集群中的其他CPU或ML處理器提供低延遲數據訪問並有效地完成任務調度。

適合所有的一切

去年ARM推出了Cortex-A75和A55 CPU處理器,以及高端的Mali-G72 GPU,但直到一年後才推出專用機器學習硬體。但是,ARM確實在其最新的硬體設備中對加速通用機器學習操作進行了相當多的關注,而這仍然是該公司未來戰略的一部分。

其最新的主流設備Mali-G52圖形處理器將機器學習任務的性能提高了3.6倍,這要歸功於Dot產品(Int8)的支持和每個通道每個通道的四次乘法累加操作。Dot產品支持也出現在A75、A55和G72中。

即使有了新的OD和ML處理器,ARM仍在繼續支持其最新CPU和GPU的加速機器學習任務。其即將推出的專用機器學習硬體的存在,使這些任務在適當的時候更加高效,但它是一個廣泛的解決方案組合中的一部分,旨在滿足其廣泛的產品合作夥伴。

從單核到多核的CPU和GPU, 再到可以擴展到16核的可選ML處理器(可在SoC核心集群內外使用),ARM可支持從簡單的智能揚聲器到自動車輛和數據中心,其需要更強大的硬體。當然,該公司也提供軟體來處理這種可擴展性。

該公司的Compute Library仍然是處理公司CPU、GPU和現在ML硬體組件的機器學習任務的工具。該庫為圖像處理、計算機視覺、語音識別等提供低級的軟體功能,所有這些功能都運行在最適用的硬體上。ARM甚至用其CMSIS-NN內核為Cortex-M微處理器支持嵌入式應用程序。與基線功能相比,CMSIS-NN提供高達5.4倍的吞吐量和5.2倍的能效。

硬體和軟體實現的這種廣泛的可能性需要一個靈活的軟體庫,這正是ARM的神經網路軟體的切入點。該公司並不打算取代像TensorFlow或Caffe這樣的流行框架,而是將這些框架轉換成與任何特定產品的硬體相關的庫。因此,如果您的手機沒有ARM ML處理器,則該庫仍將通過在CPU或GPU上運行任務來工作。隱藏在幕後的配置以簡化開發是它的目標。

今天的機器學習

目前, ARM正專註於為機器學習領域的推理提供支持,使消費者能夠在他們的設備上高效地運行複雜演算法(儘管該公司並未排除參與硬體進行機器學習訓練的可能性)。隨著高速5G網路時代的到來,人們對隱私和安全的關注越來越多,ARM決定在邊緣推動ML計算,而不是像谷歌那樣聚焦在雲上,這似乎是正確的選擇。

最重要的是,ARM的機器學習能力並不僅限於旗艦產品。通過支持各種硬體類型和可擴展性選項,價格階梯上下的智能手機可以受益,從低成本智能揚聲器到昂貴伺服器的各種產品都可以受益。甚至在ARM專用的ML硬體進入市場之前,利用它的Dot產品增強CPU和GPU的現代SoC,將會獲得性能和能效的改進。

今年,我們可能不會在任何智能手機上看到ARM專用的ML和對象檢測處理器,因為已經發布了大量SoC公告。相反,我們將不得不等到2019年,才能獲得一些受益於Trillium項目及其相關硬體的第一批手機。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

特徵選取演算法-機器學習與數據分析常用術語(二)
論文圖片查重費時費力,機器學習演算法能否扭轉乾坤?

TAG:機器學習 |