「AI晶元大清洗」即將來臨：架構巨頭ARM出手，要一統人工智慧生態

新聞 03-11

作為幾乎所有智能移動終端及多數智能聯網設備的計算核心設計者，全球最為著名晶元架構設計公司arm 在這兩年 AI 生態蓬勃發展的走勢中一反常態，沒有站在主導地位，甚至也沒什麼音量。

可以說，雖然 arm 的地位如今仍然重要，但卻已經不再是眾人眼光的焦點，當蘋果、華為、高通等客戶不斷在 AI 技術與應用上進行創新時，arm 基礎架構似乎還是維持自己的步調，沒有太多波瀾起伏。

3 月 6 日，arm 在北京舉辦了人工智慧新品發布會。面對市場的質疑，arm 通過這次發布會正式向市場宣布進軍 AI 方案，實際上解答了這兩年來為何 arm 在 AI 領域沒有太多作為的具體原因。在這次為期兩天的發布會中宣布了兩款針對中低端市場的GPU架構及多媒體方案，但本次發布會的重點還是在第二天關於人工智慧方案布局的座談，arm 資深市場營銷總監 Ian Smythe 針對未來 arm 在 AI 應用領域的布局進行深入的探討。

事實上，該行業巨頭早在 2016 年就已經把觸手伸進多個 AI 應用領域同時發展，包含號稱針對機器學習優化的 Bifrost GPU 架構，以及針對高端伺服器晶元的 SVE 延伸指令集。隨著相關方案陸續成熟，採用者也逐漸增加，arm 終於在今年 2 月底推出 Project Trillium，結合開發環境、演算法與各大主流機器學習框架，要布局從終端到雲端所有 AI 應用開發生態。

為什麼 arm 要在這個時間點推出他們自己的AI方案？

首先，各家使用的 AI 方案架構方面都有不小落差，且應用的兼容性可能也存在些問題，雖然都支持類似的框架，但畢竟沒有一個標準的 AI 計算介面存在，在此情況下，應用開發商若要開發各類行應用，就必須針對不同廠商的設備個別支持，如此曠日廢時，且可能會受限於不同架構的性能落差而使得應用的表現不如預期。

其次，開發獨家的 AI 加速架構代價並不低，且除了要考慮到所採用的 IP 來源的可擴展性、框架支持廣度、是否提供標準介面，相關演算法也不是朝夕之間就可研發出來，如果能夠提供一個可利用既有架構便可達到接近完全硬體處理 AI 算力，不需支出額外的授權成本，也不需要改變既有的晶元設計布局，那麼對市場而言，其吸引力自然是不言可喻。

圖丨 Ian Smythe

arm 資深市場行銷總監 Ian Smythe 對此表示，他們正在做的就是提供業界更多的選擇，其他使用自有 AI 計算架構的客戶也同樣能夠得到好處。

但 DT 君認為這是個排他性很強的選擇，以包含軟硬體等大生態逼迫客戶放棄未來開發自有 AI 晶元的打算，確保能持續主導整體計算架構發展走勢，未來甚至要挑戰伺服器等其他專業 AI 計算架構——arm 這步棋將為整個 AI 計算生態，尤其是相關晶元產業帶來另一波榮景，還是一次大滅絕？恐怕是整個業界目前最關切的。

挑戰高端 AI 計算，直取 NVIDIA 主場，甚至構築排他性生態

arm 要用針對嵌入式市場的小 GPU 來挑戰 NVIDIA？乍看之下不大可能，但 Ian 對 DT 君展示了其 AI 計算方案的能效表現，以類似規模的架構來比較，其實 arm 的方案在能效方面都還是有一定的優勢存在，加上 arm 架構原生就支持高效率的推理工作，配合已經相當成熟的開發套件，可以支持大多數主流機器學習框架，相信對開發者可具相當的吸引力。

當然，要以絕對性能對抗 NVIDIA，DT 君認為短期間之內還不大現實，但若以能耗、配合arm在邊緣計算以及終端上的 AI 算布局構成完整的生態鏈，那麼要在數據中心市場吃下一定的佔比，也不是不可能的事情。

在終端市場方面，前兩年AI熱潮中，各家新創產業紛紛推出自有的AI晶元，尤其是主流CV方案，市場上可說群雄並起，連過去止做低價主控的公司也都陸續搶進，打造自己的AI方案。

不過，在關鍵的演算法方面，多數公司其實都還是倚賴第三方，真正創造自有演算法的比例其實很少，就連AI計算架構也可能都是直接取用現成的第三方方案，這些方案的支持完整性不一，且因為技術來源分散，很難構成，或分享來自一套共通的生態環境的優點，基本上就是處於單打獨鬥的窘境。

然而，arm 這次的作法則是建立了一套從端到雲的完整體系，不論客戶在市場中的定位如何，都能從 arm 拿到相對應的方案，且不只是硬體，就連開發工具包以及演算法都能提供。DT 君認為這將造成相當深遠的影響，個別的 AI 晶元架構 IP 或者是演算法 IP 供貨商會先受到一定的衝擊，甚或可能會被逐步逼出市場。

諸如寒武紀、深鑒等想要打進主流消費AI方案的供貨商恐怕將成為首波受害者，arm自家方案擁有強大的生態優勢，即便絕對性能可能還稍微落後寒武紀或深鑒的方案，但憑藉極低的導入門坎，及對主流演算法模型的完整支持，且額外增加的成本極低，客戶會如何選擇，其實已經不言可喻。

arm 方面也在說明會上表示，其架構將可承載不同的演算法來進行各種 AI 應用，演算法來源不限定。然而，arm 自己也在發展相關演算法，表面上的說法是要提供客戶更多樣化的選擇，但真正的盤算，恐怕是要對整個 AI 市場進行一次大清洗，並替換成自己的生態，藉此擴大 arm 的市場格局，走向真正的架構霸主之路。

畢竟從 arm 生態的歷史發展中，以嵌入式 GPU 為例，當初 arm 和 Imagination 兩家英國 IP 公司關係緊密，相互提攜，但後來 arm 決定要發展自有的 GPU 架構後，沒錯，市場有了更多的選擇，但事實上，arm 依靠包裝行銷與生態的優勢，將 Imagination 打到落花流水。除少數如高通的 Andreno 自有 GPU 架構較不受影響外，目前嵌入式 GPU 的 IP 授權產業幾乎也都被arm 通吃，不復見以往競爭激烈的局面。

後續 arm 也進入多媒體與顯示相關方案的 IP 市場，同樣對相關產業的技術供應商造成相當大的影響，雖然擴大產品布局是 arm 避免在特定領域掉隊，繼而維持其市場霸業的最有效方式，而被其策略布局影響到的對手或客戶可能就不是那麼樂意了。

當然，arm 的客戶永遠都有得選擇，但依附在 arm生態之下的第三方 IP 供應商就未必了。

早期從固定功能軟體著手，後續補齊硬體與整體開發生態

實際上，如果從當年 arm 進入 GPU 市場對市場所帶來的影響觀察，上面所描述結果或許就不那麼讓人驚訝了。「循序漸進」是 arm 近年來布局 AI 生態時很重要的遵循方向，Ian 向 DT 君說道。

其實，arm 早在 NPU 等 AI 加速晶元概念出現之前，就已經搶先在手機以及其他聯網終端產品中引入 AI 計算概念，而且值得一提的是，雖然 arm 是提供計算架構硬體基礎核心的公司，演算法與軟體生態環境通常都是跟著新架構發展，但是在 AI 生態方面，卻反其道而行，演算法和軟體先行，後續才逐漸補上硬體設計與開發環境。

以華為公司的手機為例，其實雖然消費大眾被其在 Kirin 970 中採用的 NPU 設計抓住了眼光，認為此類硬體 AI 計算架構算是開創了手機產品的另一個新時代，但事實上，早在 Kirin 960 時，ARM 就已經提供華為不少關於物件偵測、語音加速以及照相處理等演算法與 AI 軟體功能，妥善利用了當時 arm 晶元基於 GPU 與 CPU 合作而來的 AI 計算能力，雖然沒有真正的硬體加速方案，但在效率上已經相當受肯定。

圖丨Kirin 970

Ian 對 DT 君表示，早期移動終端對 AI 概念還不明顯，因此 arm 先提供功能有限的軟體方案讓市場嘗鮮，等到市場看出更多應用潛力，不滿於現有的軟硬體搭配時，arm 再推出更完整的硬體設計與開發環境，承接這些想要創造更多可性的客戶的需求。

市場的需求總是會一直前進，且應用也會越趨複雜，Mate 10 的 AI 場景攝影功能由於進行了更多、更複雜的計算，華為因此選擇在晶元中集成了專屬的 AI 計算晶元，也就是 NPU，期望在增加 AI 計算複雜度的同時也要能改善性能表現，蘋果過去的 AI 方案主要也是基於 GPU 計算，但同樣在其 A11 晶元中引入架構類似的神經網路晶元。

由於 AI 技術的革新速度超乎預期，眾多晶元客戶心中也開始有了疑惑：arm 的 AI 方案呢？Ian 對 DT 君表示，其實 arm 早在 2016 年發表基於 Bifrsost 架構的 Mali G-71 時，就已經希望藉由該架構來推動 AI 在終端以及邊緣計算的應用場景，但當初可和主流 AI、機器學習框架緊密結合的整套軟體開發環境還不夠成熟，且 arm 也不希望揠苗助長，推出半生不熟的環境搞壞自己名聲，因此在 Project Trillium 發布前，基本上也都沒有太多動作。

這次雖然推出通用的 AI 開發平台，但首波針對的還是基於計算機視覺 (CV) 為主的 OD(object detection) 處理設計平台，以及機器學習等市場相對較成熟，且應用較廣的方。Ian 進一步表示，基於 Project Trillium 開發平台的 AI 應用將可針對幾乎所有類型的 AI 應用，小到 IoT 設備，大至數據中心，只要是機器學習相關的應用開發需求，都可基於同一套可變規模的架構發展出來。

以 GPU 算力為核心，結合 CPU 生態優勢，首波布局邊緣計算

GPU 計算可說是 arm 未來要發展 AI 計算生態的主要角色，從第一代 BiFrost 架構開始，就已經針對 AI 計算所需要的各種場景，包含機器學習中的訓練，以及推理加速等進行優化。

我們都知道，過去數據中心以及超算架構中所使用的 GPU 架構，其實只能應對訓練，但是訓練完，要利用模型推理的工作處理上，效率非常差，這主要是因為傳統 GPGPU 擅長計算 32bit 甚至 64bit 的高精度整數或浮點計算，但是在深度學習所需要的數據處理而言，其實不需要這麼高的精度，大部分場景下甚至只需要低精度的整數計算即可。目前，包含 TPU、NPU 等各種專用計算硬體都把 8bit 精度計算當作標準的數據處理寬度，也因此其每秒操作性能都可達數個 TeraFlops。

arm 早在數年前投入研發機器學習架構時，就已經把 8bit 寬度數據處理能力列為標準，不只在 GPU，CPU 中的 NEON DSP 單元也同樣支持 8bit 寬度數據計算，因此基於 arm 機器學習平台，不僅可充分應對機器學習的訓練需求，推理能力也能充分獲得滿足。

圖丨arm推出面向機器學習和神經網路的Project Trillium

雖因這樣的設計，過去 arm 的 Mali GPU 在晶元面積及功耗表現稍弱，但隨著晶元工藝的改進，以及各種 AI 計算需求的帶動，其設計的價值也逐漸被顯現出來。

arm 的 AI 計算平台規劃同時也包括了數據中心等應用。Ian 對此表示，由於數據中心等大型機器學習平台數據流通量極大，如果只是單純把目前針對移動平台開發的 arm 架構規模等比例放大，核心算力雖足夠與一線平台相提並論，但數據傳輸能力就會成為短板，即便核心算力再強大，數據來不及存取，那麼晶元也只能空轉，平白浪費能源。

因此，arm 初期還是會以數據需求量較小的終端和邊緣計算應用為主，著重在小規模的計算應用，2018 年稍晚就會推出新版架構，補足匯流排與帶寬方面的缺點，正式向目前主流的數據中心應用挑戰。

-End-

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

※周小川：和業界合作研發數字貨幣，未來的監管取決於技術成熟程度
※Open AI發表論文劍指AI技術惡意使用的後果，不僅危害財產，還可能造成恐慌

TAG:DeepTech深科技 |