AI晶元架構競相走向邊緣

科技 12-04

來源：本文由公眾號半導體行業觀察（ID：icbank）翻譯自「Semiconductor Engineering」，謝謝。

各大公司競相將各種晶元架構作為將AI推向邊緣的首選武器。

隨著機器學習應用開始出現在終端設備和物聯網網路邊緣，實現AI的加速器可能看起來更像FPGA和SoC模組，而不是英特爾和英偉達目前的數據中心綁定晶元（data-center-bound chip）。

AI晶元架構競相走向邊緣

人工智慧和機器學習需要功能強大的晶元來從大數據集中計算答案。大多數AI晶元——包括訓練和推理——都是為數據中心開發的。然而，這種趨勢很快就會改變。其中很大一部分處理將發生在邊緣，即網路的邊緣或感測器和感測器陣列的內部或附近。

幾乎可以肯定，訓練將留在雲端，因為對於這一大塊資源的最有效產品是英偉達的GPU，它主導著這一部分市場。儘管數據中心可能會承擔包含大量數據集的訓練部分，但推理可能最終會交給邊緣。市場預測似乎同意這一點。

Tractica公司研究主管、邊緣設備AI報告的作者Aditya Kaul說：「推理硬體市場是一個新市場，但變化迅速。數據中心有一些機會，並將繼續存在。基於雲的數據中心AI晶元市場將繼續增長。但是推理處於邊緣，這裡開始變得引人注目。至少有70家專業人工智慧公司正在研究某種與晶元相關的人工智慧技術。」

Kaul說：「在邊緣，智能手機、機器人、無人機、相機、安全攝像頭等所有需要AI處理的設備都將成為未來的熱點。」

AI晶元架構競相走向邊緣

圖1：按市場領域劃分的深度學習晶元組收入。（來源：Tractica）

到2025年，基於雲的AI晶元組將帶來146億美元的收入，而基於邊緣的AI晶元組將帶來516億美元的收入，是數據中心的3.5倍，邊緣AI晶元組主要由手機、智能音箱、無人機、AR/VR耳機，以及其他所有需要AI處理的設備組成。

雖然英偉達和英特爾現在可能主導基於數據中心的機器學習應用的市場，誰將佔據遠離數據中心的邊緣計算AI市場？那些晶元會是什麼樣子？

AI邊緣晶元需要做什麼

根據Semico Research公司ASIC和SoC分析師Rich Wawrzyniak所言，邊緣計算、物聯網和消費終端設備將需要以相對較低的功耗、價格和較小晶元尺寸進行高性能推理處理。這很困難，特別是因為邊緣設備處理的大多數數據是龐大的視頻和音頻數據。

Wawrzyniak說：「數據很多，但如果你有監控攝像頭，它必須能夠實時識別出壞人，而不是把一張照片發送到雲端，然後等著看有沒有人認出他。」

AI晶元架構競相走向邊緣

圖2 （來源：Barclays Research於2018年5月的報告，由Xilinx提供）

將ML級別的智能添加到邊緣設備的一些願望來自於需要將這些設備上的數據保密，或者降低將數據發送到雲端的成本。然而，大部分需求來自那些希望設備位於邊緣計算設施或掌握在客戶手中的客戶，他們不希望設備簡單地收集數據並定期將其發送到雲端，以便他們可以直接與公司自己的數據或其他客戶和路人進行實時交互。

NXP半導體AI技術主管Markus Levy表示：「客戶意識到，他們不想把大量處理工作轉移到雲端，因此他們認為邊緣是真正的目標。既然你可以在邊緣實現AI，你就可以把物聯網變成真正具有能力的東西。我們看到消費者物聯網、工業物聯網以及嵌入式的增長非常快，這是我們最大的增長領域。」

據IDC分析師Shane Rau稱，今年接受IDC調查的商業技術客戶表示，他們確定會把機器學習轉移到邊緣設備上，主要是汽車、智能家居、視頻監控攝像頭和智能手機。該公司的客戶調查將這四種設備列為ML的候選設備。

邊緣AI架構發展趨勢

邊緣計算的需求範圍可能包括數億計的工業和消費設備，因此任何單一的架構都不太可能滿足所有這些需求。

NXP的Levy表示：在微控制器和相對低端的晶元上運行推理模型是可以的，但大多數機器學習功能需要從基於FPGA、ASIC和其他SoC配置的一長串可選CPU附加項，以及GPU和CPU的組合，有時還需要由Google的TPU等特殊用途的ASIC來增強。

大部分的增強都是以加速器的形式出現的。這些FPGA、SoC、ASIC和其他專用晶元旨在幫助資源受限的基於x86的設備通過一層接一層的分析標準處理大量圖像或音頻數據，因此app可以正確地計算和加權每個數據的值。

英特爾和英偉達已經向邊緣AI市場發起衝擊。Kaul說，像英偉達的Jetson這樣的產品並不能令人信服。Jetson是一個GPU模塊平台，具有7.5W的功率預算，只有英偉達更典型產品的70W功率的一小部分，但對於一般不超過5W的邊緣應用來說還是太高了。

Levy說：「有很多IP公司正在為神經網路尋求加速，因此有足夠的選擇使加速器開始成為邊緣設備推理的需求。」

AI晶元架構競相走向邊緣

圖3：按類別劃分的AI邊緣設備出貨量。（來源：Tractica）

但是，要想在潛在的億萬個設備上添加ML加速和支持，將需要更多的可定製性、更低的成本，以及更專門針對資源受限設備上ML應用需求的規範——這意味著，如果要取得成功，整個市場將需要更好的處理器。

神經推理需要數萬億次乘法累加運算，因為模型從其公式矩陣的一層提取數據，儘管每一層可能需要不同的數據大小，而且其中一些設備可能在輸入設置為8位整數而不是16位整數時運行得更快。

Flex Logix聯合創始人兼首席執行官Geoff Tate表示：「為了在數據中心獲得良好的吞吐量，大多數架構依賴於必須使用相同的權重集來創建批處理的數十或數百個任務。如果你有28張圖片，你載入圖片，載入第一階段的權重，對第一階段做數學運算，保存結果，然後載入第二階段的權重。通過在每一層上完成所有28個批次，你可以將權重載入時間縮減到一次只載入一個的1/28。如果載入和管理權重是你不擅長的，那麼你可以通過批處理來解決它。這就是為什麼你會看到基準測試顯示第28批的運行效率低於第1批。如果載入權重的速度很慢，則難以擴展。但在數據中心之外的任何地方都必須這樣做。如果你有監控攝像頭，則必須在圖像傳入時對其進行處理，以便批大小始終等於1。如果你在測量性能，則數據中心外的批大小始終等於1。」

Flex Logix開發的神經網路引擎可以避免批處理問題。Tate說：「因為我們載入權重的速度非常快，所以我們不需要進行批處理，我們的性能在第1批和第28批時相同，這在邊緣應用中非常重要。」

推理硬體方面的兩項新工作

Xilinx試圖利用其在FPGA和系統級設計方面的經驗，推出新的產品系列和路線圖，以滿足儘可能多的邊緣/設備市場的需求。

Xilinx在去年春天討論了這個想法，但直到10月才正式宣布，該公司描述了一個自適應計算加速平台，該平台「利用CPU、GPU和FPGA的力量來加速一切應用」。

Xilinx的演示描述了一個廣泛的產品線、使用案例列表和有關其AI引擎核心的詳細信息，其目標是提供比傳統方法的單位晶元面積高出3~8倍的性能，並提供高性能DSP能力。

與此同時，Flex Logix創建了一個使用低DRAM帶寬的可重構神經加速器。晶元的面積和功率的目標規格將在明年上半年完成，並在下半年流片。推理引擎將充當CPU，而不僅僅是一個更大，更漂亮的加速器。它提供了模塊化、可擴展的架構，旨在通過減少移動數據的需要以及通過改進數據和矩陣計算的載入方式來減少瓶頸，從而降低移動數據的時間和精力成本。

該晶元將DRAM專用於單個處理器塊，而不是將其作為一個大內存池進行管理。DRAM不能同時將數據饋送到晶元的多個部分。Tate說：「將DRAM作為流入一個處理器塊的大內存池處理，這是范諾依曼架構的典型特徵，但它不會成為神經網路的成功架構。」

早期

Wawrzyniak表示，Xilinx，Flex Logix和其他公司蜂擁到了一個仍處於發展中的邊緣推理市場，顯示出市場和SoC、FPGA製造商提供良好技術以應對它們的能力的廣泛信心，但這並不能保證他們能夠克服安全、隱私、現狀的慣性和其他無形的問題。同樣，FPGA、ASIC和SoC加速ML的市場仍處於起步階段。

Linley Group的Linley GwenNap表示，當一個新市場發展起來時，看到許多新的參與者和新方法是正常的。FPGA和ASIC供應商也在其中，因為這些技術使一家知道自己在做什麼的公司能夠快速生產出合理的產品。不過，標準最終將在一兩年內回歸，這將穩定所涉及的參與者的數量和專長，並確保與其他市場的互通性。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 半導體行業觀察 的精彩文章:

※中國封測產業現狀，規模企業已達96家
※刷屏的國產光刻機報道背後的真相

TAG:半導體行業觀察 |