當前位置:
首頁 > 新聞 > FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

AI語音助手和AI圖像優化是離我們最近的AI應用,然而這只是AI能力比較初級的體現,未來,AI將會以目前難以想像的方式改變我們的生活。作為AI的重要推動力之一,不同類別的AI處理器正努力滿足AI的需求,但依舊不能滿足AI不斷迭代的演算法的需求。圍繞AI晶元的創新因此也成為了熱點。

本周二,總部位於美國加利福尼亞州的Achronix為滿足AI和機器學習的需求,推出了一款融合ASIC核心效率的全新類別FPGA。

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

到底是什麼在推動AI晶元的創新?

AI發展的三大要素是算力、演算法和數據,而這一輪AI熱潮的興起一個關鍵的原因就是深度神經網路演算法的流行。不過,由於AI還處於初級階段,深度學習演算法不僅種類多樣,並且在不斷迭代。另外,數據的類型也十分多樣,包含了整型和浮點型,以及每種數據類型的不同精度,這對晶元的通用性提出了要求。

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

AI處理器的硬體挑戰

但是,晶元的通用也就意味著算力難以做到極致,並且,不同的數據類型和精度對處理器的性能的要求又不相同,想要同時滿足算力和通用性的要求,半導體製程的提升是最為直接的方法。過去30年,摩爾定律帶來了顯著的計算能力的提升,半導體製程從微米跨越到了納米級,如今的計算機處理速度也可以達到每秒千萬億次(1015 FLOPS) 。

2018年,10nm和7nm的晶元已經開始量產,但CMOS器件的橫向尺寸接近幾納米,厚度只有幾個原子層,想要繼續靠工藝製程提升晶體管密度帶來處理性能的顯著提升,技術上難度越來越高,成本也讓越來越多的晶元公司望而卻步。

除了半導體工藝,當運算能力達到一定程度,訪問存儲器的速度無法跟上運算部件消耗數據的速度,再增加運算部件也無法得到充分利用,這個馮諾依曼架構的瓶頸(內存牆)也阻礙了AI晶元算力的提升。

顯然,不斷迭代的演算法、不同AI模型的數據類型需求、與日俱增的數據量,都推動承載AI演算法的AI晶元不斷創新。

FPGA如何與ASIC融合?

目前,CPU、GPU、FPGA、ASIC都被認為是廣義上的AI晶元,從CPU到ASIC,晶元的通用性降低,但性能依次增強,其中,GPU憑藉並行計算的優勢成為了目前最成功的AI晶元。FPGA作為不少AI晶元公司ASIC晶元驗證的首選,也在AI晶元市場佔據一定的地位,但成本是其在大規模應用中面臨的挑戰。

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

Achronix Semiconductor總裁兼首席執行官Robert Blake

此時,如果有兼具ASIC的性能和FPGA靈活性的AI處理器,應該是一個非常有競爭力的產品,但需要解決多個挑戰。Achronix Semiconductor總裁兼首席執行官Robert Blake接受雷鋒網在內的媒體採訪時表示:「最新發布的Achronix Speedster7t是靈活的FPGA技術與ASIC核心效率的融合,提供了一個全新的『FPGA+』晶元品類,這代表了我們建立在四個架構代系的硬體和軟體開發基礎上的創新和積澱,以及與客戶之間的密切合作。」

Robert還指出,這款新產品他們在三年前就開始規劃,在規劃的過程中工程團隊完全重新構建了整個FPGA架構,要平衡片上處理、互連和外部輸入輸出介面(I/O),以實現數據密集型應用吞吐量的最大化,適合高帶寬需求的應用,比如邊緣和基於伺服器的AI / ML、網路處理和存儲。

架構改進讓FPGA更適合AI計算

要讓FPGA具備ASIC級別的性能,首先需要提升算力。正如前面所說,先進半導體工藝對處理器性能的提升非常關鍵,因此Speedster7t採用的是台積電7nm FinFET工藝。我們知道7nm工藝的流片成本非常高昂,著是否意味著這款7nm的FPGA+只面向雲端市場?Robert對雷鋒網表示,在高端應用市場,無論是AI的訓練還是推理,對性能和延遲要求都很高,需要7nm工藝。當然,除了雲端,針對邊緣市場我們會有更小且成本更低的產品,滿足不用應用和不同市場的續期。

半導體工藝明確後,想讓FPGA適合深度學習的演算法,還需要架構的改進。Robert表示,傳統的基於DSP的FPGA計算單元的設計DSP、LUTs、存儲單元是分立的,布線也限制了其性能,不僅不能高效地支持AI模型的不同數值精度,還要消耗額外邏輯的存儲資源。

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

「我們採用的方法是在傳統的架構上進行改進,設計出了MLP單元,採用陣列式乘累積計算架構,每個乘累加單元(MAC)支持最多32個乘法器,實現計算的可配置。同時,MLP單元集成分別針對浮點和整型數據的MAC,可支持4到24位的整點格式和高效的浮點模式。並且,計算單元與緩存單元緊密相領,可以實現更複雜的演算法,並且不需要使用複雜的布線,確保以750 MHz的最高性能將數據傳送到MLP。」 Robert指出。

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

Robert表示,MLP的效率比傳統FPGA的性能提升了5倍,使這款FPGA能以每秒萬億次運算數量為單位(TOPS)。演算法在不斷的改變,但底層的需求都是一樣的,他們希望建立一個很好的硬體底層,讓演算法無論怎麼改變,需求都可以被滿足。

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

用片上網路解決數據挑戰

計算能力的提高可以通過增加MAC,但算力提升之後,能否解決數據傳輸的挑戰決定著AI處理器最終的性能。據介紹,Speedster7t器件是唯一支持GDDR6存儲器的FPGA,並且最多可以支持8個GDDR6控制器,可以支持4 Tbps的GDDR6累加帶寬,能夠以HBM一半的成本提供與HBM等效的存儲帶寬。

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

另外,Speedster7t還有72個高性能的SerDes,可以達到1到112 Gbps的速度,Robert強調已經經過矽片驗證過。還帶有前向糾錯(FEC)的硬體400G乙太網MAC,支持4x 100G和8x 50G的配置,每個控制器有8個或16個通道的硬體PCI Express Gen5控制器。為了應對400G乙太網數據的處理需求,Achronix採用的是將數據進行分割並行處理的方法。

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

但這些最先進和更大的帶寬只能解決晶元與外部數據的交換,晶元內部數據效率的提升才是關鍵。這就是Achronix這款新產品架構的另一大關鍵創新,高帶寬二維片上網路(NOC)。Robert將架構中可橫跨和垂直跨越FPGA邏輯陣列的NOC比喻為城市街道系統上的高速公路網路。NOC中的每一行或每一列都可作為兩個256位實現,單向的、行業標準的AXI通道,工作頻率為2Ghz,同時可為每個方向提供512 Gbps的數據流量。

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

他進一步表示,專用二維 NOC極大地簡化了高速數據移動,確保數據流可以輕鬆地定向到整個FPGA結構中的任何自定義處理引擎。最重要的是,NOC消除了傳統FPGA使用可編程路由和邏輯查找表資源在整個FPGA中移動數據流中出現的擁塞和性能瓶頸。不僅可以提高Speedster7t FPGA的總帶寬容量,還可以在降低功耗的同時提高有效LUT容量。

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

除了硬體,AI時代軟硬體的重要性被更多地關注。據Robert透露,Achronix在軟體和硬體方面的投資相當,並且在公司創立的時候很大的優勢就是軟體技術,這也是他們今天能做到高端配置的的重要原因。

但Robert也強調,底層的軟體非常重要,如果NOC軟體做不好,就很難實現真正的提升。目前針對Speedster7t我們的ACE設計工具現已可以提供支持,今年第三季度會發布將TensorFlow、Caffe2等框架AI模型轉換到其晶元里的工具。第一批用於評估的器件和開發板將於2019年第四季度提供。

另據了解,安全性方面,Speedster7t FPGA系列可用最先進的比特流安全保護功能應對。在產品的批量化支持方面,Achronix在Speedcore eFPGA IP中採用了與Speedster7t FPGA中使用的同一種技術,可支持從Speedster7t FPGA到ASIC的無縫轉換。並且,當使用Speedcore eFPGA IP將Speedster7t FPGA轉換為ASIC時,用戶有望節省高達50%的功耗並降低90%的成本。

FPGA保持靈活性同時擁有ASIC級AI性能是可實現的嗎?

哪種處理器會在AI競爭中勝出?

既然功耗和成本都能夠顯著降低,那是否意味著Achronix新推出的FPGA+將成為AI晶元的主流?Robert表示,CPU、GPU、FPGA、ASIC每一類晶元都有其技術長處,並且AI晶元的市場在增長,所有的晶元類型都會從中受益。僅看FPGA,根據市場調研公司Semico Research的預測,人工智慧應用中FPGA的市場規模將在未來4年內增長3倍,達到52億美元。

但有觀點認為,隨著AI演算法的成熟,未來市場需要的是最通用和最專用的AI處理器,FPGA將失去優勢。對此,Robert表示,隨著AI的發展,晶元發生了一些變化,ASIC也需要一些可編程的能力,而我們現在也在FPGA當中增加了ASIC的屬性,因此未來FPGA和ASIC都可能不再是傳統定義。

更進一步,FPGA會在哪個市場體現出優勢?Robert從他們產品的產品出髮指出,FPGA器件方面主要是雲、網路加速以及機器學習,IP主要還是5G、汽車以及存儲。當然,還需要根據客戶的反饋和需求,推出性能和架構都最適合客戶的FPGA產品。

雷鋒網小結

隨著計算性能的不斷提升,內存牆的瓶頸越來越明顯,在這樣的情況下,架構的創新能夠體現的價值越來越明顯。當然,這需要具備前瞻性以及強大的技術研發能力,我們看到市場上有一些針對存儲進行的架構創新設計,包括存算一體、存儲優先、可重組、可重構的架構等。

Achronix擅長於FPGA技術,經過多年的積累以及憑藉對用戶需求的了解,選擇在保持FPGA靈活性的同時,專為AI性能進行優化實現ASIC級,並且通過片上網路解決數據的傳輸問題,從最重要的計算能力和數據傳輸兩方面進行創新,也是提升競爭力很好的選擇。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

終於,有家AI雲端晶元初創公司不對標英偉達卻要與Google競爭

TAG:雷鋒網 |