當前位置:
首頁 > 科技 > Hot Chips:富士通展示百億億次級ARM超級計算機處理器A64FX

Hot Chips:富士通展示百億億次級ARM超級計算機處理器A64FX

富士通公布了自主研發高性能基於ARM的處理器藍圖,這個名為A64FX的處理器是富士通Post-K超級計算機的「大腦」。

本周二在美國矽谷舉行的Hot Chips大會上展出。Post-K是一個1000 petaflops的性能怪獸,將取代日本基於SPARC64的K超級計算機。Post-K將於2021年上線,剛剛完成一輪試驗,證明了處理器的性能——至少在某種程度上說。

Post-K有望成為已經公布的、全球最快的超級計算機,屆時它完全運轉起來的功耗在30到40MW時。目前最快的超級計算機是美國的Summit超級計算機,該機器採用IBM POWER9和Nvidia Volta GV100處理器以及Mellanox網路設備,最大功率為188 petaflops,功耗為8.8MW。

至關重要的是,Post-K將成為一個百億億次級的、兼容ARM的超級計算機,這對CPU架構來說是一個重要的里程碑,目前CPU幾乎用於每個人的手機、硬碟、智能卡和其他嵌入式電子產品中,並且有著駕馭筆記本電腦和伺服器的夢想。

那富士通設計的超級計算機ARM處理器是什麼樣的?以下是我們在Hot Chips工程大會上從富士通Toshio Yoshida那裡了解到的:A64FX擁有88億個7納米FinFET晶體管,封裝有594個引腳、48個CPU核心和4個管理核心。每個晶元總共有32GB的高帶寬內存(HBM2)、16個PCIe 3.0通道和1024GB/s總內存帶寬,在性能方面至少達到2.7 teraflops。

52個CPU核心被分為有12個主核心外加1個管理核心的4個集群,每個集群有8GB HBM2,額定值為256GB/s,以及8MB的共享L2緩存。集群和整個晶元之間存在緩存一致性。

這些晶元是通過富士通第二代Tofu網狀圓環網路相互連接的,這種互連方式可以通過10個埠將數據移入和移出每個處理器晶元,每個埠有兩個通道,每個通道最大速率為28Gbps。

Hot Chips:富士通展示百億億次級ARM超級計算機處理器A64FX

A64FX的緩存層次結構和速度,每個集群有12個計算核心和1個管理核心,4個集群到1個晶元。來源:富士通

CPU核心只支持64位(沒有32位模式),採用Armv8.2-A指令集,支持ARM的512位寬SIMD SVE,意味著晶元可以在硬體中處理矢量和矩陣計算,這對於超級計算機和機器學習應用來說是必須的。此外它還支持16位和8位整數數學,以及通常的浮點精度(FP16、32和64),對AI推理代碼很有用處。

我們得知,A64FX是一種超標量無序執行的「怪獸」,也是第一款Armv8.2-A設計。完成32位和64位Arm組裝編程的人會知道,該架構具有固定寬度指令,通常每個指令一個操作,是經典的RISC思想學派。有趣的是,通過實施SVE,A64FX為四操作數融合乘法加法指令(FMA4)提供了一個指令前綴——這是一個非常有用的操作——多少讓我們想起了x86指令前綴。

要執行計算r0 = r3 + r1 * r2,你要使用兩個指令,這兩個指令在預解碼階段合併為一個,儘管開始是兩個指令,但仍在一個步驟中執行。這些是:

每個CPU核心的執行單元可以同時處理2個512位SIMD操作。輸入數據打包成512位,並一次性進行處理——就像英特爾在其伺服器部件上的AVX512操作一樣。因此,你可以輸入4個8位值,4個相應的8位係數或權重,它們相乘得到四4個答案,然後添加到32位偏移量,並寫入寄存器。

富士通認為,當做8位整數運算時A64FX可以達到21.6 TOPS(萬億或每秒萬億次運算); 做16位整數運算時可以達到10.8 TOPS;做32位整數運算時可以達到5.4 TOPS;64位時是2.7 TOPS,全部都是執行整數SIMD。據稱,A64FX至少比富士通之前的超級計算機處理器——SPARC64 XIfx——在運行高性能計算和人工智慧負載時快2.5倍。

相比之下,Nvidia用於伺服器的P4和P40加速器時鐘頻率為22和47 TOPS(8位整數)。

L1緩存有一個組合的收集機制,可以獲取數組中的連續元素並將其複製到寄存器中。因此舉例來說,你可以使用它將存儲器中的8個位元組轉換為一個64位寄存器,每個位元組插入寄存器中自己的位元組位置。指令引擎以230GB/s的速度讀取每核四路64KB L1數據高速緩存,並以115GB/s的速度寫回。L2共享緩存以115G/s的速度提供數據,並以57GB/s的速度接收數據。

Hot Chips:富士通展示百億億次級ARM超級計算機處理器A64FX

A64FX的管道階段。來源:富士通

每個晶元的功耗使用請款是以每毫秒為單位進行監控和控制的,並且每個核心的速率低至納秒級。富士通稱,A64FX具有大型機級的彈性,所有緩存都有ECC或重複數據刪除功能,執行單元內的奇偶校驗,如果檢測到出錯,就會重試指令,Tofu互連鏈路上的錯誤恢復以及針對晶元的總共128000個錯誤檢查器。

整個shebang字元串列運行Linux,基於Lustre的分散式文件系統和非易失性存儲器用於加速文件輸入輸出。工具鏈支持C、C ++和Fortran編譯器、MPI、OpenMP、調試器以及其他工具和語言。

你會注意到沒有第三方加速器:它是純粹的ARM,這就是富士通的方式,目的是設計一個運行超級計算機類型應用(模擬、科學實驗分析、機器學習和其他數字運算)的晶元,具有比通用CPU更高的每瓦性能。

遺憾的是,Yoshida並不想談論時鐘頻率和單個晶元的功耗。該機器距離完成還有幾年的時間,所有規格和實施細節尚未確定或者透露。「我們將繼續開發ARM處理器,」他這樣表示。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 至頂網 的精彩文章:

新能源和無人駕駛 達索系統積極響應中國市場
一個貨架的智慧可以多強大?

TAG:至頂網 |