Hot Chips：富士通展示百億億次級ARM超級計算機處理器A64FX

科技 08-25

富士通公布了自主研發高性能基於ARM的處理器藍圖，這個名為A64FX的處理器是富士通Post-K超級計算機的「大腦」。

本周二在美國矽谷舉行的Hot Chips大會上展出。Post-K是一個1000 petaflops的性能怪獸，將取代日本基於SPARC64的K超級計算機。Post-K將於2021年上線，剛剛完成一輪試驗，證明了處理器的性能——至少在某種程度上說。

Post-K有望成為已經公布的、全球最快的超級計算機，屆時它完全運轉起來的功耗在30到40MW時。目前最快的超級計算機是美國的Summit超級計算機，該機器採用IBM POWER9和Nvidia Volta GV100處理器以及Mellanox網路設備，最大功率為188 petaflops，功耗為8.8MW。

至關重要的是，Post-K將成為一個百億億次級的、兼容ARM的超級計算機，這對CPU架構來說是一個重要的里程碑，目前CPU幾乎用於每個人的手機、硬碟、智能卡和其他嵌入式電子產品中，並且有著駕馭筆記本電腦和伺服器的夢想。

那富士通設計的超級計算機ARM處理器是什麼樣的？以下是我們在Hot Chips工程大會上從富士通Toshio Yoshida那裡了解到的：A64FX擁有88億個7納米FinFET晶體管，封裝有594個引腳、48個CPU核心和4個管理核心。每個晶元總共有32GB的高帶寬內存（HBM2）、16個PCIe 3.0通道和1024GB/s總內存帶寬，在性能方面至少達到2.7 teraflops。

52個CPU核心被分為有12個主核心外加1個管理核心的4個集群，每個集群有8GB HBM2，額定值為256GB/s，以及8MB的共享L2緩存。集群和整個晶元之間存在緩存一致性。

這些晶元是通過富士通第二代Tofu網狀圓環網路相互連接的，這種互連方式可以通過10個埠將數據移入和移出每個處理器晶元，每個埠有兩個通道，每個通道最大速率為28Gbps。

Hot Chips：富士通展示百億億次級ARM超級計算機處理器A64FX

A64FX的緩存層次結構和速度，每個集群有12個計算核心和1個管理核心，4個集群到1個晶元。來源：富士通

CPU核心只支持64位（沒有32位模式），採用Armv8.2-A指令集，支持ARM的512位寬SIMD SVE，意味著晶元可以在硬體中處理矢量和矩陣計算，這對於超級計算機和機器學習應用來說是必須的。此外它還支持16位和8位整數數學，以及通常的浮點精度（FP16、32和64），對AI推理代碼很有用處。

我們得知，A64FX是一種超標量無序執行的「怪獸」，也是第一款Armv8.2-A設計。完成32位和64位Arm組裝編程的人會知道，該架構具有固定寬度指令，通常每個指令一個操作，是經典的RISC思想學派。有趣的是，通過實施SVE，A64FX為四操作數融合乘法加法指令（FMA4）提供了一個指令前綴——這是一個非常有用的操作——多少讓我們想起了x86指令前綴。

要執行計算r0 = r3 + r1 * r2，你要使用兩個指令，這兩個指令在預解碼階段合併為一個，儘管開始是兩個指令，但仍在一個步驟中執行。這些是：

每個CPU核心的執行單元可以同時處理2個512位SIMD操作。輸入數據打包成512位，並一次性進行處理——就像英特爾在其伺服器部件上的AVX512操作一樣。因此，你可以輸入4個8位值，4個相應的8位係數或權重，它們相乘得到四4個答案，然後添加到32位偏移量，並寫入寄存器。

富士通認為，當做8位整數運算時A64FX可以達到21.6 TOPS（萬億或每秒萬億次運算）; 做16位整數運算時可以達到10.8 TOPS；做32位整數運算時可以達到5.4 TOPS；64位時是2.7 TOPS，全部都是執行整數SIMD。據稱，A64FX至少比富士通之前的超級計算機處理器——SPARC64 XIfx——在運行高性能計算和人工智慧負載時快2.5倍。

相比之下，Nvidia用於伺服器的P4和P40加速器時鐘頻率為22和47 TOPS（8位整數）。

L1緩存有一個組合的收集機制，可以獲取數組中的連續元素並將其複製到寄存器中。因此舉例來說，你可以使用它將存儲器中的8個位元組轉換為一個64位寄存器，每個位元組插入寄存器中自己的位元組位置。指令引擎以230GB/s的速度讀取每核四路64KB L1數據高速緩存，並以115GB/s的速度寫回。L2共享緩存以115G/s的速度提供數據，並以57GB/s的速度接收數據。

Hot Chips：富士通展示百億億次級ARM超級計算機處理器A64FX

A64FX的管道階段。來源：富士通

每個晶元的功耗使用請款是以每毫秒為單位進行監控和控制的，並且每個核心的速率低至納秒級。富士通稱，A64FX具有大型機級的彈性，所有緩存都有ECC或重複數據刪除功能，執行單元內的奇偶校驗，如果檢測到出錯，就會重試指令，Tofu互連鏈路上的錯誤恢復以及針對晶元的總共128000個錯誤檢查器。

整個shebang字元串列運行Linux，基於Lustre的分散式文件系統和非易失性存儲器用於加速文件輸入輸出。工具鏈支持C、C ++和Fortran編譯器、MPI、OpenMP、調試器以及其他工具和語言。

你會注意到沒有第三方加速器：它是純粹的ARM，這就是富士通的方式，目的是設計一個運行超級計算機類型應用（模擬、科學實驗分析、機器學習和其他數字運算）的晶元，具有比通用CPU更高的每瓦性能。

遺憾的是，Yoshida並不想談論時鐘頻率和單個晶元的功耗。該機器距離完成還有幾年的時間，所有規格和實施細節尚未確定或者透露。「我們將繼續開發ARM處理器，」他這樣表示。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 至頂網 的精彩文章:

※新能源和無人駕駛達索系統積極響應中國市場
※一個貨架的智慧可以多強大？

TAG:至頂網 |