當前位置:
首頁 > 科技 > 128核的大晶元來了,號稱最通用的CPU

128核的大晶元來了,號稱最通用的CPU

來源:本文內容來自tom』shardware,謝謝。

當Tachyum在Hot Chips 18上推出其Prodigy通用處理器的概念時,它的晶元設計用於使用動態二進位翻譯器運行任何代碼,引起了轟動。它在執行本機代碼和翻譯代碼時都表現出高性能。該公司花了一段時間來設計實際的硬體,接受評估套件的預訂(在新標籤中打開); 該公司還披露了其 Prodigy 的確切規格。它們看起來確實令人印象深刻,但每個晶元 950W 的熱設計功率也令人恐懼。

128個專有內核,5.7GHz、16個 DDR 5內存

每個 Tachyum Prodigy 處理器具有多達 128 個專有內核,與 16 個 DDR5 內存通道(用於 1,024 位介面)配合,支持高達 7200 MT/s 的數據傳輸率(因此提供高達 921.6 GBps 的帶寬)以及 64 個 PCIe 5.0 車道。此外,該晶元總共支持高達 8TB 的 DDR5 內存,這與我們將在其他製造商即將推出的伺服器 CPU 中看到的一致。至於時鐘頻率,Tachyum 的 Prodigy 設計運行頻率高達 5.7 GHz,是台積電性能優化的 N5P 工藝技術的產物。

(圖片來源:Golem.de)

在性能方面,Tachyum 期待其旗艦 Prodigy T16128-AIX 處理器能為HPC 提供高達 90 FP64 TFLOPS 以及為推理和訓練提供高達12 個「AI PetaFLOPS」,據推測當運行本機代碼時消耗高達 950W(並使用液體冷卻)。同時,Tachyum 的 Prodigy 處理器可以在 2 路和 4 路配置下工作。具體來說,AMD 的 Instinct MI250X 在大約 560W 的 HPC 中具有 96 FP64 TFLOPS 的峰值吞吐量。相比之下,Nvidia 的H100 SXM5 可以在 700W 時為AI提供高達20 INT8/FP8 PetaOPS/PetaFLOPS(稀疏性時高達 40 PetaOPS/PetaFLOPS)。然而,這兩種計算gpu都不能用於通用的工作負載。這正是有趣的地方。

新CPU誕生

Tachyum 的 Prodigy 是一款通用同質處理器,最多可容納 128 個專有的 64 位 VLIW 內核,每個內核具有兩個 1024 位矢量單元和每個內核一個 4096 位矩陣單元。此外,每個內核都有一個 64KB 指令緩存、一個 64KB 數據緩存、1MB L2 緩存,並且可以利用其他內核未使用的 L2 緩存作為受害 L3 緩存。

(圖片來源:Tachyum)

Tachyum 的首席執行官兼聯合創始人 Radoslav Danilak 與 Golem.de交談時表示,Tachyum 的 VLIW 內核是有序內核,但當編譯器製造商進行適當優化時,它們可以支持 4 路無序問題。(在新標籤中打開). 他還再次強調,Prodigy 指令集架構可以通過使用所謂的毒位的軟體實現非常高的指令級並行性。

據該公司稱,這些內核運行為 Prodigy(VLIW 架構有望大放異彩)以及 x86、Arm 和 RISC-V 二進位文件編寫並明確優化的本機代碼,使用軟體模擬並且不會降低性能。從歷史上看,所有讓 VLIW 處理器執行 x86 代碼的嘗試都失敗了(例如,Transmeta 的 Crusoe、Intel 的 Itanium),主要是因為特定的 CPU 架構和模擬效率低下。Tachyum 的負責人承認,Qemu 二進位翻譯將性能降低了 30% 到 40%(沒有透露任何基線),但希望現實世界的性能仍然足夠高以具有競爭力。同時,一些程序已經原生支持。

「我們本機支持 GCC 和 Linux,而且 FreeBSD 現在也可以在 [on Prodigy] 上運行,」Danilak 說。「Apache、MongoDB 或 Python 已經原生運行,Pytorch 和 Tensorflow 框架也可用。」

Tachyum 強調,Prodigy 不是加速器,而是真正的 CPU,將與 AMD、Intel 和其他公司競爭。為確保處理器能夠在通用和 AI 工作負載中提供具有競爭力的性能,自 2018 年首次推出以來,該公司對其設計實施進行了大量更改。

「我們是 CPU 替代品,而不是 AI 加速器公司,我們的目標是雲/超大規模和電信公司,」Danilak 說。「隨著時間的推移,我們計劃贏得一些超級計算機客戶,因此我們將向量/MAC 單元的寬度從 512 位增加到 1,024 位 [這也為人工智慧的 4,096 位矩陣運算帶來了必要的數據路徑]。」

事實上,Tachyum 的 Prodigy 承諾的一個特別優勢是它能夠執行不同類型的代碼。假設它可以在執行通用工作負載(實例)的同時以不錯的功率提供不錯的性能,它可能會為 AWS、Microsoft Azure 等提供一些額外的靈活性,因為它們將能夠將相同的機器用於 AI、HPC、和通用實例(如果需要)。當然,它需要來自不同方的一些實際軟體工作,但這可能會奏效,至少在理論上是這樣。

到2023年才能量產

應該指出的是,Tachyum 仍然沒有任何 Prodigy 晶元。因此,所有的性能預測都是模擬的產物,而該公司現在唯一擁有的是其處理器的 FPGA 原型。

(圖片來源:Tachyum)

與此同時,該公司最近開始接受Tachyum 的 Prodigy 評估平台的預訂,該平台將用於一些 Prodigy 晶元。公司必須在 2022 年 7 月 31 日之前下訂單,實際硬體的交付時間約為「收到訂單後的六到九個月」。

如果一切按計划進行,Tachyum 預計將在 8 月中旬流片出第一個 Prodigy 晶元(可能小於 500 mm^2)。在那之後,該公司預計將在 12 月左右獲得其晶元的第一批樣品,如果晶元工作正常,該公司計劃開始提供樣品(即發送評估套件)。通常,晶元從晶圓廠返回後大約需要一年時間。儘管如此,Tachyum 仍希望其首款處理器能夠按計劃工作,並能夠在 2023 年上半年開始實際量產。

在未來,Danilak 設想使用台積電的 N3 節點之一製造的 Prodigy 2 處理器將在相同的功率下提供兩倍的性能以及 PCIe Gen6 支持。

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第3068內容,歡迎關注。

晶圓|集成電路|設備|汽車晶元|存儲|台積電|AI|封裝

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 半導體行業觀察 的精彩文章:

面板驅動晶元訂單大跌,世界先進緊急預警
需求大增的無源元件市場,誰是最大的贏家?