當前位置:
首頁 > 科技 > 英特爾公布Nervana NNP-T深度學習訓練加速器:台積電16nm工藝、32GB HBM2內存

英特爾公布Nervana NNP-T深度學習訓練加速器:台積電16nm工藝、32GB HBM2內存

現在深度學習已成為人工智慧的重要方向,而且研究成果已經應用於日常使用中。但訓練人工智慧模型需要強大的算力支持,所以除了使用GPU加速訓練外,很多廠商開始推出專用於深度學習訓練的ASIC晶元。英特爾在人工智慧領域投入頗多,除了FPGA產品線外,也推出了Nervana深度學習加速器,在今天的Hot Chips 31會議中,英特爾公布了旗下Nervana NNP-T深度學習加速器的細節。

這款Nervana NNP-T深度學習加速器代號為Spring Cast,是目前英特爾最新款的專用深度學習加速器。這款加速器被命名為NNP-T,表示其主要用於深度學習網路模型訓練工作定製。隨著深度學習模型越來越龐大,所以專用的訓練加速器也逐漸流行起來,如NVIDIA也推出了Tesla T4 GPU。

具體到加速器核心上,此次英特爾反常的使用了台積電16nm CLN16FF 工藝,而實際上Nervana在收購前就使用的是台積電28nm工藝製造其第一代的Lake Cast晶元。雖然使用的是台積電的工藝,但也是用了很多台積電的最新技術。晶元採用了4個8GB HBM2-2400內存,每針腳2.4GB/s的傳輸速率,都安裝在一個巨大的1200平方毫米的硅基板上。同時計算核心與HBM內存通過台積電最新的CoWoS晶圓級封裝技術進行互聯。最終得到了一個60×60mm,具有3325 pin的BGA封裝。

在展示中稱此次由於HBM2與核心是無源封裝,所以為2.5D封裝技術。而HBM2由於是4Hi,所以整體為3D封裝。實際上英特爾自家也有EMIB嵌入式多晶元互聯橋接這種橋接技術。四個HBM2堆棧共有64條SerDes通道,每個通道支持28GB/s的傳輸速率。

具體的核心規模上,Nervana NNP-T的計算核心擁有270億晶體管,包括24個Tensor Processors(TPC)。除了TPC外,晶元裸片中還有60MB的SRAM以及一些專用的介面,如IPMI、I2C及16條PCI-E 4.0通道。

晶元的工作頻率為1.1GHz,風冷條件下功率配置為150W到250W,可通過水冷獲得更強大的性能表現。同時Nervana NNP-T加速器還擁有OCP卡及PCI-E兩種規格,以供數據中心選擇。

Nervana NNP-T加速器充分利用內存模塊和互聯網路使得計算核心得以充分使用。計算核心支持bFloat16矩陣乘法、FP32、BF16以及其他主要操作。同時在使用上英特爾已經通過開源的nGraph庫將深度學習框架連接到硬體後端的編譯器。現在英特爾正在與常見的Paddle Paddle、Pytorch及TensorFlow深度學習框架進行合作。

由於採用了可擴展架構集OCP及PCI-E規格,所以對於數據中心等場景可以方便地進行擴展。架構支持擴展到1024個節點,每個節點擁有8個NNP-T計算核心。

英特爾表示他們將在今年年底向客戶提供NNP-T的樣品,主要針對以及雲服務提供商,在2020年之前面向更多用戶。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 超能網 的精彩文章:

台北電腦展:華碩展示Prime Utopia主板,一改傳統布局
微星AfterBurner超頻軟體更新:支持對RX 5700和RTX Super顯卡的電壓調整

TAG:超能網 |