當前位置:
首頁 > 新聞 > 黃仁勛:英偉達豪賭GPU終獲回報,但我更看好高性能計算

黃仁勛:英偉達豪賭GPU終獲回報,但我更看好高性能計算

新智元報道

來源:Nvidia、Medium等

編輯:大明、聞菲、金磊

【新智元導讀】黃仁勛日前在全球超算領域年度盛會SC18發表演講,展望高性能及通用計算的未來。除了深度學習突飛猛進,Nvidia的GPU在超算、雲平台等高性能計算領域發揮著舉足輕重的作用。黃仁勛表示,Nvidia最好的產品還沒有到來,未來計算的重任就交給GPU來抗。

11月11日~16日,2018年全球超算領域年度盛會、全球超級計算大會(SC18)在美國得克薩斯州達拉斯召開。昨天,Nvidia CEO黃仁勛發表了主旨演講,簡單說,就是未來計算的大旗放心交給英偉達來抗。

老黃在演講中使用了數據圖表、產品圖片、甚至是超新星的精美畫面,描述了加速器和人工智慧驅動的計算轉換,包括多精度處理器、新興軟體工具、垂直堆棧和容器等,當然還有Nvidia的產品,這些都將推動未來高性能計算的發展。

其實他在演講中說的大多數挑戰和解決方案大家都不陌生,不過我們可以理解他表現出的熱情。因為GPU(或者更具體地說,是Nvidia 的GPU和CUDA),一直是HPC用以應對摩爾定律崩潰的關鍵手段。

深度學習熱浪奔涌,Nvidia豪賭GPU終獲回報

最近,基於加速器的異構架構的不斷興起,這在世界超級計算機Top 500榜單上表現得很明顯。在最新的榜單上,有127台超級計算機系統中使用了Nvidia的產品,包括目前世界上運算速度最快的兩台超級計算機Summit和Sierra

同樣,Nvidia對混合精度功能的支持,對於提升機器學習和深度學習性能至關重要,這在Nvidia在Volta100和T4 GPU上部署的Tensor Core技術中可見一斑。

無論是敏銳的遠見也好,聰明的機會主義也罷,Nvidia對GPU的豪賭都取得了豐厚的回報。現在的GPU對傳統的建模和模擬任務,以及新興的數據驅動的AI任務的支持越來越廣泛。

關於HPC和GPU如何協同工作還有很多事情需要解決,至少近期,基於加速器的異構系統可以作為兩者共同的動力。黃仁勛將Nvidia作為先行者,進行了不拘一格的技術討論,並宣布了一系列內容,包括HPC性能基準、產品對市場推動力、新合作夥伴的努力以及對開源的模式讚譽等。

橫掃雲平台和Top500榜單:Nvidia突破性的一年

世界超級計算機Top 500榜單中,Nvidia進步明顯。現在,榜單中使用Nvidia GPU的系統數量同比增長了48%,是五年前的三倍。兩台全球頂級超級計算機Summit(橡樹嶺國家實驗室)和Sierra(勞倫斯利弗莫爾國家實驗室)一共使用了超過40000個Nvidia V100 Tensor Core GPU。Top500榜單中的近一半計算力(702/1417 petaflops)來自加速系統。在10年前,榜單中根本沒有出現加速系統。

截至今年11月的最新超算Top 500榜單(前5名),中美各佔兩席

DGX-2為頂級實驗室提供算力。黃仁勛表示,美國第一批Nvidia DGX-2 AI超級計算機已經運抵美國領先的一些研究實驗室——布魯克海文國家實驗室、橡樹嶺國家實驗室和桑迪亞國家實驗室。DGX-2利用NVSwitch技術實現16個Nvidia TeslaV100 Tensor Core GPU的互聯,提供了超過2 petaflop的算力。

在谷歌雲上可以使用T4。據Nvidia發布的消息,新的T4 GPU推出後僅兩個月,用即在57個獨立的伺服器設計中得到了應用,現在已經可以在雲中使用,谷歌雲平台首先可用於谷歌雲平台的GPU。「我們有從未見過這麼快就被數據中心採用的處理器,「Nvidia的加速計算副總裁兼總經理Ian Buck說。

容器業務擴展迅速。Nvidia的NGC容器註冊表現在提供41個框架和應用程序(去年為18個),用於深度學習,HPC及其可視化。最近增加的內容包括CHROMA,Matlab,MILC,ParaView,RAPIDS和VMD。

Nvidia發布了新的多節點HPC和可視化容器,允許超級計算用戶在大規模集群上運行工作負載。此外,NGC容器現在可以在Singularity本地使用,Singularity是一種在超級計算中廣泛採用的容器技術。

其他值得一提的亮點。Nvidia GPU也為歐洲和日本最快的超級計算機提供加速服務。今天發布的Green 500排行榜測試了世界上最快系統的能效,榜單顯示,前25個「最環保」的系統中,有22個系統使用Nvidia的GPU。

「對於Nvidia來說,這是超級計算領域的突破性的一年。」黃仁勛在發布會上表示,事實確實如此。

黃仁勛花了相當多的時間討論Nvidia對其GPU生態系統的支持,他指出,CUDA版本的向後兼容性以及對一系列開源工具和框架的支持,對於Nvidia開發標準化垂直堆棧的努力至關重要。他說,這些堆棧將消滅大部分「苦差事」,並實現更廣泛的各種AI功能。

同樣值得一提的是T4在市場上的出色表現。 使用T4的伺服器公司包括戴爾EMC,IBM,聯想和超微。T4的功耗僅70瓦,可以靈活地適應標準伺服器或任何面向開源計算項目的超大規模伺服器設計。

伺服器設計的適用範圍從單個T4 GPU一直到單個節點中的20個GPU。 T4的多精度功能可提供四種不同精度級別的工作負載,FP32提供8.1 TFLOPS,FP16提供65TFLOPS,INT8提供130 TFLOPS,INT4提供260 TFLOPS。

在演講的最後,黃仁勛激動地表示,英偉達最好的產品還沒有到來。讓我們拭目以待。

谷歌定向優化TensorFlow,尋求GPU性能極限

作為最早在雲服務平台上應用Nvidia T4 GPU的企業,谷歌一直與Nvidia有著良好的合作關係。近日,谷歌的研究人員在 Medium上發布了一篇官方博文,題為《用XLA將GPU性能推向極限》(Pushing the limits of GPU performance with XLA)。

XLA 是 TensorFlow 圖模型的編譯器(complier),用於優化 TensorFlow 計算。雖然這篇博文中並未提到谷歌最新採用的英偉達T4 虛擬機,但很明顯可以看出,谷歌在針對GPU做TensorFlow模型優化,未來也將如此。

使用了XLA的TF1.12在英偉達Tesla V100GPU上訓練ResNet-50,速度相比沒有使用 XLA的TF1.11有了顯著提升:合成數據為每秒10526幅圖,真實數據為每秒10,267幅圖。谷歌研究人員表示,他們觀察到各種內部模型的加速最小的有1.13倍,最高的有3.04倍。

參考鏈接:

https://www.hpcwire.com/2018/11/14/nvidias-jensen-delivers-vision-for-the-new-hpc/

https://medium.com/tensorflow/pushing-the-limits-of-gpu-performance-with-xla-53559db8e473?linkId=59644343

【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號:aiera2015_3入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

Jeff Dean推薦:用TPU跑Julia程序,只需不到1000行代碼
留美博士生湧現迴流中國潮!一是因為工資,二是因為特朗普

TAG:新智元 |