當前位置:
首頁 > 知識 > 浪潮POWER 9:英特爾的挑戰者

浪潮POWER 9:英特爾的挑戰者

機器之心原創

作者:太浪

IBM 的 POWER 與 Intel Xeon、AMD EPYC 是目前伺服器市場上的三種主要處理器類型。

英特爾在推出至強處理器,進入伺服器市場後,依靠其在桌面電腦上建立起來的生態平台和對技術的持續改進,在成本和性能上實現了對 RISC 晶元的超越,幾乎壟斷了數據中心 CPU 市場。

然而,到了人工智慧時代,英特爾開始遭遇挑戰。

單純以 CPU 為核心的數據中心部署已經不能很好地滿足並行靈活計算、多變環境的計算需求。

2013 年,IBM 與 Google、英偉達等共同創立 OpenPOWER 聯盟,通過聯盟及生態的模式促進 POWER IP 的使用和相關技術開發。四年來,OpenPOWER 不斷發展壯大,騰訊、阿里、中移動、中石油等越來越多的中國核心企業也開始加入 OpenPOWER 聯盟。

去年 12 月,IBM 發布了最新設計的 POWER9 處理器。POWER9 處理器在新技術上採用了 PCIe4.0、CAPI、NVLink、高主頻、更極限的晶元設計。在系統級也採用了面向市場需求的高可用設計,40 層主板的設計,更高效率的散熱技術,通過把這些先進技術進行整合,從而給高端客戶和行業客戶提供了更加差異化的選擇。

POWER9 處理器

在縱向擴展(Scale-up)平台、關鍵應用事務處理雲化的過程中,能夠提供更高性能、更可靠、更少安全問題的虛擬機。在橫向擴展(Scale-Out)領域提供的計算平檯面向異構計算,有著更高內存帶寬、更多互聯等技術特點,使得 POWER 平台在計算層面的競爭上有一定的技術優勢。

有觀點認為,POWER 9 將會是目前最有機會挑戰英特爾的產品。

浪潮商用成立,負責 POWER 伺服器業務

去年 9 月,浪潮信息與 IBM 合資成立了浪潮商用機器有限公司(IPS),IBM 將在中國大陸的 POWER 伺服器業務完全交由浪潮商用運營。2018 年 5 月初,浪潮商用機器正式運營。

9 月,浪潮商用機器宣布搭載全新 POWER9 處理器的 FP5295G2 伺服器正式全面上市。該款伺服器搭載 NVIDIA Tesla V100 GPU,嵌入 PCIe 4.0、NVIDIA NVLink 和 OpenCAPI,採用 POWER AI,被稱為「首個真正意義上基於 POWER9 晶元專為 AI 而生的基礎架構平台」。

10 月,浪潮商用機器正式推出基於 POWER9 處理器的全線新產品及解決方案。

浪潮商用機器發布 POWER9 全線新品

整個產品線涵蓋了面向縱向擴展(Scale-up)的系列產品,主要是 K1 Power E980、K1 Power E950 這 2 款企業級伺服器搭載全新 Power9 晶元,將以高性能、高穩定性與卓越的定製服務為企業關鍵應用搭建核心承載平台;以及 K1 Power S914、K1 Power S922、K1 Power S924、K1 Power L922、FP5280G2、FP5290G2、FP5295G2 等 7 款橫向擴展(Scale-Out)伺服器,面向企業多樣的數據密集型業務需求,提供針對數據和認知的基礎架構。

「作為 POWER 平台的伺服器供應商,如何提供最好的算力是我們的分內職責。」浪潮商用機器有限公司 POWER 伺服器產品經理張鋒表示。

浪潮商用機器有限公司 POWER 伺服器產品經理張鋒

他介紹,POWER 伺服器以及 POWER 處理器晶元在技術上一直是非常領先的,達到了「教科書級別」,POWER 9 依然保持了技術領先性:

「我們採用 14nm 的工藝生產 CPU,我們整個 CPU 里只有 70 層的晶元結構,單處理器能夠最高達到 22 核,單處理器最高能到 3.8GHz,它還分大核小核,大核支持單核八線程,小核支持單核四線程,這些單核線程都遠遠高過 x86 的單核兩線程。POWER 有更多的 L3 緩存 cache。更多的 cache 能夠帶來更好的指令的 miss,提高它的命中率、提高它性能的 performance。POWER 有 110M 的緩存,而 x86 平台只有 38.5M。」

「POWER 9 是最好的 AI 平台。」浪潮商用機器有限公司解決方案部總經理吳楠曾表示,「我們最為領先的微主機架構帶來了四倍於差不多平台的線程數,以及高達 230G 的一個穩定的內存帶寬。綜合起來,POWER9 的計算能力能夠達到 x86 最高端處理器的兩倍以上。」

在張鋒看來,一個產品要想在市場上獲得成功,除了技術優勢,還要有生態優勢。

他說,不可否認,x86 最近幾年在生態合作上取得了非常大的成功,很多的數據中心裡都採用 x86 的平台。

但近幾年,POWER 也在不斷地遷移和變革生態環境。「甚至,面向 AI 領域、AI 時代、大數據時代轉型,POWER 會比 x86 更加開放、更加積極」。

POWER 建立了 OpenPOWER 基金會,讓客戶(如 Google)、合作夥伴(如 NVIDIA、浪潮)統統加入,以完善整個生態系統。在開源軟體上,OpenPOWER 基金會也做出了自己的努力:目前現在最熱門的 Hapoop、Spark 平台都有 POWER 平台的架構;現在最流行的 Coffe、TensorFlow 計算框架也有 POWER 平台的框架。浪潮還和中國科學院成立共同的實驗室,創辦浪潮商用機器。

他說,這些舉措都是在培養、完善 POWER 在雲、在 AI 時代的生態環境。

張鋒還表示,「POWER AI 的一些平台可以直接利用我們的開源軟體,也就意味著,POWER 是一個非常開放的生態架構。我們希望,一個非常開放的架構能夠讓我們的客戶、ISV、雲服務商充分享受到開源生態環境以及 OpenPOWER 基金會這樣一個合作生態組織給大家帶來的便利性,讓我們 POWER 在生態領域有更好的融合。」

人工智慧時代給算力提出了新需求,浪潮商用機器如何應對?

人工智慧時代給浪潮商用機器帶來的,除了機遇,也有挑戰。

目前,企業 AI 化的需求不斷加深,需要有非常強大的計算平台來有力支撐線上推理和線下訓練。這對數據中心的部署提出了更高的需求,包括兼容性完備的 AI 架構、優化的 AI 計算平台以及更加高效的計算架構。

要獲得一份調教好的 AI 計算結果,涉及到數據預處理、模型訓練、識別推理等階段。數據預處理,對 I/O 介面要求較高;模型訓練階段,並行計算量很大,且通信也相對密集;推理識別階段,則需要較高的吞吐處理能力和對單個樣本低延時的響應。

在張鋒看來,目前,算力還存在三個短板:第一個是 CPU 取數的速度,這是打破數據存儲牆的需求;第二個是 CPU 拿到的數據怎麼和 GPU 交換,GPU 處理完了以後怎麼分發給其他的 GPU 進行交換;第三個是怎麼在一個短短的、有限的空間里提升算力。

浪潮商用機器的應對之策是,確立了三個發展方向:第一,在單位空間內提升計算密度;第二,通過計算的可伸縮性,為不同的平台(訓練/推理平台)提供算力;第三,通過體系結構的變更,讓客戶體會到更先進的、計算架構層面的不同。

今年 9 月,浪潮商用機器推出 FP5295 伺服器,張鋒稱之為「面向企業人工智慧最佳的一款平台」。

浪潮 POWER FP5295G2 伺服器

他總結了這款伺服器的三個優勢:

一、架構的競爭是首要的競爭,架構的領先將會帶來極大的計算力優勢。這款伺服器採用了 NVLink 全互聯架構,能夠讓 CPU 和 CPU、CPU 和 GPU、GPU 和 GPU 之間實現內存地址一致性,「也就是首次把 CPU 和 GPU 放在同等的算力地位上」。整個伺服器的內存空間地址為全體計算單元所共享。

「這能夠讓我們整個平台的算力得到非常大的提升,同時讓我們的用戶在編程模型上得到極大的釋放。這是浪潮商用伺服器的 POWER 伺服器在平台架構上相較於 x86 最顯著的優勢。」

二、這款平台是業界最先進的 CPU 和業界最強悍的 GPU 之間的一個聯合實踐。FT5295G 伺服器採用了 POWER9 處理器,它最大的特點是支持 NVLink 300G/秒的全互聯速度,這能夠讓我們的 GPU 和 CPU 發揮最大的計算效率。它提供單機 4 到 6 個 V100 GPU,支持最新的 32G 緩存的 GPU,單 GPU 的浮點運算能力能達到 15.7 TFLOPS,整機能夠提供 500 萬的 Tensor 性能,這樣能夠讓訓練平台得到充分的計算力的保障。

三、是企業就緒特性。在 POWER 伺服器平台上,利用 POWER AI 架構,企業能夠輕鬆地面向 AI 進行轉型。因為 POWER AI 的架構里集成了所有業界最先進、最熱門的 AI 計算框架,包括 Coffe、TensorFlow 等。企業可以根據自身需求在一個節點上逐漸地把自己的 AI 平台框架搭建起來,並無縫地遷移到成千上百個計算節點上去。

「我們相信,這一款平台能夠讓企業、讓我們的 HPC 用戶得到更多的性能體驗。」

多元化的合作模式

今年 9 月份,第四範式攜手浪潮商用機器在京聯合發布了 AI 軟硬體一體機產品「Prophet AIO」。同時,雙方正式宣布成立 AI 一體機聯合實驗室,以加速 AI 在用戶需求及產品研發的落地進程。

針對雙方的合作,第四範式聯合創始人兼首席架構師胡時偉如是說:「我們發現,浪潮商用在硬體方面的追求和我們在 AI 軟體平台方面的追求驚人的一致,我們都預期給客戶提供最先進、並且能夠最好地支撐新技術發展的解決方案。

我們在 POWER 身上發現了目前可能地球上最大的匯流排帶寬和最先進的技術。並且,我們需要的是,在一個平台橫向拓展、支持儘可能多的應用,採用統一的模式去運行,而 POWER 在虛擬化和可擴展方面也走在了所有技術的前列。所以大家可以說是一拍即合。」

張鋒表示:互聯網以及互聯網的新興企業的成長性是非常好的。過去十年,浪潮和互聯網公司共同成長,總結出了一套 JDM 模式(Joint Design Manufacture,聯合開發定製模式)。「互聯網客戶非常了解自己的需求,而浪潮商用機器公司能夠把互聯網企業的這些需求、平台構想迅速地落地,實現針對某一種應用場景的最佳的計算平台。」

在 AI 的大潮下,他們堅信,互聯網以及 AI 公司有自己獨特的、為客戶提供價值的平台和路徑。「比如第四範式的先知平台,我們可以為它去定製更好的、基於金融反詐騙的平台系統、學習訓練系統或者推理系統。」

此外,他們也在和銀行、電信等領域的客戶做聯合定製的開發。

張鋒介紹,浪潮正和位於上海的一家金融機構做雲平台的整合,向他們提供更好的整機櫃型的伺服器。也在和電信行業做一些基於 NFE 平台的定製和開發。

「浪潮商用機器有限公司會利用 JDM 模式與我們的客戶強強配合,讓我們的客戶、終端用戶體驗到浪潮在平台上、POWER 的先進性,以及在平台上迅速地轉化成生產力。」張鋒說。

還有值得一提的點是,浪潮商業機器的伺服器生產已經完全實現了本地化生產。

吳楠曾在一個會議上介紹,他們在濟南開闢了一條年產 100 萬台伺服器的生產線,專供 POWER 伺服器的生產。

「這個伺服器的生產線是我們最先進的、無人的、全自動的生產線,其中有 370 多個質量檢測點,生產的質量和我們以往交付給客戶的產品質量是保持如一的。」

所有設備的交期從原來 40 多天縮短到不到一周,還能給客戶按需定製產品,「客戶的一些獨特的需求都可以在我們生產線上得到實現。」

除了本地化生產的落成,也有了本地化服務。

吳楠表示,「我們服務的本地化也會帶來服務質量和服務效率的提升。我們的備品備件都會實現本地化的交付,提高維修和響應的速度。」

這就是浪潮商用機器目前的優勢。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

用Keras中的權值約束緩解過擬合
有了Julia語言,深度學習框架從此不需要計算圖

TAG:機器之心 |