當前位置:
首頁 > 最新 > 揭秘浪潮伺服器AI新品——訓練推理「金箍棒」GX4

揭秘浪潮伺服器AI新品——訓練推理「金箍棒」GX4

如果你是AI領域的極客or發燒友

那麼

GTC China 2017你絕對沒有錯過

想必除了老黃的皮衣

作為現場的「明星」

浪潮基於Tesla V100的AI計算產品GX4

也勾起了你極大的興趣

浪潮GX4並不是一台傳統意義上的伺服器產品,而是一台2U高度的AI Box,其中沒有CPU、內存,由4塊GPU計算加速卡,擴展主板其他支撐部件組成,同時也可部署NVMe SSD硬碟替代計算加速卡,作為高密度熱數據存儲使用。

GX4承襲了浪潮SR-AI整機櫃的設計理念,實現了CPU和GPU的物理解耦,使得計算加速單元能夠以獨立模塊的形式進行靈活擴展。此類設計的優勢在於能在保證高效GPU跨節點通信效率的同時,以靈活的擴展形式支持不同級別的AI模型訓練。有效降低IO冗餘和系統購買成本,適合深度學習模型訓練、科學計算、工程計算與研究領域的應用。

隨著訓練樣本量的指數級增長以及訓練模型的複雜度不斷提升,AI計算正面臨的三大困擾。首先,不同應用所需的硬體不同,帶來採購和運維成本提升;其次,多機集群的延遲更高;第三,資源擴展不靈活、成本高。針對於此,GX4採用了一些創新的設計來解決這些困擾AI用戶的難題。

GPU與CPU計算資源的解耦和重構,讓GX4擁有了更加多樣的拓撲結構,可以通過靈活調整GPU拓撲,滿足AI雲、深度學習模型訓練和線上推理等各種AI應用場景,使計算架構與上層應用更匹配,發揮出AI計算集群的最大性能。

目前,GX4可支持Balanced、Common、Cascaded三種不同的GPU拓撲結構。其中,雲服務的用戶需要做虛擬化,每個VM需要分配對應的GPU資源,為了保證VM的分配GPU的性能均衡性,需要採用Balance方式保證VM下GPU資源的性能均衡;Common模式和Cascaded模式均適合於深度學習模型訓練使用,區別在於Common上行有兩條X16鏈路,Cascade只有1條,但是CascadeP2P更優化,以上三種模式可以通過線纜來靈活調整拓補。

集群延遲降低50%以上。浪潮GX4能夠實現16塊GPU之間僅依賴PCI-E進行通信,延遲可降低50%以上,並且藉助GPU Direct RDMA技術,使跨節點GPU與GPU實現直接的數據交互,大幅降低跨節點GPU間的通信延遲,最終使GPU計算集群的延遲下降到ns級。

兼具高性價比和高擴展性。GX4組成的AI計算集群,由負責邏輯運算的SA5212M5伺服器和GX4組成,當業務需要更大的AI計算資源時,可以單獨增加GX4來完成高性價比和高靈活性的擴展,最大可實現單物理集群16卡的資源擴展。

資源調配靈活。浪潮GX4組成的AI集群中,SA5212M5可以調用一台box中的1-4塊GPU,也可以任意掛接1-4台box。可隨需求通過軟體定義的形式靈活改變單物理集群的GPU卡數量,將資源調度最小顆粒度從伺服器級升級為GPU卡級別。

支持多種數據中心環境。浪潮GX4可以運行在不同的數據中心環境,並且冷風直接透過GPU散熱,同樣性能下功耗更低。

總而言之,浪潮GX4是一款具有很強靈活性和擴展性的高性能GPU AI計算新品,能夠很好的適應不同規模的深度學習模型訓練和線上推理的需求,以及不同類型AI應用對底層架構的要求,可謂是隨需擴展神通廣大的「金箍棒」產品。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 浪潮集團 的精彩文章:

世界物聯網博覽會,浪潮帶來了哪些物聯網「黑科技」?
浪潮雲發布全新品牌Logo詮釋中國雲力量
浪潮雲2017全新戰略重磅發布 2020年實現200億銷售收入目標
百變「葫蘆小金剛」NF5280M5
偉星股份如何實現智能製造?

TAG:浪潮集團 |