揭秘浪潮伺服器AI新品——訓練推理「金箍棒」GX4

最新 09-29

如果你是AI領域的極客or發燒友

那麼

GTC China 2017你絕對沒有錯過

想必除了老黃的皮衣

作為現場的「明星」

浪潮基於Tesla V100的AI計算產品GX4

也勾起了你極大的興趣

浪潮GX4並不是一台傳統意義上的伺服器產品，而是一台2U高度的AI Box，其中沒有CPU、內存，由4塊GPU計算加速卡，擴展主板其他支撐部件組成，同時也可部署NVMe SSD硬碟替代計算加速卡，作為高密度熱數據存儲使用。

GX4承襲了浪潮SR-AI整機櫃的設計理念，實現了CPU和GPU的物理解耦，使得計算加速單元能夠以獨立模塊的形式進行靈活擴展。此類設計的優勢在於能在保證高效GPU跨節點通信效率的同時，以靈活的擴展形式支持不同級別的AI模型訓練。有效降低IO冗餘和系統購買成本，適合深度學習模型訓練、科學計算、工程計算與研究領域的應用。

隨著訓練樣本量的指數級增長以及訓練模型的複雜度不斷提升，AI計算正面臨的三大困擾。首先，不同應用所需的硬體不同，帶來採購和運維成本提升；其次，多機集群的延遲更高；第三，資源擴展不靈活、成本高。針對於此，GX4採用了一些創新的設計來解決這些困擾AI用戶的難題。

GPU與CPU計算資源的解耦和重構，讓GX4擁有了更加多樣的拓撲結構，可以通過靈活調整GPU拓撲，滿足AI雲、深度學習模型訓練和線上推理等各種AI應用場景，使計算架構與上層應用更匹配，發揮出AI計算集群的最大性能。

目前，GX4可支持Balanced、Common、Cascaded三種不同的GPU拓撲結構。其中，雲服務的用戶需要做虛擬化，每個VM需要分配對應的GPU資源，為了保證VM的分配GPU的性能均衡性，需要採用Balance方式保證VM下GPU資源的性能均衡；Common模式和Cascaded模式均適合於深度學習模型訓練使用，區別在於Common上行有兩條X16鏈路，Cascade只有1條，但是CascadeP2P更優化，以上三種模式可以通過線纜來靈活調整拓補。

集群延遲降低50%以上。浪潮GX4能夠實現16塊GPU之間僅依賴PCI-E進行通信，延遲可降低50%以上，並且藉助GPU Direct RDMA技術，使跨節點GPU與GPU實現直接的數據交互，大幅降低跨節點GPU間的通信延遲，最終使GPU計算集群的延遲下降到ns級。

兼具高性價比和高擴展性。GX4組成的AI計算集群，由負責邏輯運算的SA5212M5伺服器和GX4組成，當業務需要更大的AI計算資源時，可以單獨增加GX4來完成高性價比和高靈活性的擴展，最大可實現單物理集群16卡的資源擴展。

資源調配靈活。浪潮GX4組成的AI集群中，SA5212M5可以調用一台box中的1-4塊GPU，也可以任意掛接1-4台box。可隨需求通過軟體定義的形式靈活改變單物理集群的GPU卡數量，將資源調度最小顆粒度從伺服器級升級為GPU卡級別。

支持多種數據中心環境。浪潮GX4可以運行在不同的數據中心環境，並且冷風直接透過GPU散熱，同樣性能下功耗更低。

總而言之，浪潮GX4是一款具有很強靈活性和擴展性的高性能GPU AI計算新品，能夠很好的適應不同規模的深度學習模型訓練和線上推理的需求，以及不同類型AI應用對底層架構的要求，可謂是隨需擴展神通廣大的「金箍棒」產品。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 浪潮集團 的精彩文章:

※世界物聯網博覽會，浪潮帶來了哪些物聯網「黑科技」？
※浪潮雲發布全新品牌Logo詮釋中國雲力量
※浪潮雲2017全新戰略重磅發布 2020年實現200億銷售收入目標
※百變「葫蘆小金剛」NF5280M5
※偉星股份如何實現智能製造？

TAG:浪潮集團 |