當前位置:
首頁 > 新聞 > 重新定義HPC基礎設施,推動HPC與AI加速融合

重新定義HPC基礎設施,推動HPC與AI加速融合

眾所周知,高性能計算(HPC)最早的應用領域是在科學計算,包括國防、航空、能源、電力、汽車、生物、氣象、模擬等領域,因此HPC亦被稱之為「國之重器」,它不僅代表著一個國家在科學計算方面的實力,更是一個國家在經濟建設中打造核心競爭力的關鍵武器。

但與此同時,HPC經過一代又一代的不斷進化和迭代,特別是隨著人工智慧應用的快速崛起,更使得HPC不僅在科學計算領域的貢獻日益突出,同時也被人們廣泛應用於自然語言、圖像識別、自動駕駛等人工智慧的新領域。

從這個角度來看,HPC和AI不僅有著天然的聯繫,如今更處在加速融合之中。換句話說,HPC不僅可以助推人工智慧的快速發展,更隨著人工智慧的不斷成熟,又反過來促進了HPC系統更好的部署和應用。

那麼,對大部分已經部署了HPC的學術研究部門、政府機構和企業而言,如何才能在現有的環境下,通過評估和優化HPC的基礎設施架構,讓HPC基礎設施發揮出更大的作用,進而促進HPC和AI產生新的「鏈式」反應,最大化的釋放人工智慧帶來的新能量呢?

重新定義的HPC基礎設施

可以看到,隨著AI在過去幾年的加速發展,AI消耗計算能力的速度,遠比想像的要快得多,尤其是隨著神經網路層數的增大,層間連接的增加,數據規模的不斷膨脹,加上未來新的模型和演算法的出現,讓AI對計算能力的需求出現了指數級的增長,由此也對HPC基礎設施帶來了新的挑戰。

首先,從計算性能看,由於人工智慧對於計算的要求確實不同於以往的應用需求,所以如何為人工智慧應用提供源源不斷的「驅動力」是HPC基礎設施面臨的第一大壓力。

比如,深度學習需要大量的樣本進行訓練,以圖像分析為例,它的樣本量級大約為百億級,而語音分析也達到了十萬小時級,隨著AI的應用越來越廣,訓練數據的樣本量越來越大,對計算能力、並行存儲容量和帶寬都提出了新的要求。

因此,對HPC基礎設施來說,它不僅需要高容量、高帶寬的並行存儲;也需要高帶寬、低延時的互聯網路;更需要大規模的計算集群,甚至需要專用的神經網路晶元等等。

其次,從計算場景看,AI的往往分為線上訓練和線下識別平台。其中,對於線下訓練平台,其數據量非常大,往往能夠達到PB級,計算和通信十分密集,由於深度神經網路(DNN)、循環神經網路(RNN)、卷積神經網路(CNN)等演算法往往可擴展性不高,那麼就需要在節點內進行高效計算。因此,異構並行計算的技術架構,就成為了高性能線下深度學習平台的未來方向。

而對於線上識別平台,常常伴隨著億萬級別的用戶和用戶請求,需要成千上萬個節點,實時響應,這就要求線上平台需要低功耗並且高性能,他們大多採用雲計算方式運行。在這個過程中,FPGA的異構計算模式因低功耗、高性能、易編程等特點,就成為了深度學習的首選。

最後,從演算法和數據看,目前結構化數據、非機構化數據、互聯網數據、業務數據等交織在一起,如何在AI時代挖掘數據價值也是另一大挑戰。另外,由於目前機器學習的演算法框架有很多,比如TensorFlow、MxNet、Caffe、Torch、Theano等,這也需要「因地制宜」的選擇適合的HPC基礎設施架構,才能滿足差異化的需求。

由此可見,人工智慧的爆發,在促進HPC發展的同時,也給HPC的基礎設施架構帶來了前所未有的挑戰,這就需要從計算性能、可擴展平台架構,以及系統優化設計等方面進行優化和重構,才能最大化的解決上述挑戰。

五個維度評估和優化HPC

但是,在具體的環境中,由於HPC和AI在工作負載、編程模型以及開發應用等方面存在諸多差異,很多客戶往往無法用同一套HPC基礎設施支持資源的整合利用,由此也造成很大程度上的資源浪費。

所以,很多客戶當前的核心訴求,就是希望在同一套HPC基礎設施平台上支持多種業務的開發和應用,這一平台不僅要解決TFLOPS以及EFLOPS級別的硬體環境問題,更關鍵的是要能支持實現複雜高性能並行計算,以及人工智慧中深度學習框架的軟體應用,最大化的發揮人工智慧帶來的新能力,

在此背景下,對於那些已經部署了HPC的學術研究部門、政府機構和企業而言,未來如何更好的應用AI,讓HPC和AI實現進一步的融合,就需要評估現有的HPC基礎設施架構,並通過優化和重構現有HPC基礎設施,支持HPC和AI帶來的混合工作負載。為此,我們可以從五個方面來做好這些準備工作:

一是,了解HPC基礎設施當前的整體性能情況,只有部署在高性能計算平台、低時延互連,以及可支持大數據集的足夠內存上,高性能計算和人工智慧工作負載才可達到最佳運行表現。

二是,評估各種可用的人工智慧框架庫,並確定哪些產品符合自身的需求。例如,現有的TensorFlow、MxNet、Caffe等人工智慧框架,就已經能夠構建涵蓋許多人工智慧常見的應用,包括圖像識別、語言翻譯、推薦引擎和生成式對抗網路等。

三是,確保選擇的人工智慧框架已針對當前的高性能計算基礎設施進行了優化 由此才能確保人工智慧應用獲得最高可擴展性、最高效率和最佳性能。

四是,如果需要在現有的HPC基礎設施架構開發演算法,那麼可以直接專註現有的系統完成優化,這樣可以確保在不需要加速器或GPU等新硬體上投入大量的資金,實現成本的降低。

五是,了解工作負載會是何種形態。特別是弄清自身規劃的人工智慧計劃將需要多少訓練和推理,因為這些不同種類的工作負載對HPC基礎設施的要求也會有所不同。

小結一下,在整個HPC系統中,必須解決所有潛在瓶頸(如計算、存儲、網路等),以便從每個硬體中獲得最大收益。同時,應盡最大可能保留現有的基礎設施投資。但如果預期使用要求超出了HPC系統的硬體性能,則可能需要進行升級。並根據工作負載需求安排實施優先順序,逐步改進和擴展現有的HPC基礎設施。

更重要的是,在此基礎上,要使人工智慧在HPC系統中發揮最大的潛力,深度學習框架發揮著舉足輕重的作用,因此也需要進一步開發和優化演算法,並對模型進行強化訓練,以滿足組織的需求,最終發揮出人工智慧的最大潛能和價值。

推動HPC與AI的加速融合

值得一提的是,正是洞察到了那些已部署HPC,但又希望利用現有基礎設施發展AI的客戶,英特爾與其他行業領先企業合作開發了面向高性能計算的英特爾精選解決方案,這是一套面向快速部署HPC基礎設施的解決方案,已針對分析集群和高性能計算應用進行了優化,可幫助客戶在發展人工智慧的過程中,縮短實現突破、提供可行洞察和設計新產品的時間,具體而言:

一方面,在硬體平台創新方面,英特爾的高性能計算技術包含許多創新,可幫助客戶從最苛刻的人工智慧工作負載中獲得最大收益,這些產品包括英特爾至強可擴展處理器和英特爾至強融核處理器;英特爾Omni-Path 架構;英特爾FPGA;英特爾傲騰技術;英特爾3D NAND 固態盤以及英特爾高級矢量擴展AVX-512等。

另一方面,在演算法和框架方面,英特爾也針對常見的人工智慧框架進行了優化,包括英特爾Optimization for TensorFlow,這是基於 Python的深度學習框架,旨在加強現代深度神經網路的易用性和可擴展性;英特爾Optimization for Caffe,這個Caffe 的優化分支是最為流行的圖像識別框架之一;針對MXNet,英特爾數學核心函數庫(英特爾MKL)提供對這個開源深度學習框架的內置支持等。

不難看出,面向高性能計算的英特爾精選解決方案,真正實現了HPC和AI應用的融合,通過對硬體平台創新和對演算法和框架的支持,英特爾讓AI和HPC應用能夠平穩、高效地運行在統一的HPC基礎設施平台之上,從而大大加速了圖像識別、自然語言處理、自動駕駛等人工智慧應用的創新和應用進程。

全文總結,科學計算的深入應用,深度學習驅動的人工智慧,都正在重新定義HPC的創新和應用邊界,而英特爾通過推動HPC和AI的融合,讓更多的客戶可以更快速、更容易以及更省成本的方式最大化利用現有HPC基礎設施,發揮人工智慧的作用,無疑也體現了英特爾希望通過不斷的創新,讓更多客戶受益於人工智慧普及帶來更大價值的決心和信心。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 申耀的科技觀察 的精彩文章:

海爾正以「空氣生態」驅動傳統業態進化
Hitachi Vantara:開局謀新篇,至誠以致遠

TAG:申耀的科技觀察 |