全球最高性能雲端AI晶元如何煉成?揭秘背後創新之法
智東西 文 | 心緣
智東西6月19日報道,今天,Habana Labs在北京披露了其首款雲端AI處理器以及去年9月推出的首款雲端AI推理處理器的性能和技術詳情。
在數據中心的AI訓練、推理和預測領域,NVIDIA GPU堪稱是AI晶元「一哥」,在AI訓練領域一家獨大,幾乎無敵手。
而就在本周,一家國外創企推出其首款用於雲端訓練的人工智慧處理器(AIP,AI processor),名為Gaudi,號稱其訓練系統的處理能力比擁有相同數量的GPU系統高4倍。
這家創企名為Habana Labs,年紀不足4歲,去年才剛剛從神秘的「隱身模式」中脫離出來,而就在短短9個月的時間,它先後推出AI推理處理器Goya和AI訓練處理器Gaudi,並且均比NVIDIA的旗艦產品擁有更好的性能表現。
它的兩款晶元究竟實力如何,能否打破雲端AI晶元領域的現有格局?它們如何達到這樣的性能表現?今日,Habana Labs首席商務官Eitan Medina詳細介紹了Habana Labs兩款AI處理器的強大性能,以及實現這些性能背後所做的一系列創新。
一、訓練性能達V100的4倍,今年下半年出樣品
先簡單介紹下Habana Labs,這家公司創立於2016年,總部在以色列,在波蘭有一個研發中心,在中美有兩個銷售中心。它的目標相當直接,要成為未來在AI晶元領域的行業領導者。
其團隊來自知名的處理器、DSP、系統設計、網路設計公司。產品包括軟體和硬體研發,若干款AI產品已經發布。
去年11月,這家公司完成由英特爾領投的7500萬美元B輪融資,累計融資約1.2億美元。
Habana Labs首款AI訓練處理器在本周剛剛推出,將於2019年下半年面向特定客戶提供樣品。
Eitan Medina說,Gaudi主要有兩大亮點:一是擁有比GPU更高的處理能力、更優的性能和功耗;二是通過內置RDMA乙太網處理單元,提供過去的晶元無法實現的可擴展能力。
1、創新架構
Gaudi的設計遵循流行架構——開放計算平台(OCP,Open Compute Project),支持FP32、bfloat16以及一些整數格式等典型用於訓練的浮點格式,是目前業界單一處理器中性能最高的產品。
在ResNet-50模型中,此前業內最負盛名的NVIDIA Tesla V100每秒約能處理600張圖片,功耗為300W;而Gaudi每秒可以處理1650張圖片,功耗幾乎是V100的一半。
一些晶元公司已經在其新一代雲端AI晶元上採用了當下最先進的7nm製程工藝,不過,Gaudi選擇的是16nm製程工藝。
Eitan Medina表示,Gaudi的超高性能表現不是通過工藝實現的,而是源於創新架構。
Gaudi處理器的創新架構可實現訓練系統性能的近線性擴展,即使是在較小Batch Size的情況下,也能保持高計算力。
這張圖展現了Gaudi的擴展能力,在ResNet-50訓練中,同樣約使用700個處理器,Gaudi的計算能力能達到V100的3.8倍。
Eitan Medina補充說,在不同規模的系統平台下,Gaudi的算力和功耗比均高於GPU。
因此,基於Gaudi處理器的訓練性能可實現從單一設備擴展至由數百個處理器搭建的大型系統的線性擴展。
2、集成標準乙太網,實現速度和埠數無限擴展
在AI訓練中,可擴展能力主要與網路相關。
Gaudi處理器片上集成了10個100GbE乙太網埠,每個乙太網埠均支持RDMA over Converged Ethernet (RoCE v2) 功能,從而讓AI系統、計算系統和存儲系統能夠使用標準乙太網,在速度和埠數方面獲得幾乎無限的可擴展性。
RDMA是一種遠端內存直接訪問技術,具有高速、超低延時和極低CPU使用率的特點,最早專屬於Infiniband架構,隨著網路融合大趨勢,出現RoCE和iWARP,使得RDMA得以部署在目前使用最廣泛的乙太網上。
目前其他可擴展處理器使用的是專用網路協議,而Gaudi使用的是通用乙太網協議,這使得客戶可以輕鬆將Habana硬體放進現有的數據中心,使用各網路提供商提供的標準乙太網交換機來構建AI集群。
之前NVIDIA創始人兼CEO黃仁勛也在GTC 2019的主題演講中,特意提到scale up(縱向擴展)和scale out(橫向擴展),他認為scale up帶來的回報並不十分有效,而scale out最好辦法是在傳統乙太網上支持RDMA。
而被NVIDIA以69億美元的高價收購的數據中心InfiniBand網路的絕對王者——以色列創企Mellanox,其核心技術正是RDMA。
Habana Labs團隊對NVIDIA的這一觀點非常認同,以此為基礎,他們發展出和NVIDIA並不完全相同的路徑。
NVIDIA Tesla V100支持RDMA需要通過PCIe交換,而Habana Gaudi單晶元直接與RoCE RDMA相連,此外Gaudi片上集成了10個100GbE RoCE RDMA,數量上比NVIDIA更多。
在Gaudi內部的10個乙太網埠中,有7個用於連接其他的Gaudi處理器,餘下3個埠則可以用於外部連接,這消除了對NIC的需求。
憑藉Gaudi處理器,Habana Labs的客戶亦可利用標準乙太網交換進行AI訓練系統的縱向擴展和橫向擴展。
另外,與Habana的標準設計相比,基於GPU的系統依賴於專有的系統介面,對系統設計人員來說,這從本質上限制了可擴展性和選擇性。
二、兩種規格計算卡,媲美NVIDIA DGX-1的超級計算系統
Gaudi處理器配備32GB HBM-2內存,目前提供兩種規格:
HL-200 – PCIe卡,設有8個100Gb乙太網埠,可以直接替換現有伺服器中的V100卡;
HL-205 – 基於OCP-OAM標準的子卡,設有10個100Gb乙太網埠或20個50Gb乙太網埠。
另外,Habana推出了一款名為HLS-1的8-Gaudi系統,這個系統中沒有主處理器,配備了Habana自己的8個HL-205子卡、4個PCIe外部主機連接器和24個用於連接現有乙太網交換機的100Gbps乙太網埠,讓客戶能夠通過在19英寸標準機櫃中部署多個HLS-1系統實現性能擴展。
它的全交叉(all-to-all)連接允許在所有8-Gaudi處理器上進行訓練,而不需要任何外接乙太網交換機。
客戶可以根據其應用需求選擇不同CPU來進行AI加速,也就是說Habana Labs實現CPU伺服器與加速系統間的解耦合,兩者之間相互獨立、各自更新升級,這樣就為客戶提供了更高的靈活性,使得客戶可以自由選擇CPU伺服器,通過埠間的連線實現對接。
Eitan Medina介紹說,一個基於Gaudi HLS-1標準介面的全機架可提供前所未有的模塊化和靈活性,有效支持AI計算架構日益增長的需求。
在系統內部,8個晶元傳輸無阻塞。對外,系統之間橫向擴展,可以保證數據以最小阻塞比進行傳輸。
每個系統對外可以連接到一個單獨的乙太網交換機,這個交換機可以被進一步連接到其他機架,以形成擁有成百上千個Gaudi處理器的更大規模的訓練集群。
HLS-1可以基於客戶的功能組成不同的形態,客戶可以選擇設計自己的專屬系統,在對內連接和對外可擴展連接之間形成一個特殊的平衡,以適配他們的工作負載。
每個HLS-1內置8個HL-205子卡,這與DGX-1中內置的V100數量相同,而除此這一共同點外, HLS-1和NVIDIA DGX-1超級計算機主要存在4處不同:
1、DGX-1使用私有協議NVLink,這種互聯方式只能實現片與片之間的互聯,不能實現跨越式連接; HLS-1的片上計算和標準RDMA RoCE使其可以同時做到縱向擴展和橫向擴展。
2、DGX-1的內部互聯存在阻塞,HLS-1的全交叉互聯無阻塞。
3、每個DGX-14有4個對外的100Gb乙太網埠,每個 HLS-1擁有24個對外的乙太網埠。
4、DGX-1的PCIe在傳輸性能上有損失,而HLS-1和傳輸和管理走不同的線,不會出現復用情況,因此不會造成外部主CPU的傳輸瓶頸。
Gaudi是一款完全可編程且可定製的處理器,搭載了第二代Tensor處理核 (TPC) ,並集成開發工具、庫和編譯器,這些軟體工具共同提供全面而靈活的解決方案。基於其DSP架構,Gaudi的軟體協議棧擁有很大靈活性。
Gaudi的軟體支持服務則與Goya基本一致,包括SynapseAI軟體棧和開發工具,使用過Goya的客戶可以無障礙沿用其軟體開發工具。
SynapseAI軟體棧是Habana的定製開發編譯器和運行時,包含一個豐富的內核庫和開放工具鏈,以供客戶添加專有內核。
例如,16個Gaudi系統,對內的全交叉連接可以用50GbE乙太網埠來實現,這樣還能剩下32個100GbE的乙太網埠用於對外,封裝這16個Gaudi系統的盒子不需要額外組件,只需要用電纜線連接起來即可實現擴展。
多數深度學習訓練使用數據並行化來構建,基於數據並行化,分層遞階約簡成為可能,這種並行化數據處理器的優勢是實現大規模計算,並且保證計算效率。
客戶可以在每個盒子中集成乙太網交換機,在盒子中,客戶可選擇通用乙太網交換機,用交換機里的一些埠可以實現內部互聯,其餘埠用於對外互聯。這種連接方式可以建立有1000片Gaudi的系統。
模型的並行化處理是把大模型分成若干個小模型,分給不同處理器來處理,在模型並行化中,最大挑戰是處理器間通信帶寬,Gaudi處理器做了很多通信埠,以保證充足的通信帶寬。
模型並行化處理中,DGX-2提供的NVLink埠有限,最多支持16個GPU連在一起,而Gaudi可以做到成百上千個並行化模式處理。
這也是為什麼RDMA被集成到晶元中,通過內置標準乙太網介面,以及提供支持標準規範的模組,客戶可以擁有更自由的選擇權,未來訓練的邊界也被進一步擴展。
三、首代AI推理處理器:性能比NVIDIA T4高3倍
2018年9月,Habana Labs的首款AI推理處理器Goya發布,同期面向客戶銷售,並在去年第四季度實現量產。如今9個月過去了,Eitan Medina說,Goya仍然是市場上性能最領先的AI推理晶元。
AI推理市場正在不斷增長,據Eitan Medina介紹,現在市面上還沒有達到完全令人滿意的產品,他們90%客戶還是使用CPU做推理和預測,但這些客戶也在尋找更高吞吐量、更低延遲和功耗、更小尺寸和更低成本的產品,而Goya能為他們帶來這些性能的改善。
Goya處理器擁有兩大特性:專為AI設計,軟體可編程。另外它還有三大優勢:高算力、高性價比、允許多個用戶共享計算資源。
如圖,在ResNet-50模型的推理測試中,Goya的性能遠超過NVIDIA、賽靈思、英特爾等公司的AI推理晶元,幾乎是NVIDIA Tesla T4的3倍。
另外,Eitan Medina表示,Goya的能耗比比T4高2倍,實時處理速度也比GPU更快。
據悉,在數據中心,3片Goya計算卡每秒處理45000張圖片,等同於8個NVIDIA Tesla V100 GPU、169個CPU伺服器所達到的性能。
而實現如此高性能的關鍵,在於Habana Labs研發的創新架構。
GPU和CPU面向通用計算,並不完全適合處理AI任務,但Habana的AI處理器架構完全為AI設計。它採用張量處理核心(TPC,Tensor Processor Core),擁有矩陣乘加的加速單元,支持FP32、INT32等混合精度數據類型。這種架構使得Goya能支持各種神經網路。
Eitan Medina認為,AI推理的關鍵是計算能力和延時,而數據中心計算中,批處理時不同的batch size會對這兩點產生很大影響。
batch size即一次性餵給AI模型訓練的樣本量,同樣的訓練數據集,如果batch size大,訓練的次數就會變少。小的batch size隨機性更強,可能導致模型難以收斂;而通常batch size越大,梯度方向會越準確,但泛化能力也會變差,還會導致較長的延時。
而Goya能做到在一次迭代過程僅處理一張圖,也就是batch size=1時,做到1秒處理7107張圖片。
雲計算廠商通常按單卡形式租給用戶,但Goya有更低的延時,可以實現單卡被多個用戶共享,保證用戶在使用過程中的低成本、低延時,保證用戶獲得好的服務體驗。
另外一個在AI推理中受關注的參數是推理的精度。
通常在推理和預測中,傳統的處理器是通過浮點訓練的模型做整型化,必然會造成信息丟失,影響最終精度。
而Goya採用混合精度架構,整個精度損失非常小,模型在量化過程中不需要微調或重新訓練。
在推理和訓練中,軟體架構同樣至關重要。很多數據中心的現有AI相關工作主要在CPU和GPU來完成,因此Habana面臨的挑戰是如何實現良好的遷移,使得客戶之前基於其他處理器所做的工作能夠快速部署到Goya平台上。
Eitan Medina稱,很多人不相信Habana這樣一家剛成立幾年的客戶能提供如此完善的軟體環境,但在美國和中國,很多客戶已經體驗了Goya產品,並給出很好的反饋,驗證了這一環境十分有效。
其軟體棧叫Synapse AI,支持TensorFlow、Pytorch等多種主流AI框架。在上層,與各種主流框架有一個介面,和Habana Labs的圖形編譯器、庫、運行時等相連接。其軟體棧也支持客戶定製化函數庫,還提供優化客戶定製化工作的工具,給客戶儘可能大的靈活度。
另外,Synapse AI支持客戶的訓練在CPU、GPU、TPU、Gaudi等不同的處理器架構上實現,和Habana Labs的推理和預測產品之間相互獨立。
Facebook開發了一款機器學習編譯器Glow,而並在官網上標明Goya是第一款支持Glow編譯環境的產品。
Facebook技術和戰略總監Vijay Rao表示:「Facebook正在尋找開放的平台以進行行業創新融合。我們很高興看到Habana Labs的Goya人工智慧推理處理器為Glow機器學習編譯器實現後端開源,並且Gaudi人工智慧訓練處理器採用OCP加速器模塊 (OAM) 規範。」
Goya的另一個工作是將其驅動提供給Linux,用戶只需下載最新Linux版本,就可以看到集成在Linux中的Goya。
結語:AI晶元創企共臨問題:落地與生態
Habana Labs首席執行官David Dahan表示,AI模型訓練所需的計算能力每年呈指數增長。因此,提高生產率和可擴展性,解決數據中心和雲計算對算力的迫切需求成為至關重要的任務。
面向對高性能AI晶元擁有剛需的數據中心領域,Habana Labs已經將其產品組合從AI推理處理器擴展到AI訓練處理器,以高性能、低功耗、可擴展、可編程等特性,提供又一種新的雲端AI晶元選擇。
但NVIDIA之所以能多年穩坐雲端AI晶元的霸主之位,除了其GPU擁有和深度學習相契合的大規模並行計算能力外,其被CUDA軟體平台也功不可沒,正是GPU CUDA的強強聯手為NVIDIA積累起龐大的用戶群,以此為基礎建立越來越完善的生態系統。
Habana Labs的雲端AI晶元在性能上已經有所突破,而下一步就是所有雲端AI晶元創企共同面臨的問題:落地、穩定增長、還有修築起穩健的生態。


※榮耀20兩周破百萬銷量,明日榮耀20 PRO開售必將再創奇蹟
※Facebook更新AI Habitat虛擬空間訓練集
TAG:智東西 |