超越英偉達V100，這家以色列公司發布了挑戰GPU的AI訓練晶元

新聞 06-20

機器之心報道

作者：李澤南

6 月 17 日，以色列晶元公司 Habana.ai 發布了 Gaudi HL-2000，這是一款定製化 AI 處理器。該公司稱，全新的 Gaudi 處理器性能超過了目前在訓練神經網路任務中最為強大的英偉達 Tesla V100——而且性能是後者的近四倍。

昨天，在北京舉行的人工智慧大會（O"Reilly AI Conference）上，Habana 向我們詳細介紹了新產品的特性。

超越英偉達V100，這家以色列公司發布了挑戰GPU的AI訓練晶元

打開今日頭條，查看更多圖片

Habana Labs 首席商務官 Eitan Medina 在活動中向我們介紹了 Habana 的強大技術。

在這塊晶元之上，Habana 也推出了 PCIe 4.0 介面板卡，以及一台 8 處理器的伺服器。Habana 表示，這些設備可以成為訓練超大規模數據集的基礎。

Gaudi 並不是 Habana 在人工智慧晶元上的第一次嘗試。這家晶元公司成立於 2016 年，在去年 9 月，Habana 曾推出名為 Goya 的人工智慧推理晶元，並已擁有很多客戶。而在去年 11 月，Habana 完成了價值 7500 萬美元的 B 輪融資，英特爾是其領投方。

領先的推理晶元 Goya

去年 9 月，Habana 公司推出的 Goya 人工智慧晶元著實吸引了一把眼球。其在 ResNet-50 上，四倍於英偉達 Tesla T4 的處理性能，兩倍的能耗比，僅僅 1.01ms 的處理延遲讓人們感受了 ASIC 的強大能力。

「我們在 2018 年 9 月發布了推理晶元 Goya，並於年底將產品推向用戶。在九個月後的現在，這款產品仍然是在市場上領先的。」Habana Labs 首席商務官 Eitan Medina 表示。

超越英偉達V100，這家以色列公司發布了挑戰GPU的AI訓練晶元

Habana 拿出了英偉達在 GTC 上經常使用的比較方式：與目前最強勁的 GPU 相比，8 塊 Tesla V100 的算力相當於 169 個傳統 CPU————而相同情況下只需要 3 塊 Goya 計算卡就能完成任務。

為何在更小的功耗下，Habana 的晶元有著更強的機器學習算力？答案在於架構。「CPU 和 GPU 的架構是以解決和深度學習完全不同的任務為導向構建的，CPU 面向通用計算，GPU 面向圖形處理，」Habana 首席商務官 Eitan Medina 介紹道。「在人工智慧方面，GPU 的成功幾乎是『偶然』的，因為它具有更高的並行度。然而如果你從零開始，觀察神經網路的特性的話，投入足夠精力，你就可以獲得一個更好的架構。」這就是 Habana 正在做的事。

Goya 是一種採用 PCIe 4.0 介面的計算卡，雙槽位，全高全長，可以直接兼容現有伺服器的介面，帶來更強算力。Habana 表示，目前該公司已經獲得了 20 余個客戶，這些公司正在評估這種新類型的晶元。

可以「無限擴展」的 AI 訓練晶元 Gaudi

人工智慧的訓練任務需要使用大型數據集，讓模型經過前向傳播、反向傳播不斷更新權重，從而讓演算法展現出「智力」。在訓練模型時我們需要著重考慮準確度，同時存在大量數據吞吐及並行化的運算。

而在深度學習的推斷/預測時，模型通常只需要使用前向傳播，延遲成為了關注的重點。

不同的需求意味著只有使用不同種類的晶元才能在兩個方面都實現高效率。目前，人們通常使用 CPU 處理推斷任務，GPU 用於訓練，英偉達的 GPU 很長一段時間是不分訓練和推理的，但現在也有了 Tesla T4 這樣專攻推理的晶元。

Habana 很早意識到了這一點，所以其產品線分為推理和訓練。

最近推出的 Gaudi 晶元專門用於深度學習模型的訓練，採用台積電 16nm 製程。在 ResNet-50 模型的訓練中，其每秒可以處理 1650 張圖片（batch = 64）。在完整伺服器系統條件下的對比中，同為 650 個處理器，Gaudi 的處理能力是英偉達 Tesla V100 的 3.8 倍。

超越英偉達V100，這家以色列公司發布了挑戰GPU的AI訓練晶元

這並不是 Gaudi 唯一的優勢，Habana 花費大量時間介紹了其晶元使用乙太網互聯的優勢。「我們認為晶元之間最好的連接方式是 RDMA，它最早只出現在 Infinite Band 中，現在已能用於標準的乙太網環境中了。」Medina 表示。

Gaudi 是今天唯一的，可以在晶元里集成 RDMA 的晶元。而且 Gaudi 中集成了 10 個 100GbE 帶寬的 RoCE RDMA 乙太網埠。這意味著 Habana 的用戶可以用常規乙太網環境實現擴展。這非常特別，因為其它廠商都在用特殊的連接方式，而 Gaudi 使用的是通用的乙太網環境。

超越英偉達V100，這家以色列公司發布了挑戰GPU的AI訓練晶元

相比之下，英偉達的 Tesla V100 只有 1 個 100 Gb RDMA Nic，還需要有 PCIE Switch 進行互連——而 Habana 的產品把網路埠集成在晶元內，可以實現更強的並行化。

並行處理就是在訓練過程中把任務分解到每個處理器上，再通過高速網路把運算結果聯繫到一起。Habana 的晶元通過乙太網鏈接可以實現樹狀結構的層級化，達到接近完美的吞吐效率。

「DGX-2 的 NVLink 埠擴展性有限，最大支持 16 塊 GPU 的並行處理，而 Gaudi 可以支持對外的互聯，做到幾百塊處理器的並行化。」Medina 說道。

超越英偉達V100，這家以色列公司發布了挑戰GPU的AI訓練晶元

在大規模並行運算的情況下，Gaudi 可以實現 Tesla V100 接近四倍的性能。Habana 稱，在單卡情況下 Gaudi 的處理速度也有 Tesla V100 的 2.7 倍，而功耗僅為後者的一半。

在 Gaudi 與 Goya 晶元推出之後，Habana 已經擁有了人工智慧商業化晶元的完整解決方案。

「從零開始設計晶元」

Habana 的深度學習處理架構被稱為 Tensor Processor Core（TPC），而 Goya 晶元中還集成了 GEMM 矩陣乘加單元，這可以讓 Goya 處理不同類型的模型。

這家公司的開發者們認為，人工智慧晶元要在計算能力和延遲上都表現完美，而以往出現在很多論文中「幾分鐘訓練 ResNet」並不是真正能夠應用在生產環境中的方式。

「在 ResNet-50 的訓練上，批尺寸這一參數很重要。採用 GPU 訓練通常需要很大的 batch size，而 Goya 可以用很小的 batch size 實現高效率訓練，在計算時可以讓它設置為 1、5 和 10，這樣訓練延遲也可以很低。」Eitan Medina 表示。

低延遲的體驗對於自動駕駛等場景具有優勢。而在雲計算環境下，目前的 AI 雲服務無法對單卡再做虛擬化分配，但 Goya 因為計算的延遲很低，可以把一張 Goya 卡分成 7 個部分分給用戶，並保持高效率。這樣意味著 Habana 的客戶可以進一步提高利潤，降低雲服務價格。

由於目前的大多數深度學習模型都在 CPU 或 GPU 上完成訓練，Habana 為客戶提供了一套環境，可以幫助開發者快速部署產品。其軟體名為 SynapseAI，支持 ONNX、MXNet、TensorFlow、Caffe2、PyTorch 等深度學習框架與模型交換格式。

「如果人們使用其他架構訓練模型，將其部署在 Goya 的推理和預測平台上不會有任何問題。」Medina 稱。

Habana 正努力幫助構建開源社區，因此也收到了一些回報。去年 facebook 開源的深度學習編譯環境 Glow 就首發支持了 Habana 的晶元，此外，Linux 也已集成了 Goya 的驅動。

對於期待使用專用晶元處理人工智慧任務的公司來說，Habana 提供的晶元可以帶來最大的靈活度。

超越英偉達V100，這家以色列公司發布了挑戰GPU的AI訓練晶元

Habana 的願景是成為人工智慧晶元領域的領導者。這家公司目前已有 150 名員工，其中大多數為研發人員。公司在以色列、波蘭兩地成立了研究中心，另外在美國加州和中國也設有分支機構。

「訓練 AI 模型所需的算力每年都以指數級增長，硬體設備必須滿足這種迫切需求，並大幅提高生產力和可擴展性。憑藉 Gaudi 的創新架構，Habana 可以帶來業界最強的性能，結合標準乙太網連接，實現無限的可擴展性，」Habana Labs 首席執行官 David Dahan 表示。「Gaudi 將打破人工智慧訓練處理器的現狀。」

未來，Habana 計劃每 9 個月推出一款新產品。明年這家公司即將推出基於 7nm 製程的新一代推理晶元。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※前谷歌員工解鎖智能音箱新玩法：客房裡的注意力商人
※真正的神經網路，敢於不學習權重

TAG:機器之心 |