華為最強雲端AI晶元揭秘：性能超NVIDIA/Google

科技 09-02

出處：芯智訊??作者：林子

在去年10月10日的2018華為全聯接大會（HUAWEI CONNECT）上，華為輪值CEO徐直軍公布了華為全棧全場景AI解決方案，並正式宣布了兩款AI晶元：算力最強的昇騰910和最具能效的昇騰310。

經過近一年的時間。今天（8月23日），華為正式宣布昇騰910成功商用，同時推出全場景AI計算框架MindSpore。

最強AI晶元昇騰910

跟之前公布的參數一樣，昇騰910是目前單晶元計算密度最大的晶元，採用7nm增強版EUV工藝，單Die內建32顆達芬奇核心，半精度(FP16)算力達到256 Tera-FLOPS，整數精度 (INT8) 算力達到512 Tera-OPS，最大功耗為350W。支持128通道全高清視頻解碼器- H.264/265。

另外根據華為此前公布昇騰910的性能與Google TPU v2、Google TPU v3、NVIDIA V100對比數據來看，昇騰910的算力比NVIDIA V100還要高出一倍，計算力遠超Google及NVIDIA。

現場，徐直軍先介紹了華為AI解決方案，以及基於昇騰310的產品和雲服務的廣泛應用。

接著，徐直軍說：「我宣布，算力最強的AI處理器 Ascend 910 正式推出。去年10月，我們發布了Ascend 910的技術規格，今天我向大家介紹最新的實際測試結果。」

昇騰910屬於Ascend-max系列，徐直軍公布了其最新測試結果：

半精度 (FP16)算力達到256 Tera-FLOPS

整數精度 (INT8) 算力達到512 Tera-OPS

而且，達到規格算力所需功耗僅310W，明顯低於設計規格的350W。

也就是說，在算力方面，昇騰910完全達到了設計規格，下面是昇騰910初次亮相時公布的設計規格。

徐直軍說，昇騰910總體技術表現超出預期。昇騰910已經被用於實際AI訓練任務。其中，在典型的ResNet-50 網路的訓練中，昇騰910與MindSpore配合，與現有主流訓練單卡配合TensorFlow相比，顯示出接近2倍的性能提升。每秒訓練的圖片數量從965張提升到1802張。

徐直軍現場表示：「昇騰910總體技術表現超出預期，作為算力最強AI處理器，當之無愧！」

高算力、高集成度、高速互聯，便共同鑄造了?業界最強大的 AI 處理器 ——?昇騰 910。

基於達芬奇架構的 AI 核是計算核心。除了標量和矢量計算單元，AI 核集成了?3D 立方體計算引擎，能夠在一個時鐘周期內完成 4096 的乘加運算。

與 CPU 和 GPU 相比，有兩個數量級的提升，昇騰 910?集成了 32 個立方體計算引擎，能夠輸出 256TFLOPS。

它不僅是一顆強大的 AI 計算處理器，而且還是一個高度集成的片上系統，集成了 CPU、DVPP 以及任務管理器。

這些單元給昇騰 910 提供了一種「自治」能力，使其可以獨立完成整個 AI 的訓練流程，最小化與 Host 的交互，從而充分發揮其算力。

創建一個強大的訓練系統不僅需要晶元自身強大的算力，高效的通信機制也是必不可少的。

昇騰 910 集成了?HCCS、PCIe?和?RoCE?三種高速介面。

其中，自研的 HCCS 可以提供單介面 240Gbps 的傳輸。

也正是採用了最新的 PCIe，使得吞吐量比上一代翻倍。

而晶元上集成的 RoCE 介面，則為多節點間提供了高效的數據交互的互聯方案，這些互聯技術大幅提升了構建訓練系統的性能和靈活性。

最後，現場有記者問道，昇騰 910 售價多少呢？畢竟我們知道NVIDIA GPU和Google TPU都有定價。

徐直軍笑道：「售價具體還沒定出來，但肯定不會比他們（NVIDIA GPU和Google TPU）高。」

昇騰310和昇騰910僅僅是一個開始。徐直軍表示，未來將持續投資，推出更多的AI處理器，面向邊緣計算場景，在已經商用Ascend 310基礎上，計劃2021年將推出Ascend 320。上面是昇騰處理器的一系列計劃時間表，可以看到，該系列晶元覆蓋訓練、MDC/DC、邊緣計算多種場景，即將在2021年推出用於訓練場景的昇騰920，邊緣計算場景的昇騰320。MindSpore 全場景AI計算框架，明年Q1開源！

此外，徐直軍還發布了全場景AI計算框架 MindSpore，並宣布「MindSpore將在2020年Q1開源」！

徐直軍表示：能否大大降低AI應用開發的門檻，能否實現AI將無處不在，能否在任何場景下確保用戶隱私得到尊重和保護，這些都與AI計算框架息息相關。

在去年HC會上，華為提出：AI框架應該是開發態友好（例如顯著減少訓練時間和成本）和運行態高效（例如最少資源和最高能效比），更重要的是，要能適應每個場景包括端、邊緣和雲。

一年後的今天，全場景AI計算框架MindSpore在這三個方面都取得了顯著的進展：在原生適應每個場景包括端，邊緣和雲，並能夠按需協同的基礎上，通過實現AI演算法即代碼，使開發態變得更加友好，顯著減少模型開發時間，降低了模型開發門檻。

MindSpore如何做到更快更高效？

MindSpore秉承「AI演算法即代碼」理念，提供一系列的關鍵技術，例如MindSpore自動微分，採用Source 2 Source方式實現，在性能和可編程性上，明顯優於業界圖和運算符重載方式。能夠實現任意運算元的微分表達和編譯優化，同時實現反向運算元自動生成，極大地方便了模型開發。

而隨著數據集和模型規模越來越大，模型並行將成為必然趨勢。相比手工切分的模型並行的門檻高、效率低、調優難，MindSpore只需定義單機模型，即可自動實現多機混合併行運行，無需了解AI集群細節。主從控制模式中，CPU和GPU交互引入內存和數據開銷。MindSpore在晶元上完成神經網路模型訓練的所有控制和執行，減少和主機CPU的交互時間，速度更快。並在已有的分散式訓練方案引入中心控制來尋找梯度同步點，MindSpore實現了去中心化的分散式梯度聚合，完全消除控制開銷。

最終，軟硬體優化為不同類型運算元映射最佳的計算單元和數據布局，獲得最佳的性能。

通過MindSpore自身的技術創新及MindSpore與Ascend處理器協同優化，實現了運行態的高效，大大提高了計算性能。除了昇騰處理器，MindSpore也支持GPU、CPU等其它處理器。

現在已有了TensorFlow、PyTorch框架，但還沒有任何一個現有框架支持全場景，而這就是華為要做的——覆蓋端-邊緣-雲，做一個能支持全場景的框架，實現AI無所不在越來越基礎的需求，這也是MindSpore的重要特色。

針對不同的運行環境，MindSpore框架架構上支持可大可小，適應全場景獨立部署。同時，MindSpore框架通過協同經過處理後的、不帶有隱私信息的梯度、模型信息，而不是數據本身，以此實現在保證用戶隱私數據保護的前提下跨場景協同。除了隱私保護，MindSpore還將模型保護Built-in到AI框架中，實現模型的安全可信。

為了降低AI開發者的開發門檻，MindSpore創造性地實現了AI演算法即代碼，使開發態變得更加友好，顯著減少模型開發時間。以一個NLP（自然語言處理）典型網路為例，相比其他框架，用MindSpore可降低核心代碼量20%，開發門檻大大降低，效率整體提升50%以上。

華為全棧全場景AI解決方案已經完成最後，徐直軍說，去年在HC大會上發布的全棧全場景AI解決方案已經完成了構建！這對華為的AI業務來講是一個新的里程碑，更是一個新的開始！

昇騰910商用以後，華為雲AI將為客戶提供充裕經濟的算力。通過MindSpore，華為雲讓科學家更高效地完成AI運算元開發（比如自動微分功能），縮短開發周期，減少開發工作量。同時，MindSpore可以發揮出昇騰晶元最大計算潛能，這樣軟硬體協同可以更好地利用晶元算力。華為雲致力於解決AI應用過程中面臨的「貴」和「難」的問題，降低AI計算的門檻，實現普惠AI。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 砍柴網 的精彩文章:

※最高超標 312 倍！「小毒鴨」還在從拼多多流向兒童
※nice 融了錢後會變得更 nice 嗎？

TAG:砍柴網 |