華為史上最強晶元昇騰910面世，算力超Tesla V100一倍，AI框架MindSpore明年開源

知識 08-23

機器之心報道

機器之心編輯部

這是迄今為止華為推出的最強晶元。剛剛，華為在深圳宣布其自研的 AI 訓練晶元「昇騰 910」正式上線。與此同時，一同推出的還有華為全場景 AI 計算框架 MindSpore。

華為表示，全新的人工智慧晶元「昇騰 910」主要面向 AI 數據科學家和工程師，其算力已達到全球領先水平，遠超谷歌的 TPU v3 和英偉達最新的 GPU Tesla V100。配合 MindSpore 開源框架，華為一次滿足了終端、邊緣計算、雲全場景需求，讓晶元的強大算力能夠以最高效的方式被人們利用。

昇騰 910 也是華為「達芬奇架構」最大的一款晶元。去年 10 月，華為在全聯接大會（HC）上宣布了達芬奇計劃，其中用於人工智慧訓練的昇騰 910 晶元格外引人注目。它被認為是全球單晶元計算密度最大的 AI 晶元。今天，華為在深圳的發布讓我們終於能夠和它見面，人們可以在華為雲服務中使用這些晶元了。

華為公司輪值董事長徐直軍表示，「華為自 2018 年 10 月發布 AI 戰略以來，穩步而有序地推進戰略執行、產品研發及商用進程。昇騰 910、MindSpore 的推出，標誌著華為已完成全棧全場景 AI 解決方案的構建，也標誌著華為 AI 戰略的執行進入了新的階段。」

華為首款 AI 訓練晶元昇騰 910

面向伺服器的晶元昇騰（Ascend）910 採用 7nm 製程，而設計功耗為 310W，其算力比英偉達 Tesla V100 還要高出一倍，半精度（FP16）達到了 256 TeraFLOPS（英偉達 Tesla V100 為 125），整數精度算力（INT8）則為 512TeraOPS。在這塊晶元上，華為還加入了 128 通道全高清視頻解碼器。此外，華為表示，昇騰 910 達到規格算力所需功耗僅 310W，明顯低於設計規格的 350W。

圖：昇騰910與谷歌TPU、英偉達v100對比

徐直軍表示：「昇騰 910 完全達到了設計規格，在同等功耗下擁有的算力資源，達到了業內最佳水平的兩倍。它已經應用在實際的服務中，比如在典型的 ResNet50 網路的訓練中，昇騰 910 與 MindSpore 配合，與現有主流訓練單卡配合 TensorFlow 相比，顯示出接近 2 倍的性能提升，每秒處理的圖片數量從 965 張提升到了 1802 張。」

在發布晶元的同時，華為還推出了大規模分散式訓練系統 Ascend 集群，在設計中，該集群將包括 1024 個 Asced 910 晶元，算力達到 256P，大幅超過英偉達 DGX2 和谷歌 TPU 集群。

一次開發，全面部署：MindSpore

強大的硬體也需要 AI 開發框架才能釋放全部潛能，MindSpore 是華為提出的全場景 AI 框架，與 TensorFlow、PyTorch、PaddlePaddle 等框架並列。

未來的 AI 應用由任務驅動，在不同場景中機器學習模型的部署方式不同；另一方面，隨著技術的快速發展，新方法引出的安全問題和算力瓶頸成為了人們面臨的重要挑戰。

MindSpore 是一款支持端、邊、雲獨立的和協同的統一訓練和推理框架。華為希望通過這款完整的軟體堆棧，實現一次性運算元開發、一致的開發和調試體驗，以此幫助開發者實現一次性開發，應用在所有設備端、邊緣及雲端平滑遷移的能力。

「MindSpore 框架支持從大到小的所有設備，同時也支持本地的 AI 計算，從而實現隱私保護，」徐直軍表示。「這種框架傳遞給雲端的數據可以是處理後的、不帶有隱私信息的梯度、模型信息，而非數據本身，以此實現在保證用戶隱私數據保護的前提下跨場景協同。除了隱私保護，MindSpore 還將模型保護 Built-in 到 AI 框架中，實現模型的安全可信。」

MindSpore 原生適應所有的 AI 應用場景，並能夠按需協同的基礎上，通過實現 AI 演算法即代碼，使開發態變得更加友好，顯著減少模型開發時間。以一個 NLP（自然語言處理）典型網路為例，相比其他框架，用 MindSpore 可降低核心代碼量 20%，開發門檻大大降低，效率整體提升 50% 以上。

MindSpore 和昇騰處理器結合可以顯著提高 AI 負載的處理效率，不過即使用戶採用常規的 CPU、GPU，這一框架也能提供全面支持。

在這一框架中，運算元庫 CANN 面向人工智慧不斷出現的多樣性運算元，兼顧了高性能和高開發效率。TensorEngine 實現了統一的 DSL 介面、自動運算元優化、自動運算元生成，以及自動運算元調優功能。值得一提的是，華為在 Tensor Engine 中採用了陳天奇等人提出的 TVM。華為稱，CANN 可以實現 3 倍的開發效率提升。華為表示，MindSpore 同時也支持目前所有主流深度學習框架中的模型。

在框架之上，華為還為開發者提供了更為高級的 ModelArts，這是一個機器學習 PaaS，提供全流程服務、分層分級 API 及預集成解決方案。去年發布 ModelArts 後，目前的日均訓練作業任務超過 4000 個，已經擁有了超過 3 萬名開發者。

基於達芬奇架構的統一性，開發者在面對雲端、邊緣側、端側等全場景應用開發時，只需要進行一次運算元開發和調試，就可以應用於不同平台，大幅降低了遷移成本。

在發布會上，徐直軍還宣布 MindSpore 將在 2020 年的第一季度開源，希望以此助力每一位開發者，促進 AI 產業生態發展。「華為在生態建設上有自己的優勢，」徐直軍表示。「我們在智能終端上的 HiAI 引擎，可以讓所有開發者基於異構計算的算力實現多種智能化服務。通過最強算力和先進框架的結合，我們可以打造很多其他框架做不到的事情。」

隨著昇騰處理器和 MindSpore 等產品的推出，華為的全場景 AI 戰略已經向我們展現無餘。

華為達芬奇計劃

華為的達芬奇架構此前已經隨著昇騰 310 晶元，和 7 月份剛剛推出的麒麟 810 手機處理器為我們揭開了面紗。華為希望通過這一自研架構的多種處理器，接管未來人工智慧場景中的所有計算任務。

在達芬奇架構的處理器中，Da Vinci Core 只是 NPU 的一個部分，Da Vinci Core 內部還細分成很多單元，包括核心的 3D Cube、Vector 向量計算單元、Scalar 標量計算單元等，它們各自負責不同的運算任務實現並行化計算模型，共同保障 AI 計算的高效處理。

其主要結構分為三個部分：

3D Cube 矩陣乘法單元。矩陣乘是 AI 計算的核心，這部分運算由 3D Cube 完成，Buffer L0A、L0B、L0C 則用於存儲輸入矩陣和輸出矩陣數據，負責向 Cube 計算單元輸送數據和存放計算結果。

向量計算單元雖然 Cube 的算力很強大，但只能完成矩陣乘運算，還有很多計算類型要依靠 Vector 向量計算單元來完成。Vector 的指令相對來說非常豐富，可以覆蓋各種基本的計算類型和許多定製的計算類型。

標量計算單元，主要負責 AI Core 的標量運算，功能上可以看作一個小 CPU，完成整個程序的循環控制，分支判斷，Cube、Vector 等指令的地址和參數計算以及基本的算術運算等。

華為稱，達芬奇架構適用於從手機端到智能設備，再到伺服器端的全部人工智慧模型訓練場景。在首款採用自研 NPU 的麒麟 810 上，華為已經展現了自己的 AI 晶元研發實力（搭載的手機是華為 Nova5 系列）。今天推出的昇騰 910 晶元是目前採用達芬奇架構最大、算力最強的一款晶元。

華為一直在加強投資基礎技術的研究，自 2018 年 10 月發布 AI 戰略以來，一直在穩步推進戰略執行、產品研發及商用進程。昇騰 910、MindSpore 的推出，標誌著華為已完成全棧全場景 AI 解決方案的構建，也標誌著華為 AI 戰略的執行進入了新的階段。

昇騰 310 和昇騰 910 僅僅是一個開始，面向未來，華為還將推出更多的面向所有場景的產品。在 2021 年，華為還將推出下一代晶元昇騰 320，在 9 系列和 3 系列之間的昇騰 610 也將在明年推出。

最後，徐直軍表示：「在今年的華為全聯接大會上，我們還會發布更加震撼的 AI 產品。」此外，華為的下一代旗艦手機處理器麒麟 990 也將在 9 月 6 日與我們見面。

WAIC 2019 開發者日將於 8 月 31 日在上海世博中心舉辦，包含 1 個主單元、4 個分單元、黑客馬拉松比賽和開發者診所互動區。

屆時，全球頂尖 AI 專家、技術大牛、知名企業代表以及數千名開發者將齊聚上海，圍繞人工智慧前沿理論技術和開發實踐進行分享與解讀。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※他們創造了橫掃NLP的XLNet：專訪CMU博士楊植麟
※一個暗示特斯拉自動駕駛取得「驚人進步」的視頻，讓網友炸了鍋

TAG:機器之心 |