AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

新聞 09-28

新智元AI WORLD 2018

演講：張清，浪潮AI首席架構師

編輯：木青

【新智元導讀】在未來，AI計算系統將要面臨計算平台優化設計、複雜異構環境下計算效率、計算框架的高度並行與擴展、AI應用計算性能等挑戰，提高整個AI計算系統的性能與效率迫在眉睫。為應對上述挑戰，浪潮AI首席架構師張清在AI WORLD 2018世界人工智慧峰會上分享了《AI計算系統設計與優化：從實驗到生產》。

AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

在深度學習激發的人工智慧熱潮下，許多創新力很強的企業的人工智慧技術正逐步從研究實驗走嚮應用與生產，在這一過程中，AI計算系統設計與優化的重要性愈發明顯。

同時演算法的發展對整個計算需求所造成的挑戰會變得更大，提高整個AI計算系統的性能與效率迫在眉睫。

在機遇與挑戰的雙重推動下，有創新力的AI企業會研發出怎樣的產品去面對變革？9月20日，AI WORLD 2018世界人工智慧峰會重磅發布AI領域年度大獎——AI Era創新大獎，評選出2018年度對AI領域作出重大貢獻，切實推動AI進步和發展的人物、企業和產品。本次峰會上，浪潮AI伺服器成功登榜「AI產品影響力TOP10」。

AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

浪潮是知名的AI計算力廠商，致力於從計算平台、管理套件、框架優化、應用加速四個層次打造敏捷、高效、優化的AI基礎設施。浪潮AI伺服器採用創新設計，為AI研發與應用提供領先計算力，多款產品為業界首創，如全球首款在2U空間內高速互聯集成8顆最高性能GPU加速器的伺服器AGX-2、單機可實現支持16個GPU的超大擴展性節點的SR-AI整機櫃伺服器等。9月12日，浪潮又發布了一款AI超級伺服器AGX-5，性能高達每秒2千萬億次，是目前全球最強大的AI計算主機之一。AGX-5也是浪潮在計算量劇增的挑戰之下，追求更高研發效力的新成果。

在未來，AI計算系統將要面臨計算平台優化設計、複雜異構環境下計算效率、計算框架的高度並行與擴展、AI應用計算性能等挑戰。浪潮AI首席架構師張清在AI WORLD 2018世界人工智慧峰會引用去年Jeff Dean報告里的一句話：「事實證明，我們真正需要的是超過現在100萬倍的計算能力，而不僅僅是幾十倍的增長。」

從計算需求來看，AI計算系統的設計與優化之路似乎任重道遠。因此，為應對上述挑戰，張清在本次峰會上從AI計算平台與演算法的Co-design、AI計算平台管理、AI計算框架的高擴展性設計、AI實際應用性能優化這四個方面來分析了AI計算系統設計與優化方法。

下面就是浪潮AI首席架構師張清在AI WORLD 2018世界人工智慧峰會上的演講《AI計算系統設計與優化：從實驗到生產》的主要內容。

AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

張清：大家好！在深度學習激發的人工智慧熱潮下，很多AI創新力很強的企業的人工智慧技術正逐步從研究實驗走嚮應用與生產。在AI研究從實驗到生產過程中，AI計算系統的設計和優化也是非常關鍵。今天我主要想從工程和系統角度談談我的想法。

浪潮主要圍繞計算方面做了很多創新與研究，解決了不同行業、不同場景計算的平台和架構，其中包括產品和方案工作。在人工智慧方面，浪潮也做了較多的創新。

AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

截止到2018年，浪潮AI處於高速增長態勢，AI增速達到600%，比全球150%增長速度幅度快很多，在中國市場，浪潮AI計算份額已達到57%。

在AI計算領域，浪潮不僅是提供基礎的計算平台，除了像GPU、CPU伺服器的供應之外，浪潮還會圍繞AI全棧方案，給到用戶關於系統管理的平台，例如AI Station，這包括性能分析工具Teye，以及高性能高擴展AI計算框架，針對垂直行業，浪潮也提供相關的AI應用方案。

人工智慧仍是最熱技術之一，AI計算領域愈發重要

在本次峰會上，很多專家探討人工智慧是否進入了寒冬時期這一問題？我個人的觀點是：AI現在尚處於起步發展階段，它仍是最熱的一個技術。

從Gartner 2018年數據看到，全球人工智慧市場商業價值一直處於高速增長趨勢，到2018年，所催生的商業價值會達到1.3萬億美元，而未來將會達到接近5萬億美元。從技術成熟度曲線可以看到，未來2-5年會有大量AI技術實現從創新期到成長期的過渡，現在仍有很多AI技術處於爬坡發展階段。

在推動AI發展過程中，有三大要素起著主導作用，除演算法、數據外，計算方面也越來越重要。根據浪潮與IDC研究聯合發布的《2018中國AI計算力發展報告》摘要版數據顯示，2021年計算方面的投資將佔到整個AI投資的近一半以上，2017年至2022年將會達到近6倍的增長。

接下來是關於AI計算的發展趨勢，整個AI計算領域呈現了以下幾大趨勢：

模式：從科研實驗到應用生產；
規模：從單機計算到大規模集群或雲計算；
架構：從通用CPU計算到定製化計算；

AI計算系統設計與優化迫在眉睫

但AI計算髮展趨勢演變過程中面臨著巨大的挑戰：隨著模型所需的精度越高，所需的計算量也會呈現增長趨勢。

AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

引用去年Jeff Dean報告里的一句話：「事實證明，我們真正需要的是超過現在100萬倍的計算能力，而不僅僅是幾十倍的增長。」也就是說，對於未來的我們，演算法的發展對整個計算需求所造成的挑戰會變得更大，提高整個AI計算系統的性能與效率顯得尤為重要。

以下是我們需要去考慮的三個方面的問題：

1.計算規模從單機到集群再到大規模雲計算，規模呈量級、指數級增長，計算複雜度會越來越大；

2.計算架構從單一通用架構CPU+GPU到混合異構架構CPU+GPU+FPGA+XPU，如何在異構並行與協同計算方面考慮如何提升整體系統的效率也變得舉足輕重；

3.系統環境方面，需要單一用戶以及單一場景解決到現在多個用戶、多場景複雜環境的構建，從而提升整個系統效率。

AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

而從這三方面問題的考慮，實際上是對整個系統設計優化分四個層面：

1.如何對AI計算平台做一個合理的設計和構建以及優化；

2.隨著資源變大、計算系統變得更複雜，AI平台管理設計與優化的重要性愈發明顯；

3.需要更快的工具，即AI計算框架優化；

4.AI應用本身的性能優化和演算法設計方面也需要得到重視。

AI計算平台的優化需結合模型演算法、應用場景特點進行Co-Design

AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

對於AI計算平台的設計優化，需要把AI分成訓練和推理兩大部分：

就訓練方面而言，需要構建一個高擴展的計算平台，能夠支撐大規模分散式的並行框架，讓其擴展性更強。而整個系統涉及到網路、存儲、IO的吞吐能否跟上計算，則是需要計算平台架構方面考慮到的問題。

圍繞整個應用、演算法、模型、網路的特點，例如有的模型參數比較密集，對我們系統通信要求比較高，有的計算性能要求比較高，則需要圍繞性能方面考慮如何提升整個系統性能的能力，這裡就需要從本身模型演算法方面做一個Co-Design。

推理方面的複雜性比訓練方面更高，它不僅體現在性能方面，更關心的是用戶的體驗。當對於大規模進行部署雲計算時，我們需要考慮到它的運維成本，需要低功耗平台架構來做支撐。

基於這些考慮，浪潮計算平台圍繞未來AI計算平台，更多是關心演算法模型一些計算的特點，其應用場景的特點，來進行Co-Design的設計。我們在圍繞不同場景方面打造計算平台，試圖能夠更好地解決在特定場景下性能和延時、存儲的問題。

AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

9月12日，浪潮最新發布了AGX-5，它比浪潮上一代AGX-2整體性能會更高，計算性能可達到2 PetaFlops，並且會搭載16×Tesla V100最強GPU來加速性能。在支撐GPU互聯架構方面，現在採用NVSwitch互聯結構，可以支撐8對GPU，每一對GPU之間是300個GB/s，那麼整個帶寬會達到2.4TB/s。另外，相比於此前需要採用模型並行的方式來說，有一些模型在512GB之內不需要做模型並行，支持大模型的訓練。

如何優化AI平台管理？計算資源需要做到共享與獨享

AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

AI不同項目之間，可能每個組之間有小的GPU訓練平台，當規模達到一定量的時候，幾百個卡或更大規模時，整個資源利用率實際上是很低的，可能低於50%以下。

由於AI應用場景越來越多，資源整合和整體利用也變得尤為重要。如何能夠從整體上把這些資源進一步打通，對不同用戶、不同應用進行資源配額優化？計算資源需要做到共享與獨享。

在推理應用方面時，需要考慮計算資源的負載均衡策略優化。結合AI計算全流程，從數據預處理、開發、訓練到推理上線，對一個平台的資源進行管理。

AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

基於這方面，浪潮AIStation計算管理平台應運而生，它可以針對不同應用採用比較便於安裝的方式，利用容器化的方式進行打包、安裝和部署，只需一鍵便能實現。此前，部署一套框架需要1-2周的時間，並且需要靠人為方式去安裝，而現在，靠容器方式就可以實現。並且也支持可視化調試，加快模型開發時間，並且實現整個計算資源的統一管理和調度。

從實際案例效果來看，沒有部署AIStation和部署之後的效果對比相當明顯：在部署前，整個GPU利用率只有40%，通過AI平台統一管理後，GPU利用率可以達到70%以上。整個作業調度吞吐從原來支持的200個以上達到600個以上，整個資源效率實現大幅度提升。

AI計算框架與AI應用性能優化

圍繞AI計算框架，開源的框架很多，需針對性能和擴展性兩個方面進一步做更深入的優化：

在計算方面，不僅僅是GPU滿負荷運行，需實現CPU與GPU共同並行計算，進一步提高資源利用率，同時，圍繞新的晶元架構的計算特點，採用混合精度或半精度計算，發揮計算晶元的效率；在通信方面，可以採用非同步或半非同步方式實現計算與通訊隱藏的優化，通過合併小數據，提升通信效率來提升整個通信效果；在IO吞吐方面，採取多線程的數據讀取與預取機制。

在圍繞AI應用性能的優化方面，針對訓練端AI應用，需要從以下幾個維度考慮：

首先需要進行應用性能分析；其次，對整個硬體系統、軟體系統進行適配優化；另外，還需針對GPU架構特點、框架特點、網路演算法特點進行優化。

AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？