當前位置:
首頁 > 最新 > 阿里雲異構計算張獻濤:AI浪潮催生的計算迭代需求遠超摩爾定律

阿里雲異構計算張獻濤:AI浪潮催生的計算迭代需求遠超摩爾定律

從1956年的達特茅斯會議算起,人工智慧的概念的提出已經有60多年的時間了,但直到近幾年才呈現出爆發的趨勢。在阿里雲異構計算掌舵人張獻濤看來,爆發背後必須具備三個要素:首先是人工智慧相關的演算法方面的研究,還有數據的積累,最為重要的是計算力。

如果把人工智慧比作「火箭」,演算法就是「控制台」,數據是「燃料」,那麼計算力就是「加速引擎」。 「特別是人工智慧浪潮催生的計算迭代需求,遠超摩爾定律。」張獻濤在接受一財科技採訪時說。

傳統通用計算已經無法滿足人工智慧對於爆發的計算能力需求,現在異構計算中GPU/FPGA等高並行、高密集的計算能力被視作現階段挑起人工智慧產業的大梁。

今年9月,阿里雲異構計算宣布推出新一代的異構加速平台,涵蓋了GPU、FPGA在內等6款異構實例,解決從圖形渲染到高性能計算及人工智慧等複雜應用的計算需求。特別是在人工智慧領域,可將深度學習成本縮減一半,大幅降低人工智慧計算門檻。

與此同時,異構計算的使能領域不僅支撐人工智慧計算力升級需求,也能為圖形計算、生命科學、材料力學、分子動力學等科研計算領域提供普惠計算能力。

異構計算憑什麼?

數據+演算法+計算力三要素構成了人工智慧產業爆發的要素。

IT企業都有自己的演算法和數據,但在計算力的獲取上,一直有比較高的門檻。

2009年,幾名斯坦福的學者向世界展示,使用 GPU 可以在合理的時間內訓練深度神經網路,引發了GPU熱潮。過去,藉助通用計算完成的智能模型訓練需要幾天才能完成,如今使用異構計算只需要1小時就能完成。

異構計算因此被認為是更適合人工智慧的計算形態。它是一種把不同類型的指令集和體系架構的計算單元組成的系統的計算方式,如「CPU+GPU」,"CPU+FPGA「等,」更適合深度學習、基因匹配、金融分析等計算密集型領域。它的優點在於具有比傳統CPU並行計算更高效率和低延遲的計算性能,在處理物聯網場景下的AI應用時,異構計算比CPU的處理效率高30倍以上。

阿里雲異構計算產品解決方案就在這樣的背景下誕生,掌舵者是張獻濤。

張獻濤花名旭卿,武漢大學信息安全博士。加入阿里巴巴前,他就職於英特爾亞太研發中心,是Xen、KVM等多個開源虛擬化項目的主要貢獻者,同時,他也是Intel HAXM加速器的主要作者和貢獻者,並因此獲得英特爾最高成就獎。

2014年,張獻濤正式加入阿里巴巴任資深專家,目前主要負責阿里雲虛擬化技術、高性能計算產品、異構計算產品以及創新類型產品的技術和研發的團隊。

在研發異構計算產品的同時,張獻濤發現:對於一般用戶而言,使用異構計算也有痛點。他舉例,小量的用戶基本沒有議價能力,特別是購買FPGA(現場可編程矩陣門陣列)板卡,量少的話採購價格高昂。此外,交付周期是另一大痛點,從機型選擇、硬體架構設計、供應商選擇、機房選擇、財務審批通常要幾個月時間。採購之後型號就固定了,有新品出現只能追加預算購買,線下的GPU/FP又無法和線上服務打通。

他還提到,做FPGA產品的最大的挑戰在於整個FPGA的生態環境很差,具備FPGA開發能力特別是開發FPGA做計算加速的客戶非常少。

既然雲已經證明了是提供計算能力的最佳交付方式,張獻濤認為,把GPU/FPGA的計算能力放在雲端對外服務是「水到渠成」。

雲計算可以說是計算能力的「放大器」,張獻濤介紹,虛擬化技術讓GPU/FPGA的計算資源可以即買即用,彈性伸縮,無需擔心性能瓶頸,還能以更低的價格享受到性能更強的GPU/FPGA計算能力,解決了用戶使用異構計算方案的痛點。

「阿里雲在短時間裡先後推出彈性GPU和FPGA解決方案,目的就是降低異構計算資源使用的門檻,對人工智慧有計算需求的企業可以隨買隨用。」張獻濤說。

據介紹,異構計算產品特別適合在計算密集的企業環境下,人工智慧在線業務的高性能,高可靠場景,包括但不限於:深度學習、神經網路訓練、圖像識別、語音識別、人臉識別、自動駕駛、基因分析、油藏勘探、視頻渲染等計算密集領域。

張獻濤還透露,現在不少客戶都在單機上訓練模型,通常需要幾周到一個月的時間,阿里雲推出一款超高性能異構集群的產品,提供了25/100Gb RoCE (基於融合乙太網的 RDMA)走RDMA(技術全稱遠程直接數據存取)協議直連,可以多機多卡,用非常多的GPU/FPGA設備集群來共同訓練一個模型,大大減少用戶訓練的時間,可以縮短到一天甚至幾個小時的級別。

GPU、FPGA、ASIC未來三分天下

業界專家預測,到2020年,與人工智慧相關的計算力需求將會增長12倍。可以預見的是,異構計算比重將越來越多。

異構計算的發展也得益於國家戰略的推動。張獻濤提到,今年國務院印發《新一代人工智慧發展規劃》,人工智慧由此上升為國家戰略,到2020年,整個人工智慧核心產業達到1500億規模。這勢必會刺激異構計算的需求。

目前,張獻濤所帶領的團隊主要有兩個目標:一是致力於讓異構計算變成用戶即買即用的計算資源,提供最為全面的異構計算產品方案;另一個是致力於讓用戶能夠用好異構資源,充分發揮雲上各個產品之間的統一調度能力,讓阿里雲在人工智慧方面的服務更具備競爭力,把異構計算變成一種普惠的計算能力。

事實上,此前阿里巴巴集團內部不少業務通過異構計算取得計算加速效果,包括淘寶天貓上的拍照購,以及商品風格預測、圖片質量控制、CRT預估、千人千面、人臉識別、內容鑒定、圖片創意、圖像搜索等。而阿里雲彈性FPGA異構計算的解決方案主要面向人工智慧、半導體設計、基因計算、視頻圖像處理、數據分析決策等場景,目前的應用案例包括深度學習推理、深度學習模型裁剪、非規整數據計算、視頻圖像處理、硬體半導體設計等。

對外,阿里雲異構計算產品已經有包含微博、陌陌、華大基因、中國工程院等數千家企業在應用。

同時,阿里雲提供了從產品、服務、生態等維度的人工智慧平台服務,比如用戶可以在阿里雲異構平台上快速搭建TensorFlow深度學習框架,同時調用視頻識別、圖像識別、語音識別等服務,開發出類似ET工業大腦、環境大腦的應用服務。

在異構計算的背後,GPU處理器仍佔據了異構計算的主流地位。相比CPU,GPU有更高的並行度、更高的單機計算峰值、更高的計算效率;而FPGA則擁有更高的每瓦性能、非規整數據計算更高的性能、更低的設備互聯延遲。

不過,對於未來的趨勢,張獻濤表示,「隨著FPGA的生態環境的建立和完善、ASIC晶元的逐漸成熟,未來異構計算領域會呈現GPU、FPGA、ASIC(為專門目的而設計的集成電路)晶元三分天下的局面,GPU、FPGA、ASIC晶元都會有自己獨特的特長和應用領域,有自己獨特的客戶群體。」

阿里雲提供同時覆蓋Intel和Xilinx兩大FPGA廠商的解決方案。這也是張獻濤團隊專註的方向。他對記者透露,接下來團隊會發布包括8卡/16卡GPU產品、下一代的Volta架構的GPU產品、新一代的FGPA的產品,而ASIC晶元的產品上雲也正在研發當中。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 一財科技 的精彩文章:

現在,阿里巴巴和亞馬遜市值僅差1.3%了,兩個月縮窄近千億美元

TAG:一財科技 |