當前位置:
首頁 > 科技 > 謝源:計算存儲一體化,在存儲里做深度學習,架構創新實現下一代AI晶元

謝源:計算存儲一體化,在存儲里做深度學習,架構創新實現下一代AI晶元

原標題:謝源:計算存儲一體化,在存儲里做深度學習,架構創新實現下一代AI晶元



中國人工智慧資訊智庫社交主平台新智元主辦的11月8日在北京國家會議中心舉行,大會以「AI 新萬象,中國智能+」為主題,上百位AI領袖作了覆蓋技術、學術和產業最前沿的報告和討論,2000多名業內人士參會。新智元創始人兼CEO楊靜在會上發布全球首個AI專家互動資訊平台「新智元V享圈」。


新智元 · AI WORLD 2017


演講嘉賓:謝源,UCSB教授,IEEE Fellow

【新智元導讀】新智元AI WORLD 2017 世界人工智慧大會,加州大學聖芭芭拉分校教授謝源發表了演講《人工智慧時代的計算機架構創新》。AI時代硬體領域猶如戰國群雄爭霸,沒有一種晶元能完全通用,也沒有一家公司能獨霸市場。在這個激動人心的時代,硬體研發似乎有無限可能。從計算力的飛速提升促進人工智慧第三次大爆發講起,謝源回顧了計算力增長的兩大因素——摩爾定律和硬體架構創新,並指出在摩爾定律放緩的當下,硬體架構創新對計算力的進一步提升將愈發重要。


結合目前幾種常見的晶元及其各自的適用場景和優勢,謝源分析了未來硬體發展的三大趨勢:①軟硬結合,以谷歌、微軟為代表的軟體公司也開始自己開發硬體;②異構計算,在同一個平台上使用不同的晶元;以及③從通用向專用發展。


同時,AI時代的硬體架構創新還有一大難關——存儲牆。謝源以谷歌TPU為例,結合AMD和英偉達的GPU發展路線圖,介紹了各大公司使用3D堆疊內存技術,克服存儲牆的問題。不僅如此,謝源還介紹了他和同事的最新研究項目,計算存儲一體化,直接在內存上做計算。


人類的大腦計算和存儲不是分開的,不需要數據搬移,所以未來的計算機體系結構可能要改變傳統的把計算和存儲分開的馮·諾依曼架構。謝源的研究團隊正在研究計算存儲一體化,希望在未來五年能夠從底層到高層打通。「我們把AI的ABC(演算法+大數據+計算),又加上D(Domain knowledge)跟E(Ecosystem),探究計算存儲一體化,希望能夠使下一代AI晶元能夠有更進一步的發展。」

謝源教授於1997年獲得清華大學電子工程系學士學位,於1999年和2002年獲得普林斯頓大學電機工程系碩士和博士學位。於2003年加入賓夕法尼亞州立大學計算機系,2008年獲得終身教職,2012年提升正教授。2014年他轉入加州大學聖芭芭拉分校電機與計算機工程系(ECE)擔任正教授。他同時也是北京大學的兼職教授和台灣新竹清華大學的客座教授。

謝源教授也擁有豐富的工業界經驗,他於2002-2003年任職於IBM擔任微電子部門全球設計中心的諮詢工程師,2012年到2013年期間加入AMD,負責組建和領導AMD北京研發中心的研究部門。他所獲得的榮譽包括美國國家自然科學基金會的 CAREER award,入選計算機體系結構三大會議名人堂(Hall of Fame in ISCA/MICRO/HPCA),以及鑒於他在三維晶元設計和架構的貢獻當選IEEE Fellow。

謝源教授的主要研究領域包括VLSI設計,電子設計自動化,計算機架構和嵌入式系統設計。他目前的研究項目包括新型內存架構,互連架構和異構系統架構。最近的研究項目側重於技術驅動和應用驅動的設計/架構創新。其中,技術驅動的研究項目包括新興存儲器技術和3D集成電路的EDA / 架構,硬體安全性和CPU / GPU / FPGA的異構計算;應用驅動的研究項目包括人工智慧(AI)的新型架構,如深度學習神經網路的計算機架構,neuromorphic 計算和bio-inspired計算。


謝源:今天我要給大家講的是《人工智慧時代的計算機架構創新》。人工智慧現在最主要的三大支柱,可以稱之為AI的「ABC」——演算法(Algorithm)、數據(Big data)、計算能力(Computing)。我今天主要講計算能力,因為計算能力在AI的歷史上發揮了非常大的作用。


去年,周志華教授在中國計算機大會上展示了這張圖,他說人工智慧的歷史看起來很有意思,是以交替模式在發展,熱10年,冷15年:1958-1969年左右是一個繁榮期,然後進入冰河期,1985-1995年之間又出現了一個繁榮期,再往後又進入沉寂期,最近再一次熱起來。


巧合的是,這幾次人工智慧的繁榮期,都跟計算能力的迅速增長有很大關係,比如第一次繁榮期,上世紀50年代時,電子計算機開始快速發展,第二次繁榮的80年代時則是像英特爾X86的處理器和內存條技術得到廣泛應用。最近這次AI浪潮興起很重要的一個原因,也是CPU、GPU集群的普及。


從CPU到GPU:吳恩達的例子,16000多個CPU三天到3個GPU兩天



最近這十幾年,GPU的計算能力發展尤其迅速,以NVIDIA 的GPU為例,從2002 - 2014年經歷了飛速的增長(註:上圖增長趨勢最快的線條,計算速度理論峰值從小於500 GFLOPS/s 增長到超過4500 GFLOP/s)。




這次深度學習熱潮大概是從2012年左右開始的。很有意思的是,吳恩達在2012年的文章是在一個由1000台機器組成的Cluster上面做的,16000多個CPU用了三天時間訓練。到了第二年,同樣的事情,吳恩達在GPU上做,3個GPU兩天時間就完成了。這充分說明了從CPU到GPU的計算能力變化給人工智慧帶來的驅動力。


同時,AI的發展也大幅拉升了NVIDIA股價:NVIDIA在2012年的時候股價是11美元,現在已經是200多美元。

如何提升計算能力?硬體架構創新將變得越來越重要


回過頭來看計算能力,既然計算力對AI應用非常重要,那我們怎樣才能有更強的計算能力呢?總結起來無非兩種,第一種是摩爾定律所帶來的Technology Scaling,第二種就是計算機架構的創新。



過去50年里,摩爾定律是處理器性能提高的關鍵因素。遵循摩爾定律,每隔兩年左右,晶體管變得更小、更快,在同樣面積的矽片上可以放下更多更快的晶體管。但是,光有工藝上的提高並不夠。


2012年,斯坦福大學研究小組做了個統計,收集了過去幾十年幾千款CPU的數據,比如他們統計的這張圖上,藍色這條線是英特爾80386 CPU性能提高的速度,如果不做任何架構上的創新,只是把晶體管做小,速度的確可以增長。但是,如果再加上架構上的創新(紅線)(其餘幾千款CPU性能指標),就能夠把CPU的性能進一步提高 [1]。


因此,摩爾定律非常重要,架構創新也非常重要,架構創新是計算能力增強的一個重要因素,這兩者的結合使過去50年計算能力得到了飛速的增長。但是,現在出現了一個問題,摩爾定律開始變慢。按照現在半導體的路線圖看,在2021年達到5納米的製程後,我們還能不能繼續往下走?這是一個大問號。在摩爾定律不斷減緩甚至會停止的情況下,實際上架構的創新會對計算能力增長起到更大的作用。


AI時代,硬體市場群雄爭霸,軟硬結合、異構計算、從通用到專用是三大趨勢


剛剛說過,人工智慧三大要素,演算法、大數據和計算能力,我認為在第三次AI浪潮裡面,計算能力起到了非常重要的作用。從我們做計算的角度看,未來一個很重要的趨勢是軟體和硬體相結合。


例如,我們看谷歌,現在谷歌不再是一家單純的軟體公司,大家也都知道,最近谷歌發布了TPU(註:Tensor Processing Unit,張量處理器),這是他們自己專用的硬體。過去我們認為微軟是一家純軟體公司,但是今年微軟發布了最新一代的HPU(註:Holographic Processing Unit,全息處理器,集成於微軟的HoloLens中)。還有其他一些公司也在從事硬體方面的研發,更多這樣的晶元產品出來,英文26個字母估計都要被用上。所以,我覺得未來的一大趨勢是軟體和硬體的融合。


AI時代的硬體創新非常激動人心,這是一個戰國群雄爭霸的時代,沒有一個完全通用的晶元,也沒有一家公司可以統治整個市場。


上面這張圖展示了目前在AI時代硬體的各種解決方案。取決於應用場景,數據類型,還有資源的限制,每種硬體方案有自己各自的優勢,還沒有哪種方案可以一統天下。比如說谷歌的TPU,第一代做推理(inference),第二代做推理(inference)和訓練(training)都是在雲端做。而FPGA 或者是一些專用晶元,則可能更適合在功耗受限的端來做。


谷歌的TPU是專用晶元。現在大部分還是通用晶元,比如GPU、CPU或者FPGA。大家經常會問,GPU和FPGA相比哪個好?像英特爾、微軟等公司,在自己沒有GPU的情況下,也努力推FPGA的方案。我認為,GPU和FPGA兩者各有好處。簡單講,GPU比較適合在雲端,從計算的有效性角度看FPGA更有優勢,但真正做FPGA編程的人比GPU編程的要少很多,所以從應用、做程序的難度看,做FPGA比做GPU更加困難。


CPU、GPU、FPGA這些不同的通用晶元,各有各的優勢,因此未來的計算很有可能向「異構計算」發展,也就是在一個平台上使用不同的晶元。我們最近的一項工作,就是研究如何更好地把AI應用到異構平台上,並使其效率更高。


此外,從通用走向專用也是一種趨勢,因為在功耗和速度上GPU、FPGA相比專有晶元有很大差距。專用晶元是為特定場景來定製的,所以它有低功耗、低成本和高性能的優勢。當然,我認為在通用和專用之間還應該有一個平衡


英偉達和AMD GPU路線圖:3D堆疊內存,克服存儲牆難關



但是,做AI硬體創新有一個很重要的挑戰,就是存儲牆。我舉個例子,我的學生徐聰博士在惠普實驗室兩年前做了一個簡單研究,發現隨著演算法的發展和數據的變大,對存儲帶寬的要求越來越高。同時,不管你是TPU,BPU,還是XPU,你的PU做得再快,數據還是在存儲那裡,你要把數據從內存搬到你的PU里。數據搬移需要的能量在整個計算中占非常大的比重,而且數據搬運的效率不會因為摩爾定律的發展而提高。


我們再以谷歌的TPU為例,谷歌在今年6月份發布了TPU的具體技術細節,其中有一點很多人可能沒有注意到,看實驗數據可以發現,因為TPU所帶的DDR3存儲架構,帶寬只有30個GB/s,雖然第一代TPU做的非常快,但由於存儲帶寬的限制,很多時間它是在等數據,大大限制了性能的發揮。


如何解決存儲牆的問題?有不同的方法,其中一種方法是採用3D堆疊,我們稱之為Memory Rich Processor,就是在處理器周圍堆疊更多的存儲器件。回過頭來看,寒武紀第一代叫DianNao,第二代叫DaDianNao,DaDianNao就是為了解決存儲牆問題,在處理器旁邊利用eDRAM技術放了更多的內存。




2002-2003年,我在IBM工作期間開始接觸3D堆疊晶元技術,在2003年加入學術界後,一直致力於研究如何把這項技術用於新架構的設計上。在2012-2013年期間,我們與AMD研究部門合作,探索如何把3D堆疊的內存放在GPU旁邊,幫助解決存儲牆的問題[2]。


2015年6月,AMD推出了世界上第一款使用3D堆疊的GPU,在Fury X GPU內部集成了4GB的3D堆疊的HBM(High-bandwidth Memory),大大減少數據搬移的消耗。這個3D堆疊的技術推出後到現在,兩年多的時間裡,被很多廠商合作使用。


在處理器內部集成的存儲也越來越多,比如2015年AMD集成了4GB的HBM,今年發布的AMD和NVIDIA的Vega和Volta GPU都集成了16GB的HBM2。而其他公司的一些最新的AI晶元架構,也都集成了3D堆疊存儲,比如Intel Nervana也用3D HBM,而Wave Computing用的是美光(Micron)的HMC,另外一種形式的3D堆疊存儲。



谷歌第一代TPU數據發布後,當時我的第一反應就是谷歌的下一代TPU一定會放3D堆疊的內存。雖然現在還沒有第二代TPU的具體技術細節,但是根據今年8月Jeff Dean在Hotchips上透露的信息,現在看谷歌第二代TPU放上了多少內存?不是4G、不是8G、不是16G,而是64G,谷歌第二代TPU放上了64G的內存,帶寬從第一代的30 GB/s到現在的600 GB/s。


最近還有一個有意思的消息,兩個月前,AMD負責GPU的高級副總裁Raja Koduri來我們學校UCSB休假了40天,就在不久前他宣布加盟Intel。同時,AMD和英特爾也宣布了一個新產品,聯手幹了一件事情,把Intel的CPU和AMD的GPU集成放在一起,同時為了解決存儲牆問題,再放一個堆疊的3D內存。有人開玩笑說,因為AI時代的到來,「AI」引發了A(AMD)和I(Intel)的聯手合作。


在學術界做更有前瞻性的研究:針對AI應用計算存儲一體化,未來5年從底層到高層打通

所有的這些現象都讓我們看到了最近在AI應用驅動下計算硬體架構上的創新,包括英偉達、英特爾、谷歌,AMD這些大公司,還有寒武紀、深鑒科技、地平線這樣的初創公司,甚至包括比特大陸都轉型在做AI晶元的設計。那麼在學校做科研的還能做什麼?學校沒有像谷歌英偉達這樣有幾千人的團隊,也沒有那麼多資源,我們做的事情是要往前看,利用學校創新能力的優勢,做更有前瞻性的研究,看到現在公司還沒有辦法做或者還沒有精力去做的研究方向。


我們現在考慮的也是針對存儲進行優化,研究計算存儲的一體化的架構。傳統意義上的馮·諾依曼架構,計算單元不管有多快,數據一定是從硬碟搬到主存,再搬到計算單元(PU)裡面。我剛剛提到的3D堆疊是一種方法,可以把更多的內存放在計算處理單元里,以減少晶元內外的數據搬移,提高計算和存儲之間的帶寬。不過,想想我們的人腦,人類的大腦是有沒有計算和存儲的區別,有沒有說比如用左半球來計算,右半球做存儲嗎?沒有,我們人腦本身的計算和存儲都發生在同一個地方,不需要數據搬移。


所以,未來的計算機體系結構可能要改變傳統的把計算和存儲分開的馮·諾依曼架構。其中的一個創新架構的研究方向是計算和存儲一體化(process-in-memory),在存儲裡面加上計算的功能。例如,我們的研究團隊在去年的計算機架構頂級會議ISCA就發表了一個工作叫PRIME架構[3],在新型存儲器件ReRAM裡面做計算的功能,讓存儲器件做神經網路的計算。今年,我們和新竹清華大學張孟凡教授團隊以及北京清華大學劉勇攀教授團隊和汪玉教授團隊合作,把PRIME的架構在150nm工藝下流片, 在阻變存儲陣列里實現了計算存儲一體化的神經網路。我們發現,當計算和存儲都放在一起,在內存裡面實現神經網路計算的時候,功耗可以降低20倍,速度提高50倍。所以,省去數據搬移,計算的功耗和性能都可以大大提高。




巧合的是,我們在架構會議ISCA 2016和晶元設計會議VLSI Symposium 2017發表了PRIME架構的想法之後,今年10月,IBM在《自然》也發了一篇文章,宣布在相變存儲器上實現了同樣的針對AI應用的「In memory computing」這個概念。IBM做的也是在存儲裡面實現神經網路計算的功能,區別在於我們用的是阻變存儲器(ReRAM),而IBM用的是相變存儲器(PCRAM),共同點都是基於利用這些新型存儲器件的模擬計算功能來實現神經網路的計算。



那麼,在現有成熟的DRAM存儲器件上,能不能做類似的事情呢?也是可能的。我們最近和三星存儲研究部門一起合作的一個工作,剛剛在10月份的第50屆MICRO會議上發表,這個DRISA架構就是在DRAM的工藝上,實現了卷積神經網路的計算功能[4]。


最近,美國的SRC啟動了一個1.5億美金的5年研究計劃JUMP [5],設置了6個不同的研究中心,這6個不同的研究中心代表了6個不同的未來研究方向。其中一個方向叫Intelligent memory and storage,這個研究中心由弗吉尼亞大學的一位教授和我一起共同領導,包含了東西海岸兩個團隊共20多位教授(包括多名美國工程院院士和IEEE/ACM Fellow),帶領幾十名博士生和博士後,包含了從底層的存儲器件設計,到電路和架構設計,再到系統和軟體各個方向的專業人士。我們這個團隊的目標是研究計算存儲一體化,在未來五年希望能夠從底層到高層打通。


在我們這個研究中心未來的藍圖裡,不僅僅是在計算架構層面要做革新,往下包括像針對不同存儲介質的電路都要做相應的改變,往上的ecosystem也很重要,所以我們的團隊不僅僅包含硬體研究人員,還需要在編程語言,編譯器,操作系統和應用軟體都需要有相應的創新。同時,在人工智慧領域,我們認為所謂的domain knowledge也非常重要,我們選了幾個AI應用領域方向,包括視頻分析,精準醫療和認知計算,都邀請相應的專家一起來合作。我們把AI的ABC(演算法+大數據+計算),又加上D(Domain knowledge)和E(Ecosystem),探究計算存儲一體化,希望能夠使下一代AI晶元能夠有更進一步的發展。

謝謝大家!


參考資料

  • [1] CPU DB: Recording Microprocessor History, Danowitz et al. Communications of the ACM, Vol. 55 No. 4, 2012.

  • [2] Optimizing GPU Energy Efficiency with 3D Die-stacking Graphics Memory and Reconfigurable Memory Interface. Jishen Zhao, Guangyu Sun, Yuan Xie, Gabe Loh, ACM Transactions on Architecture and Code Optimization (TACO), 2013.

  • [3] Ping Chi, Shuangchen Li, Cong Xu, Tao Zhang, Jishen Zhao, Yongpan Liu, Yu Wang, and Yuan Xie, "PRIME: A Novel Processing-in-memory Architecture for Neural Network Computation in ReRAM-based Main Memory", ISCA 2016

  • [4] Shuangchen Li, Dimin Niu, Krishna T. Malladi, Hongzhong Zheng, Bob Brennan, Yuan Xie, "DRISA: A DRAM-based Reconfigurable In-Situ Accelerator", MICRO 2017

  • [5] https://www.src.org/compete/jump/

    喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

    本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


    請您繼續閱讀更多來自 新智元 的精彩文章:

谷歌AutoML系統自動開發出計算機視覺模型,性能優於人類水平
【下載】Keras作者Chollet最新力作:深度學習Python教程實戰書籍
【44.99美元】谷歌推出樹莓派計算機視覺盒子,自己動手組裝深度學習套件
【Gartner2018人工智慧預測】AI迎來大眾化應用元年,虛擬助理將普及
阿里雲量子技術首席科學家施堯耘:機器智能必將超越人類智能,量子智能一定是AI

TAG:新智元 |