圍觀!號稱捨棄馮諾依曼架構,突破內存牆瓶頸的AI晶元,面世了
近幾年再次興起的AI熱潮,不僅引發了晶元巨頭們的AI晶元戰,更讓科技巨頭們紛紛開始了AI晶元的研發。在AI晶元的爭奪中,算力首先成為了焦點。不過,算力提升之後,算力與內存的不匹配又成為了阻礙AI向前發展的關鍵。此時,一家成立於2017年的初創公司提出的存儲優先架構(SFA)表示很好地解決了內存牆的問題,事實是否如此?
【 圖片來源:supernovainvest 】
AI晶元的真正問題是內存牆
算力、演算法、數據被認為是AI向前發展的三個關鍵因素,更高的算力自然必不可少,這也直接驅動了AI晶元公司們推出更高算力的AI晶元。不過,目前對於AI晶元的定義並沒有一個嚴格和公認的標準,一個非常寬泛的看法是,面向人工智慧應用的晶元都可以稱為AI晶元。
需要指出,這一輪的AI熱潮很大程度是機器學習尤其是深度學習受到了追捧。由於目前常見的晶元類型CPU、GPU、FPGA、ASIC都可以運行深度學習演算法,因此這些晶元都可以稱為AI晶元。
CPU、GPU、FPGA、ASIC的特點【 圖片來源:hackernoon 】
這就意味著,如今AI晶元重要的意義在於滿足機器學習的演算法的需求。但即便是經驗豐富的Arm,認識到AI晶元關鍵的問題也走了一些彎路。Arm機器學習部門商業與市場副總裁Dennis Laudick此前接受雷鋒網採訪時就表示:「我們第一次看到機器學習時,首先想到的是從已有的處理器類型中的一種開始,因此我們開始用了GPU的方法,但最終發現機器學習處理器面臨的不是處理問題而是數據問題,最終取消了GPU的方法,創建了一個全新的處理器專註於數據以及機器學習中的數據類型,可以執行並行指令。」
說的更直白一些,深度學習演算法具有高並發、高耦合的特點,不僅有大量的數據參與到整個演算法運行的過程中,這些數據之間的耦合性也非常緊密,因此對存儲帶寬提出了非常高的要求,大規模的數據交換,尤其是晶元與外部DDR(Double Data Rate SDRAM,雙倍速率同步動態隨機存儲器,常簡稱為DDR)存儲之間的數據交換,這將大幅增加了功耗。
越來越多的AI晶元的IP提供方和AI晶元的設計公司都意識到,AI晶元的本質不是要解決計算問題,而是要解決數據問題。與數據和存儲相關的帶寬瓶頸、功耗瓶頸問題,被稱為存儲牆問題。
深度學習演算法的「三高」特點
內存牆問題的4種常見解決方法
上面提到的晶元都基於傳統馮·諾伊曼體系結構,這個體系結構是數據從處理單元外的存儲器提取,處理完之後在寫回存儲器。因此,用馮諾依曼體系結構的處理器處理深度學習演算法時,提供算力相對簡單易行,但當運算部件達到一定的能力,存儲器無法跟上運算部件消耗的數據,再增加運算部件也沒有用,這無疑阻礙了AI晶元的向前發展。
【 圖片來源:nextplatform 】
為了解決內存牆問題,業界目前有4種常見的解決方法。第一種是加大存儲帶寬,採用高帶寬的外部存儲,如HBM2,降低對DDR的訪問。這種方法雖然看似最簡單直接,但問題在於緩存的調度對深度學習的有效性就是一個難點。
第二種方法是直接在晶元里放入大量存儲,採用分散式片上存儲,拋棄DDR,比如集成幾十兆位元組到上百兆的SRAM。這種方法看上去也比較簡單直接,但成本高昂也是顯著的劣勢。
第三種方法則是從演算法入手,通過設計一些低比特權重的神經網路,比如二值網路,簡化數據和需求和管理。顯然,這種方法是以演算法精度、應用範疇為代價,難以被大範圍應用。
第四種方法是在存儲單元內部設計計算單元的新型存儲器,進行存算一體化(In Memory Computing),這也是目前業內一個比較受關注的方向,具備低成本和低功耗的特點。不過這種方法的可行性以及是否能最終被業界廣泛應用仍是未知,因此對於這種方法我們將繼續保持關注。
顯然,目前常見的解決AI晶元內存牆的方法都還未成功解決這一問題,其中很重要的原因在於,絕大部分的AI晶元,可以認為其為基於類CPU架構,專註於計算整合,通過提升並行度的方法進行龐大計算力的結構調整,對存儲資源的使用和調度,依然依賴於編譯器或傳統的緩存管理演算法,無法解決內存牆問題。
SFA架構如何突破內存牆瓶頸?
想要真正解決內存牆問題,捨棄馮諾依曼架構無疑是更好的方式,但難度也可想而知。不過,成立於2017年的北京探境科技在成立之初就重新思考了存儲和計算的關係,以存儲驅動計算,設計了與類CPU架構完全不同的計算架構——存儲構SFA(Storage First Architecture)。
探境科技CEO魯勇
2017年業界對AI晶元的關注點更多是算力的提升,意識到要解決內存牆問題的公司還不多,為什麼探境科技能更早看到內存對AI晶元的重要性並研發出存儲優先架構?探境科技CEO魯勇接受雷鋒網專訪時表示:「主要有兩方面的原因,一方面是我們的晶元設計團隊成員平均擁有15年以上晶元行業設計經驗,有足夠的晶元設計能力,同時,團隊成員還有深挖問題核心本質的思路和能力。所以從能力上和做事的方法上都有這樣的條件,我們就堅定的去解決難題。」
探境科技SFA架構
不同於常見的解決內存瓶頸的方法,SFA是以存儲調度為核心的計算架構,數據在存儲之間的搬移過程之中就完成了計算,計算對於數據來說只是一種演變。
「更具體的說,SFA架構,存儲是我們優先的出發點,去考慮數據在搬移過程中做計算,也就是由數據帶動計算而非由運算元帶動數據。與通常計算的先有計算指令然後提供數據相反,SFA架構是先有數據,然後再把運算元交給它。」魯勇進一步解釋。
當然,完全捨棄馮諾依曼架構,實現全新的架構方式SFA架構面臨不少挑戰。魯勇表示這其中涉及很多硬體的核心點、數據管理、運算元節點如何靈活的連接起來都是非常難的問題。不過,他也透露稱,SFA架構以圖計算為基礎,設計了非常精巧且有針對性的架構解決這些難題。這一點與AI大神Lecun所宣稱的所有的神經網路都是圖計算問題不謀而合。
難題突破之後,SFA架構具備了哪些優勢?魯勇介紹,首先就是晶元的PPA取得了巨大的突破,實驗數據表明,比較類CPU架構採用的基於匯流排和指令集的映射方法,在同等條件下,數據訪問可降低10~100倍。28nm工藝條件下,系統能效比達到4T OPS/W,計算資源利用率超過80%,DDR帶寬佔用率降低5倍。
其次,SFA架構可以支持任意神經網路。也就是說,SFA架構可以支持不同大小的網路模型、不同的數據類型,包括定點型和浮點型,甚至一個神經網路里不同層使用不同的精度也可以支持。我們的AI晶元可以稱得上通用型AI晶元,只要在神經網路深度學習框架下,GPU能支持的我們都能支持。
還有,SFA架構非常靈活,基於它既可以推出本地或雲端的推理晶元,也可以用於雲端訓練的晶元,終端的推理加訓練晶元也能用,完全取決於最終產品的定位。
除了內存方面的突破,在算力提升方面SFA架構也有相應的優化。SFA架構的AI晶元不僅可以滿足多精度計算,還能做到自適應的稀疏化處理,不需要在離線階段做剪枝或者壓縮處理。
據悉,探境的計算架構也採用了比較獨特的無MAC設計方式。
落地優勢如何?
既然SFA架構具有多個優勢,那麼在探境科技看好的安防監控、工業製造、自動駕駛和語音人機交互市場,落地優勢依舊明顯嗎?魯勇指出,這幾個領域看上去好像差別挺大,但對我們而言背後有一個貫穿一致的邏輯。也就是核心都是SFA架構,根據不同的市場應用,套上不同的框架,最終變成不同的產品形態。
他強調,不同市場的差別並沒有想像那麼大。演算法層面,現在的語音和圖像演算法已經開始融合,都是基於深度學習的卷積神經網路(CNN),並不是原來想的那麼涇渭分明。晶元角度,核心都是SFA架構,根據產品的定義不同,外面的介面也相對不同,這並不困難。
去年5月探境宣布完成數千萬美元融資時,就已經制訂了三年的產品規劃,會以行業劃分的形式,有節奏的推出產品及整體解決方案。雷鋒網(公眾號:雷鋒網)了解到,目前探境已經推出了包括語音喚醒、命令詞識別、語音理解、通用型降噪的AI語音晶元。值得一提的是,這幾款晶元都可以在不聯網的情況下實現功能,這是算力和功耗優勢的一個體現。
至於為何率先推出AI語音晶元,魯勇認為物聯網時代,語音成為了一種新的交互方式,也是一個入門的交互方式,這個入口非常重要。
看好AI語音市場的不止探境科技,傳統的晶元公司杭州國芯、瑞芯微等,以及擅長語音演算法的思必馳、出門問問等都推出了AI語音晶元。那麼,探境在市場上的競爭力如何?
魯勇表示,演算法公司對晶元的理解程度非常有限,我認為AI時代的競爭力已經單純看PPA轉移到了軟硬結合的能力,只有非常深度的軟硬結合才能具備非常核心的競爭力。在實際的落地過程中,SFA架構對客戶非常友好。因為SFA架構不僅不需我們在工具鏈上不用投入過多的精力,在客戶實際使用的時,我們會提供一個非常好用的工具鏈,通過工具鏈的轉換,可以讓客戶的演算法甚至不用重新訓練就可以部署。
而最讓魯勇感到驕傲的是探境AI語音晶元最終體現出的競爭力。他表示,AI晶元的競爭力的直接體現就是成本,探境的AI語音晶元的成本優勢還是基於SFA架構,在同樣的晶元面積下能提供更高的算力,也就是PPA顯著提升。在與客戶接觸之後,我們的晶元獲得了客戶的追捧。
雷鋒網小結
探境科技作為一家成立於2017年的初創公司,能夠在成立之初就看到AI晶元本質的問題是數據難題就領先了不少的AI晶元公司。並且,從探境公布的數據以及給出的信息來看SFA架構確實是突破內存牆的好方法,實現了許多AI晶元公司希望達成的AI通用晶元的願望,兼具低功耗、低成本的特點。
只是,魯勇並未透露探境量產的AI晶元具體的合作夥伴。另外,探境AI晶元的商用也處於相對早期的階段,能否最終大獲成功攪動AI晶元市場我們需要保持關注。相信具有真正獨特技術和有實際產品的公司會大概率取得成功。
不可否認的是,魯勇此前在晶元巨頭Marvell十年的工作經歷對於其能夠把握AI的發展趨勢以及聚集人才研發出獨特的AI晶元有不小的幫助。還需強調的是,在AI時代,只有軟硬更好的結合,才能最終體現出更大的競爭力。


※飛利浦收購銳珂醫療信息系統業務,補全放射產品版圖
※先南下再西遊,螞蟻金服的海外投資如何開花?
TAG:雷鋒網 |