當前位置:
首頁 > 新聞 > 微軟的 AI 晶元之路,其實已經走了七八年

微軟的 AI 晶元之路,其實已經走了七八年

微軟,就是 Intel 為什麼在去年夏天收購 Altera 的理由。

2016 年 9 月,面對《連線》雜誌的採訪,時任 Intel 執行副總裁的 Diane Bryant(她已經於 2017 年年底離開 Intel 並擔任 Google Cloud COO)闡釋了這家半導體巨頭在 2015 年以 167 億美元的天價收購世界第二大 FPGA 廠商 Altera 的原因。很明顯,微軟不可能是上述收購的唯一理由,但毫無疑問是最為重要的理由之一。

微軟的 AI 晶元之路,其實已經走了七八年

這件事情,還要從 2010 年微軟的 Project Catapult 說起。

微軟與 FPGA 的淵源

2010 年的微軟,依然處於這家公司的第二任 CEO Steve Ballmer 的執掌之下;那時候,陸奇的角色是在微軟擔任在線業務部門總裁, 他同時是 Bing 項目的負責人。在當時的條件下,Bing 搜索是微軟內部為數不多的在線業務,而它正在追趕強大的 Google 搜索引擎——無論是在搜索結果還是響應速度上;其中,後者是衡量一款搜索引擎背後的技術能力的核心指標。

微軟與 FPGA 的淵源就是在這種情況下開始的。

當時,微軟的搜索引擎是一個依靠成千上萬台機器運行的在線服務,每台機器都需要靠 CPU 驅動,儘管 Intel 等公司不斷改進 CPU,這些晶元還是跟不上節奏。換句話說,Bing 搜索等服務已經超出了摩爾定律預言的處理器能力——事實還證明增加 CPU 並不能解決問題。

不過,倘若為新出現的需求製造專用晶元,成本是非常昂貴的。而恰好 FPGA 能彌補這個不足,Bing 決定讓工程師製造運行更快、比流水線生產的通用 CPU 能耗更少、同時可定製的晶元,從而解決不斷更新的技術和商業模式變化所產生的種種難題。

2010 年 12 月,39 歲的微軟研究員 Andrew Putnam 趕在聖誕節前兩天,用大約 5 個小時的時間完成了一份能夠在 FPGA 上運行 Bing 機器學習演算法的硬體設計。雷鋒網了解到,Andrew Putnam 曾在華盛頓大學工作 5 年,擔任研究員並主要從事 FPGA 研究,他在 2009 年受到一位從事計算機晶元研究的微軟研究員 Doug Burger 的邀請加入微軟,而 Doug Burger 後來成為 Andrew Putnam 在微軟的上司。

微軟的 AI 晶元之路,其實已經走了七八年

Andrew Putnam 的硬體設計,是在 Doug Burger 的授意下進行的——它正是後來的 Project Catapult,儘管但是還沒有這樣的名字。

後來,根據這一硬體設計,Burger 團隊成功構建出模型,並證明它能夠讓 Bing 的機器學習演算法速度提升 100 倍;最終,這個原型吸引了陸奇,並且在 2012 年 12 月以 Project Cataplut 的面目出現在時任微軟 CEO Steve Ballmer 的面前。

此後,微軟給出足夠的資金,允許 Burger 在 1600 台伺服器上配置 FPGA 進行測試。在中國和台灣硬體製造商的幫助下,團隊花費半年時間製造出了硬體產品,並在微軟數據中心的一組機架上進行測試。在 2013 年到 2014 年的幾個月中,測試顯示 Bing「決策樹」機器學習演算法在新晶元的幫助下,可以提升 40 倍運行速度。

2014 年夏天,微軟表示很快要將這些硬體應用到 Bing 的實時數據中心。

從 Bing 到 Azure

然而,FPGA 在數據處理加速方面上的出色貢獻,不僅僅被 Bing 業務部門所重視,它同時進入到微軟其他在線業務的視野,一個是 Azure 雲計算業務,一個是 Office 365。當然,就業務本身對微軟整體營收的貢獻而言,Azure 顯然是更加厥功甚偉的。

於是,由 Bing 出發,利用 FPGA 來加速驅動 Azure 數據中心的想法最終在微軟那裡得到了認可。不過,在 Azure 首席架構師 Mark Russinovich 看來,Project Cataplut 具備解決問題的潛力,但其方式又與 Bing 本身的不同。他的團隊需要在每個伺服器上配置可編程晶元,然後將每個伺服器連接到主要網路上,這樣他們就能在數據流量到達伺服器之前就開始處理了。

微軟的 AI 晶元之路,其實已經走了七八年

2014 年,來自微軟、Amazon、哥倫比亞大學、Google 等單位的 23 位聯合作者在IEEE發表了一篇題為《提升大型數據中心的可配置架構》(A Reconfigurable Fabric for Accelerating Large-Scale Datacenter Services)的長篇論文,該論文得到來自 Altera 和 Quanta 兩家 FPGA 公司的技術支持;其中,上文中提到的 Andrew Putnam 和 Doug Burger 都是論文的作者之一,而包括陸奇、沈向洋在內的十餘位微軟高管也對該論文進行了支持。

在這篇論文中,來自微軟研究院的 Project Catapult 被重點提到。文章表示,為了使得數據中心擁有傳統伺服器所不具備的能力,微軟推出了一種可組合、可配置的新型架構,這種架構中的每個實例都擁有 48 個嵌入式的 Statix V FPGA(Statix 正是 Altera 旗下的品牌) 晶元,每個 FPGA 晶元都被嵌入到一台伺服器中,通過 PCIe 介面相連接,然後在直接與其他 FPGA 通過 10Gb 的 SAS 線纜直接相連。

雷鋒網注意到,這篇論文提到的實際案例依然是 Bing Web 搜索引擎,但它已經展示了將 FPGA 應用於大型的數據中心的可能性。

最終,在 Project Cataplut 的第三代原型中,FGPA 晶元位於每個伺服器的邊緣,能直接插入到網路,但仍舊保留了任何機器都可接入的 FPGA 池,增加了它的可擴展性。為此,FPGA 的研究者們需要重新設計硬體,最終的結果是,Project Catapult 硬體的成本只佔了伺服器中所有其他的配件總成本的 30%,需要的運轉能量也只有不到 10%,但其卻帶來了 2 倍原先的處理速度。

微軟的 AI 晶元之路,其實已經走了七八年

於是,Azure 擁抱了 FPGA,Office 365 也是如此;Doug Burger 說,它們會驅動所有的微軟服務。

Project Brainwave

2016 年的 AlphaGo 大戰李世石,讓 AI 這個詞成為一個新的科技發展階段的標籤,甚至是新時代的標籤。於是,在人工智慧的熱潮之下,AI 晶元這樣的概念也隨之而來,不過相對於微軟、Google 這樣的巨頭已經在相關領域所作出的探索和努力而言,概念本身實在不足以囊括。

不過,在 Project Catapult 的基礎之上,微軟在這條路上走得越來越遠。

2017 年的 HotChips 大會上,微軟展示了 Project Brainwave,一個基於 FPGA 的低延遲深度學習雲平台。微軟官方測評顯示,當使用 Intel(是時 Altera 已經被 Intel 收購)的 Stratix 10 FPGA,Brainwave 不需要任何 batching 就能在大型 GRU (gated recurrent unit)達到 39.5 Teraflops 的性能。

微軟的 AI 晶元之路,其實已經走了七八年

Project Brainwave 分為三層構件。首先是高性能、分散式的 FPGA 系統架構;在數據中心網路中直接加入 FPGA,可將此作為硬體微服務。 其實是將 DNN 處理單元整合入 FPGA。 最後,Project Brainwave 還支持流行深度學習框架的軟體棧,比如說微軟 Cognitive Toolkit 和 Google Tensorflow。

微軟表示:


該系統為實時 AI 而設計——這意味著,它能以極低的延遲在接收數據後立刻處理請求。由於雲基礎設施需要處理實時數據流,不管是搜索請求、視頻、感測器數據流還是用戶交互,實時 AI 正在變得越來越重要。

可以看到,與 Project Cataplut 相比,Project Brainwave 在許多方面都更為出色,包括在運行速度、軟硬體結合度和 AI 領域的契合程度。更重要的是,Project Brainwave 在設計之初就考慮到,它不僅要幫助 Bing 運行深度學習等複雜運算,也要通過 Azure 開放給外部開發者使用。

2018 年 5 月的 Bulid 大會上,微軟宣布 Project Brainwave 開放預覽。這種用於深層神經網路處理的架構可用於 Azure 與邊緣環境。微軟表示,Project Brainwave 能夠讓 Azure 成為實時運行人工智慧最快的雲平台,並且實現了與 Azure 機器學習的完全整合;它還支持 Intel 的 FPGA 硬體以及基於 ResNet50 的神經網路。 此外,Project Brainwave 面向 Azure Stack 和 Azure Data Box 的開發也在進行之中。

然而,連微軟自己都承認,Project Brainwave 本質上是利用了 Project Cataplut 的成果而構建來的,這是一個前後相續的工程,只是在不同的發展階段扮演了不同的角色。

微軟的 AI 晶元之路,其實已經走了七八年

只不過,從 Project Cataplut 到 Project Brainwave,前前後後已經過去了七八年的時間。

雷鋒網有話說

如果我們用 AI 晶元去界定微軟在 Project Brainwave 甚至 Project Cataplut 上的作為,可以說是一件完全沒毛病的事情;當然,微軟在所謂的 AI 晶元領域做得更多,比如說還有面向 Hololens 的 HPU,不過已經是端側 AI 的範疇了。

只不過在微軟從事 AI 晶元相關工作已經成為既定事實的情況下,它在業界的相關動態其實沒有必要捕風捉影地鼓噪一番了。本來就是一句話就能講清楚的事:微軟 Azure 部門還在招募晶元人才——結果又被強行吹成大新聞了。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

「黑科技」加持,科沃斯年度高端旗艦地寶DN33評測
美國校園槍擊事件頻發,AI公司出絕招

TAG:雷鋒網 |