超越傳統CPU?英特爾新一代AI晶元明年面世
新智元報道
來源:Register、Intel
編輯:克雷格
【新智元導讀】昨天,英特爾首屆AI開發者大會發布了一系列機器學習軟體工具,並宣布包括其首款商用神經網路處理器產品將於2019年推出。
昨天,英特爾在舊金山舉辦第一屆AI開發者大會(AI Dev Con),英特爾人工智慧負責人Naveen Rao做了開場演講。
Rao此前是Nervana的CEO和聯合創始人,該公司於2016年被英特爾收購。
Naveen Rao
在會上,Rao發布了一系列機器學習軟體工具,並宣布英特爾新一代產品,其中包括其首款商用NNP產品NNP-L1000,將於2019年推出。
以下從軟體和硬體兩個方面介紹AI Dev Con的重點。
MKL-DNN是用於深層神經網路的數學內核庫。它是神經網路中常見組件的數學程序列表,包括矩陣乘數、批處理規範、歸一化和卷積。該庫針對在英特爾CPU上部署模型進行了優化。
nGraph開發者選擇不同的AI框架,它們都有各自的優點和缺點。為了使晶元具有靈活性,後端編譯器必須能夠有效地適應所有的晶元。
nGraph是一個編譯器,它可以在英特爾的晶元上運行。開發人員可能想要在英特爾的Xeons處理器上訓練他們的模型,然後使用英特爾的神經網路處理器(NNP)進行推理。
BigDL是Apache Spark的另一個庫,它的目標是通過分散式學習在深度學習中處理更大的工作負載。應用程序可以用Scala或Python編寫,並在Spark集群上執行。
OpenVINOA軟體工具包用於處理「邊緣」(即攝像頭或行動電話)視頻的模型。開發人員可以實時地做面部識別的圖像分類。它預計將在今年晚些時候開放,但現在可以下載了。
再來看硬體部分。
英特爾在這方面比較沉默,沒有透露更多的細節。
「幾年前Xeons不適合AI,但現在真的已經改變了。」Rao強調,增加的內存和計算意味著自Haswell晶元以來性能提高了100倍,並且推理的性能提高了近200倍。
「你可能聽說過GPU比CPU快100倍。這是錯誤的。」他補充說,「今天大多數推理都是在Xeons上運行的。」
Rao沒有提到Nvidia,他解釋說GPU在深度學習方面起了個好頭,但受限於嚴重的內存限制。 Xeon擁有更多的內存,可以擴展到批量大的內存,因此它更適合推理。
在現場,ZIVA CEO James Jacobs還介紹了如何將Xeons用於3D圖像渲染。
他也簡要地談到了FPGA加速的問題,並表示英特爾正在研發一種「離散加速器」(discrete accelerator)進行推理,但沒有透露更多細節。
同時,還介紹了Intel Movidius的神經計算棒。它是一個U盤,可以運行使用TensorFlow和Caffe編寫的模型,耗電量大約一瓦。去年,英特爾公司決定終止其可穿戴設備,如智能手錶和健身腕帶。
現場還展示了一段用計算棒來進行AI作曲的DEMO,人類演奏者演奏一段曲子,AI能夠在這段曲子的基礎上進行創作。
英特爾去年宣布神經網路處理器(NNP)晶元。雖然沒有發布任何基準測試結果,但英特爾表示將會有可供選擇的客戶。
Rao也沒有透露多少細節。不過,大家所知道的是,它包含12個基於其「Lake Crest」架構的內核,總共擁有32GB內存,在未公開的精度下性能達到40 TFLOPS,理論上的帶寬不足800納秒,在低延遲的互連上,每秒2.4兆的帶寬。
最後介紹了NNP L1000,Rao對它的介紹更少,這將是第一個商業NNP模型,並將在2019年推出。它將基於新的Spring Crest體系結構,預計將比之前的Lake Crest模型快3到4倍。
開發者大會的當天,英特爾官網發出一篇Rao的署名文章,對英特爾Nervana神經網路處理器(NNP)進行了介紹。
Nervana NNP有一個明確的設計目標,可實現高計算利用率和支持多晶元互連的真模型並行。
行業里討論了很多關於最大的理論性能,然而,實際情況是,除非體系結構有能夠支持這些計算元素的高利用率的儲存器子系統,否則大部分計算都是沒有意義的。此外,行業發布的大部分性能數據使用的是大型矩陣,這些矩陣通常在現實世界的神經網路中並不常見。
英特爾專註於為神經網路創建一個平衡的架構,它還包括低延遲的高晶元到晶元帶寬。NNP系列的初始性能基準在利用率和互連方面顯示出強勁的競爭力。具體包括:
使用A(1536, 2048)和B(2048, 1536)矩陣進行矩陣乘法運算的一般矩陣,在單個晶元上實現了96.4個百分點的計算利用率。這代表了在單個晶元上的實際(非理論)性能的38TOP/s。支持模型並行訓練的多晶元分散式GEMM操作實現了A(6144,2048)和B(2048,1536)矩陣大小的接近線性縮放和96.2%的縮放效率,使得多個NNP能夠連接在一起,並將我們從其他架構的內存限制中釋放出來。
我們測量了89.4 %的單方向晶元到晶元的效率,理論上的帶寬小於790ns(納秒)的延遲,並且將其應用於2.4Tb/s的高帶寬、低延遲互連。
所有這些都在單晶元總功率範圍內低於210瓦的情況下進行,這只是英特爾Nervana NNP(Lake Crest)原型。
英特爾將在2019年提供第一個商用NNP產品——英特爾Nervana NNP-L1000(Spring Crest)。
預計英特爾Nervana NNP-L1000的性能將達到第一代Lake Crest產品的3-4倍。
在英特爾Nervana NNP-L1000中,還將支持bfloat16,這是一種業界廣泛用於神經網路的數字格式。
隨著時間的推移,英特爾將在其AI產品線上擴展bfloat16支持,包括英特爾Xeons處理器和英特爾FPGA。
原文鏈接:
https://www.theregister.co.uk/2018/05/23/intels_first_commercial_ai_chips_will_arrive_in_2019/
https://newsroom.intel.com/editorials/artificial-intelligence-requires-holistic-approach/?utm_campaign=2018-Q2-US-AI-IntelAIDevConGMC&utm_source=twitter&utm_medium=social&utm_content=AIDC2018&cid=2018-Q2-US-AI-IntelAIDevConGMC&spredfast-trk-id=sf190226187
大會直播回放:
https://www.youtube.com/watch?time_continue=432&v=cxWF6vFqOt0
【加入社群】
新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_3 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。


※雲從孫慶凱:巨頭晶元爭霸,視覺識別技術是打穿上下游的關鍵
※中國芯奮起:地平線征程2.0晶元即將問世,自動駕駛計算平台Matrix1.0體驗
TAG:新智元 |