英特爾深度學習產品綜述：如何佔領人工智慧市場

新聞 04-23

機器之心原創

作者：Haojin Yang

參與：Jake Zhao、侯韻楚、黃小天

英特爾深度學習產品綜述：如何佔領人工智慧市場

2017 年 2 月 9 日，機器之心技術分析師應邀參加了在 SAP 創新中心召開的英特爾創新研討會。英特爾數據中心組（Data Center Group , DCG）的成員對目前深度學習及其人工智慧產品的發展做了有關介紹。根據本次研討會的內容，我們可以預測 CPU 硬體生產商（如英特爾）在下一場計算浪潮來襲時的發展趨勢或戰略，尤其是人工智慧的相關方面。

簡介

2017 年第一季度，英偉達數據中心收入同比增長 63%，總體收入也得到增長。這一顯著增長主要歸功於大型 IT 公司，如谷歌和亞馬遜主要基於英偉達 GPU 來加速其人工智慧雲產品的研發。相較而言，在數據中心領域處於霸主地位的英特爾僅增長了 9%。如此懸殊的差距表明，市場中有越來越多的公司正採用深度學習技術；但英特爾已經增加了在深度學習方面的投入與發展力度。本文將就英特爾近期的深度學習產品表達一些見解。

英特爾的人工智慧產品

英特爾加強了人工智慧硬、軟體領域的開發工作。英特爾已在數據中心領域發布了 Xeon 和 Xeon Phi 處理器用於機器學習及其他高性能計算（HPC）應用的通用性案例。為了滿足對人工智慧日益增長的需求，英特爾還推出了兩個用於深入學習模型訓練和高效推理的優化產品：

訓練：英特爾 Xeon 處理器 + 英特爾深度學習引擎「Lake Crest」，「Lake Crest」具有同類之最的神經網路性能，並能提供前所未有的高帶寬互連的計算密度。
推理：英特爾 Xeon 處理器 + FPGA（ARRIA 10）。FPGA 引擎可定製和編程，能提供帶有用於機器學習推理的更高 perf/w 的低延遲以及靈活的精度。該解決方案專為機器學習應用的高效推理和實時預過濾而設計。

下述章節將提供有關 Lake Crest 、英特爾 FPGA 解決方案 ARRIA 10 以及 Xeon Phi 深度學習模型訓練評估結果的更多細節。

Lake Crest

英特爾深度學習引擎「Lake Crest」是一款新型晶元產品，可實現神經網路計算的硬體級優化。與可編程的 FPGA 相比，硬體網路的優勢主要在於：像 Lake Crest 這樣的晶元在運行時能與代碼相適應，並且網路也會在硬體層面進行更新。Lake Crest 具有基於架構的張量，其內存層次結構具有以下特點：高維度（> 2）張量是默認的數據類型；沒有應用緩存機制，由編譯器分配內存。這些張量可讀為轉置或定期。它始終具有 ECC 保護，且應用比 DDR4 快 12 倍的 HBM2 RAM。

Lake Crest 的另一項重要創新是數據傳輸，並擁有高帶寬互連——具有 6 個用於 3D 環面互連的雙向鏈接，這些鏈接比 PCIe 快 20 倍。Lake Crest 的 12 個計算單元直接連接到所有其他計算單元，其吞吐率高達每秒 100 千兆位元組。

Lake Crest 支持用於深度模型的 16 個 FlexPoint，且聚焦於優化佔據大部分神經網路執行時間的 Mat-Mult 和 Convolution。它還支持如（A ^ 2 * 4B）+ C 這樣複雜的 GEMM 函數、自動矩陣阻塞以及部分乘積相加等。

在 Lake Crest 中設計的具體數據類型如圖 1 所示。

英特爾深度學習產品綜述：如何佔領人工智慧市場

圖 1： Lake Crest 支持的數據類型（圖片來自英特爾）。

FlexPoint 引擎能夠實現基於 12x100Gbps interc 和 32 GB HDM2 RAM 的 50TOP。2017 年底將推出基於深度學習平台的 Lake Crest，而 2018 年底將推出下一代英特爾深度學習晶元「Spring Crest」，其能使用 8g winograd 實現 80-90 的 TOP。

Arria 10 FPGA

Arria 10 是英特爾目前用於機器學習的最新一代 FPGA，它的計算能力可以單精度達到 1.5 TF，Int16 達到 3 個 TOP，Int8 達到 6 個 TOP。2017 年末將計劃發布下一代 FPGA——「Stratix 10」，它的計算能力將更強大，單精度高達 9 TF，而 Int16 / 8 則會高達 18/36 TOP。

英特爾為安裝 Arria 10 FPGA 模塊提供了兩種選擇：作為單獨的 PCIe 組件進行安裝，即將來的「離散」版本；另一方面，它可被集成到在內部與處理器直接相連的 Xeon 處理器包中，並在外部與 FPGA 模塊之間直接提供一個連接管道，從而實現靈活的數據訪問，這便是「集成」版本。

表 1 和 2 顯示了使用 Arria 10 FPGA 組件的 Xeon 處理器的吞吐量以及能耗。（所有統計數據收集自英特爾的公開資料。）

英特爾深度學習產品綜述：如何佔領人工智慧市場

表 1：使用 Arria 10 離散版本的英特爾 Xeon

英特爾深度學習產品綜述：如何佔領人工智慧市場

表 2：分類任務中「集成」版本的吞吐量。表中的結果基於以 224x224x3 作為輸入、1000x1 為輸出的 AlexNet 分類。

Xeon Phi Knights Mill

Xeon Phi 處理器被定義為高性能的通用機器學習應用程序。2017 年最新發布的是使用 Groveport 平台的「Knights Landing」（KNL）。下一代晶元「Knights Mill」將在年末推出，它將具有以下計算功能：單精度達到 13.8TF，VNNI 中達到 27.6TOP。VNNI 通過使用 Int16 輸入來支持 2 倍的每秒浮點計算，並且使用 Int32 輸出可以實現與單精度類似的精度。

圖 2 顯示了使用 MxNet 框架對各種深度模型進行推理速度測試的一些基準結果。與開箱即用的性能相比，它經過硬體級別的優化後，可在 2S Intel Xeon 處理器 E5 2699v4 上實現高達 123 倍的提速。

英特爾深度學習產品綜述：如何佔領人工智慧市場

圖 2：對已優化的英特爾微處理器進行推理測試（本圖來自英特爾）。

英特爾推出 Knight Mill＆Groveport 平台來優化訓練性能，該平台在速度、內存以及一致性方面做了整體改進。它具有適於深度學習訓練負荷的高度分布式多節點擴展，能實現高於 KNL 2.5 倍的單精度性能提升。分布式多節點擴展可以越過多達 72 個內核。它具有集成式 16 GB MC DRAM 的高內存帶寬，且具有用於大量人工智慧使用案例的 384GB 的 6 通道 DDR4 存儲能力。本地支持通用的英特爾 Xeon 編程，且該框架已針對開源機器學習框架的行業標準進行了優化，其單精度峰值性能可高達 13.8TF。

據英特爾報告稱，與在 2S 英特爾 Xeon 處理器 E5 2699 v4 中開箱即用的性能相比，它能以優化為基礎，實現高達 340 倍的性能提升用於訓練 TensorFlow 中的 VGG 模型。此外，如圖 3 所示，它可以在英特爾 Xeon Phi 處理器 7250 上實現高達 273 倍的累積加速來訓練 VGG 模型。

英特爾深度學習產品綜述：如何佔領人工智慧市場

圖 3：已優化的英特爾微處理器的累積加速（本圖來自 Intel）。

圖 4 顯示了使用英特爾 Omni Path Fabric 的 GoogleNet v1 擴展至英特爾 Xeon Phi 處理器 7250 中多達 32 個節點集群的訓練時間，圖中表明，最大擴展效率高達 97％。

英特爾深度學習產品綜述：如何佔領人工智慧市場

圖 4：擴展訓練時間。X 軸：節點集群的數量，Y 軸：小時數（本圖來自英特爾）。

軟體及工具

軟體也是英特爾人工智慧計算基礎的重要組成部分。圖 5 顯示了英特爾在深度學習／機器學習環境中所開發的軟體庫以及工具。

英特爾深度學習產品綜述：如何佔領人工智慧市場

圖 5：英特爾的深度學習軟體及工具（本圖來自英特爾）。

很明顯，英特爾正試圖為深度學習／人工智慧產品構建完整的計算基礎。它的深度學習平台不僅支持所有主流的開源深度學習庫，而且專為快速充電的深度神經網路提供了更優的數學內核庫 MKL-DNN。我們把這樣的庫看作計算原語（computational primitive），但英特爾的機器學習擴展庫作為通信原語使用。

最近英特爾的研究團隊在 FPGA"17 會議上發表了一篇名為「FPGA 在下一代深度神經網路的加速中能否勝過 GPU」的論文，該論文對基於英特爾 FPGA 產品 Arria 10 和 Stratix 10 加速深度學習模型的性能提升進行了深入實驗，並相交於目前英偉達的 TitanX Pascal GPU 做出了評估。結果表明，用於深度學習時，英特爾的 FPGA 解決方案與最先進的 GPU 處理器相比更具競爭力。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※重磅｜自動駕駛計算機視覺研究綜述：難題、數據集與前沿成果
※資源｜生成對抗網路及其變體的論文匯總
※三張圖讀懂機器學習：基本概念、五大流派與九種常見演算法
※微軟RobustFill：無需編程語言，神經網路自動生成程序
※採訪完Jessica，我們重新認識了《降臨》里語言學家的世界

TAG:機器之心 |

您可能感興趣

※「馬克思主義國際研究：理論與實踐」學術研討會綜述
※綜述：美國多舉措力保人工智慧「領頭羊」地位
※學界 | 同濟大學綜述論文：基於深度生成模型的藥物研發
※深度綜述：「人工智慧+醫療」的實施現狀與未來發展
※「特朗普現象與重新認識美國」學術研討會綜述
※綜述：中美科學家呼籲加強基礎科學合作
※人工智慧技術在美軍情報分析和指揮決策領域的應用綜述
※同濟大學綜述論文：基於深度生成模型的藥物研發
※學界 | 綜述論文：四大類深度遷移學習
※「中原與北方早期青銅文化互動」學術研討會綜述
※上海生科院周斌發表重磅研究綜述，闡述心血管領域的進展
※海信IFA展會綜述：顯示技術與人工智慧成關鍵點
※科普巨擘科幻傳奇研究先鋒（上）——葉永烈科普科幻創作綜述
※研究人員發表中紅外金屬鹵化物非線性光學材料研究綜述
※《新英格蘭醫學雜誌》綜述：基因治療
※「文藝評論價值體系建設與文化符號學」國際學術研討會會議綜述
※「金磚國家與全球傳播秩序重構」學術研討會綜述
※綜述論文：四大類深度遷移學習
※深度學習文本分類方法綜述
※中國古代北方民族歷史與考古系列學術研討會綜述