英特爾如何破解AI時代的大數據難題？

新聞 06-03

「我們之所以推出Analytics Zoo這樣的大數據分析和人工智慧平台，就是希望讓用戶在實際的生產環境中可以更方便地構建深度學習應用，將不同的模塊、不同的框架統一到端到端流水線上，從而大幅提升客戶開發部署大數據分析和深度學習的能力。」英特爾高級首席工程師、大數據技術全球CTO戴金權說，已供職英特爾近17年的戴金權如今負責領導英特爾全球（矽谷和上海）工程團隊高級大數據分析的研發工作，以及與全球研究機構（如UC Berkeley AMPLab、RISELab等）的技術合作，是BigDL和Analytics Zoo項目的創始人。

英特爾高級首席工程師、大數據技術全球CTO戴金權

為了幫助客戶在數據的海洋中抓住商業價值，並且讓這一過程通過更加智能化的手段變得簡單易用，英特爾在底層架構和軟體堆棧領域一直在持續投入。在2019全球人工智慧技術大會上，戴金權分享了英特爾構建大數據分析 AI平台背後的思考和實踐，而兩大開源項目BigDL、Analytics Zoo可謂是其中的代表。

BigDL是一個建立在大數據平台之上原生的分散式深度學習庫，某種程度上類似Tensorflow、Caffe等DL框架，提供了在Apache Spark上豐富的深度學習功能，以幫助Hadoop/Spark成為統一的數據分析平台，為整個數據分析和機器學習過程提供比現有框架更加集成化的支持。Analytics Zoo則是在Apache Spark、BigDL以及TensorFLow、Keras的基礎上構建的大數據分析 AI平台，大幅降低用戶開發基於大數據、端到端深度學習應用的門檻。

生產環境面臨數據難題

《連線》雜誌創始主編Kevin Kelly曾說：「大數據時代，沒有人能夠成為旁觀者，數據將『橫掃一切』。」隨著萬物互聯時代的到來，數據對於客戶需求的指導性意義愈發凸顯，如何採集、傳輸、存儲、分析、處理數據成為各行各業攫取數字經濟紅利的必備技能，可以說「數據在哪裡，生意就在哪裡」。而英特爾所做的事情，就是讓這一切變得簡單高效。「如今深度學習、人工智慧的應用場景更加廣泛，要處理的數據也更加複雜，所以要構建端到端的大數據處理分析加上機器學習、深度學習的統一流水線。」戴金權說。

不過要做到這些並不容易，當前的生產系統中基於Apache Spark這樣的大數據集群仍是生產數據和大量硬體資源的聚集地，這樣生產資料和生產工具要通過AI應用串聯起來。同時，工業級的分析平台需要對數據收集/導入/處理、特徵提取、模型訓練、部署、推理等一系列的複雜工作流做出響應，難度可想而知。

從架構角度來看，很多獨立的深度學習框架與大數據平台的架構存在差異，例如前者對高性能有著格外的要求，後者更注重於橫向擴展，這樣一來就需要在一個通用的大數據平台上將不同的分散式深度學習系統統一兼容起來。此外，無論是利用Spark還是像Flink這樣的流處理框架，都要將數據處理的流水線和深度學習相互連接，在數十甚至是數千個節點的集群上提升計算效率和可擴展性。

從生產角度來看，像工業大數據在構建數據倉庫時往往會面對高達數百個KPI的流程處理，而且不同企業所面臨的數據類型和需求也是千差萬別，例如有些偏向對圖像或視頻數據的建模、訓練、推理，需要很多的卷積神經網路優化（CNN），而有些則是時序數據，要收集設備每秒鐘的振動頻率，並對這些數據進行循環神經網路（RNN）的分析。由此引發出來的兩個挑戰，一是要手動把不同框架整合起來，二是用戶在處理數據時不再是單機環境，而是要在大規模分散式環境、甚至是生產環境中操作。

戴金權談到，無論是阿里雲、騰訊雲等CSP廠商，還是硬體OEM廠商、軟體提供商，其主要訴求都是希望將深度學習等AI框架和模型應用於數據在生產系統上跑起來，這也是客戶使用Analytics Zoo的一個重要原因，「我們可以幫助用戶將大數據分析 AI應用在端到端的流水線上輕鬆構建出來，它可以從PC終端運行到集群、生產環境當中，這是我們在底層Analytics Zoo所做的工作。」

端到端的一致性體驗

在Analytics Zoo之下，英特爾集成了豐富的深度學習框架和庫，可以隨時調用OpenVINO工具包、MKL-DNN等各種深度學習加速指令。同時，英特爾在上層也提供了高級的流水線API用於構建端到端的應用，以及深度學習模型，對圖片、文本、時間序列數據等不同類型的對象提供支持，用戶可以直接將內嵌的模型嵌入到解決方案中。

舉例來說，英特爾可以將TensorFlow和Apache Spark整合到端到端的流水線中，讓TensorFlow無縫接受Apache Spark處理的數據，並且對用戶透明，以分散式的方式運行在大數據集群上。此外，還提供了像基於標準JAVA 、Python、Web Server、深度學習尤其是視覺方面的神經網路加速，幫助用戶更方便地部署到網路伺服器上，幫助用戶更好地構建模型和開展服務。

這一過程中，英特爾不僅在性能層面圍繞BigDL、Analytics Zoo做了大量優化，還有效解決了可編程性的問題，使得用戶可以在Spark代碼中嵌入TensorFlow代碼，省去了不同框架之間反覆調試等複雜的流程。在可擴展性和部署方面，開發人員可以直接在大規模數據平台進行作業，這裡就發揮了Analytics Zoo在大規模分散式、流式、批處理時的特性。

「我們可以支持各種不同的深度學習框架，比如要是原來有Caffe的模型，可以直接通過BigDL、Analytics Zoo載入到Spark運行，然後對HBase讀取數據，這個天然就是Spark可以做的事情。後面深度學習的模型通過BigDL、Analytics Zoo的功能，可以透明、無縫的與大數據處理相結合，整個開發過程是非常簡單的。」戴金權表示，「所有分散式的任務、數據的分割、負載均衡，出錯後如何處理，這些事情不再需要開發人員來擔心，完全可以交給大數據平台來做，效率能夠大幅提升。」

Analytics Zoo支持多種AI框架和庫

即將發布的0.5.0版Analytics Zoo，英特爾會結合傲騰數據中心級持久內存等新的硬體平台對軟體演算法進行支持和優化，如Spark RDD的緩存機制在內存中計算訓練數據可以實現降本增效、VNNI指令集可以大幅提升AI性能。框架語言多元化方面，英特爾除了會支持PyTorch，還將加入對像RISELab的Ray等最新框架的支持。

智能化改造效果顯著

一直以來，英特爾都在與開源社區用戶，以及多個合作夥伴和客戶開展廣泛合作，包括京東、UCSF、Mastercard、寶信軟體、世界銀行、Cray等，以構建基於Apache Spark的深度學習和人工智慧應用，而BigDL和Analytics Zoo將端到端的開發和部署體驗更進一步。例如在京東，雙方基於Spark和BigDL的深度學習技術在搭建大規模圖片特徵提取框架上進行了合作。

京東電商平台的圖像信息數以億計，分布在大規模的HBase集群中，過去要使用Caffe將訓練出來的模型放在GPU集群上，如果想把流水線串聯起來就要通過人工的方法把數據從HBase讀出來後對圖片預處理，再返回給GPU集群進行推理，如此反覆數次後將得到的數據再次手動整合起來，開發運行效率和部署方式都存在問題。

對此，英特爾認為應該將讀取、處理、神經網路推理、數據處理和存儲等全流程統一到一個流水線上進行，並且可以直接運行再大數據集群上，進而大幅提升端到端的效率。「京東做過測試，當他們把原來的方案整體遷移到Spark BigDL這樣一個完整的流水線上（基於CPU）之後，端到端的運行效率提高了3、4倍。」戴金權說。

基於BigDL的圖像特徵提取

K40和Xeon在圖片特徵提取流水線的吞吐量比較

與寶信軟體的合作，雙方則是在深度學習的基礎上探索出了設備智能維護的新方向。在工業製造行業，通常對由設備失效導致的生產中斷問題，所給出的解決方法是定期檢修維護或者提前更換設備零部件，成本居高不下。在英特爾的幫助下，兩家公司開發了設備故障自動預測的驗證模型，該模型基於公開的設備全生命周期數據，利用RNN和LSTM，實現了時間序列的異常檢測，可以藉助無監督深度學習和建模對設備下一時刻的運行健康狀況進行預判，降低了額外的設備維護成本。

在和這些行業客戶聯合研發的過程中，英特爾也切實看到了場景應用的痛點所在，那就是儘管企業在深度學習、機器學習的技術研發上投入頗多，但怎樣將這些創新融入實踐環境，尤其是大規模的大數據生產系統，在軟硬體架構的支持和優化上存在不小的缺陷，而這一「斷層」就是英特爾致力於去彌合的，方法即是利用開源和軟硬結合的路徑。

Analytics Zoo與底層硬體的優化，並且可與CSP的產品無縫協作

軟體與開源的新高度

就像英特爾首席架構師英特爾公司高級副總裁兼架構、圖形與軟體部門總經理Raja Koduri所說的：「對於全新硬體架構的每一個數量級的性能提升潛力，軟體能帶來超過兩個數量級的性能提升。」這樣的例子比比皆是，戴金權以Cascade Lake上的VNNI深度學習加速指令為例，通過在底層的軟硬體協同優化，可根據不同DL框架將推理性能加速2-3倍甚至更多。

在英特爾的軟體生態中，活躍著超過1200萬名開發者，為了讓開發者利用通用工具集實現應用性能的指數級擴展，英特爾推出了「One API」項目，以簡化跨CPU、GPU、FPGA、人工智慧和其它加速器的各種計算引擎的編程，該項目包括一個全面、統一的開發工具組合，可以將軟體匹配到能最大程度加速軟體代碼的硬體上，從而讓英特爾的計算架構釋放出更高的性能和效率。

戴金權表示：「無論是基於至強（可擴展處理器）的伺服器，還是像Movidius、FPGA，神經網路處理器，包括將來的獨立顯卡，都可以通過One API下面的底層生態系統來給上層的平台和應用所使用。」

為了讓用戶在x86平台上獲得更優質的體驗，英特爾一直都在致力於軟體的創新，開源更是英特爾軟體生態策略的重要體現，不僅對Tensorflow、PyTorch、MXNet、PaddlePaddle等AI框架進行了大量優化，自己也開源了BigDL、Analytics Zoo、OpenVINO、MKL-DNN、nGraph等項目，戴金權本人更是Apache Spark項目的創始委員和項目管理委員會委員、Apache MXNet項目導師。

此外，在前不久的英特爾開源技術峰會（Intel Open Source Technical Summit，OSTS）上，筆者看到了高性能集成開源軟體棧Deep Learning Reference Stack與企業分析、分類、識別和數據處理工具Data Analytics Reference Stack的發布，這些都是英特爾為了融合從框架、庫、OS、VM等軟體到硬體平台優化體驗所做出的努力。

或許是因為英特爾在半導體領域的地位過於強勢，外界常常忽視其在軟體和開源領域的成績。事實上，英特爾擁有超過15000名軟體工程師，軟體布局橫跨數據中心基礎設施、操作系統、產品開發、ISV、工具/SDK、雲計算、物聯網、AI、HPC、邊緣計算等領域。

過去的6個月時間裡，英特爾在軟體領域取得了數百項成果，包括從JDK8到JDK9，將現有硬體的性能提升6倍；結合內存層級架構，加上軟體棧技術，通過傲騰軟體的方式將工作負載的性能提升8倍；利用DL Boost等架構擴展，使得從Skylake升級到Cascade Lake之後，相比上一代硬體提速28倍……這一系列的表現若是從硬體的角度看都是數代的硬體性能提升。

這一切的背後都在印證，軟硬結合、開源協作已經變得越來越重要。正如戴金權在採訪中對筆者所說的：「如果想實現指數級的增長，必須要硬體和軟體共同創新。軟體社區和硬體社區相互交流，並真正去思考彼此的問題，這比以往任何時候都更加關鍵。」

調查區域：企業小調查(點擊預覽可查看效果)

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 中關村在線 的精彩文章:

※快手日活突破2億有1600萬人從此獲得收入
※7nm＋EUV量產麒麟985將領先蘋果A13率先採用

TAG:中關村在線 |