專訪英特爾STO馬子雅：開源BigDL，AI民主化的一步妙棋

新聞 04-13

新智元專訪

作者：張易胡祥傑

【新智元導讀】 英特爾公司軟體與服務事業部副總裁、系統技術和優化部門大數據技術總監馬子雅女士接受了新智元的專訪，暢談了 BigDL 的特點、應用、未來的改進，以及英特爾開源這一深度學習框架的初衷和意義。馬子雅認為，作為 AI 民主化戰略的重要實踐之一，開源 BigDL 反映出「英特爾正致力於將我們的技術提供給我們的社區，為客戶和開發人員釋放 AI 在 IA 上的全部潛力」。

專訪英特爾STO馬子雅：開源BigDL，AI民主化的一步妙棋

作為 AI 民主化戰略的重要實踐之一，英特爾在 2016年的最後一天，開源了基於 Apache Spark 的分布式深度學習框架 BigDL。最近，英特爾公司軟體與服務事業部副總裁、系統技術和優化部門大數據技術總監馬子雅女士接受了新智元的專訪，暢談了 BigDL 的特點、應用、未來的改進，以及英特爾開源這一深度學習框架的初衷和意義。正如馬子雅女士所說，「BigDL 的目標是大大降低普通大數據用戶和數據科學家，在使用深度學習進行數據分析和構建人工智慧應用的門檻」，「英特爾致力於將我們的技術提供給我們的社區，為客戶和開發人員釋放 AI 在 IA （英特爾架構，Intel Architecture）上的全部潛力」。

BigDL 原生地建立於 Hadoop/Spark 之上

新智元：馬女士您好。英特爾開源了基於 Apache Spark 的分布式深度學習框架 BigDL。請問和其他開源框架相比，BigDL 有什麼特點？

馬子雅：BigDL 的目標是大大降低普通大數據用戶和數據科學家，在使用深度學習進行數據分析和構建人工智慧應用的門檻。去年12月31日我們開源了 BigDL；開源社區對 BigDL 的積極採納令人印象非常深刻：在短短一個月內，GitHub 上已獲得 229 個用戶克隆 BigDL 代碼（FORK）和1421個用戶收藏（STAR）。今年2月波士頓舉行了 Spark 峰會，在大會開幕主題演講上，斯坦福大學教授、ApacheSpark 創建者、Databricks CTO Matei Zaharia 高度評價了 BigDL；到目前為止，包括 Databricks（Apache Spark 重要貢獻者）雲平台和微軟 Azure HDInsight 雲服務都提供了與 BigDL 的集成，方便其用戶訪問使用。此外，眾多全球媒體包括 Infoworld，HPCwire，Datanami，HPC，infoq，InsideHPC，計算機商業評論，SiliconAngle，Oreilly 等，以及德國、日本和中國等各國媒體也對 BigDL 也進行了深入的報道。

專訪英特爾STO馬子雅：開源BigDL，AI民主化的一步妙棋

BigDL 是一個建立在大數據平台（Hadoop/Spark）之上原生的分布式深度學習庫。它提供了在 ApacheSpark 上豐富的深度學習功能（和現有框架如 Caffe 和 Torch 等功能一致），以幫助 Hadoop/Spark 成為一個統一的數據分析平台，為整個數據分析和機器學習過程（包括訓練/測試數據收集，數據的管理，轉特徵換，傳統機器學習，深度學習，模型部署和服務等）提供比現有框架更加統一和集成化的體驗。BigDL 程序是作為標準的 Spark 程序編寫的，並且不需要對底層 Hadoop/Spark 集群進行更改；對於擁有（或將擁有）大數據基礎架構的分析客戶，可以在現有 Hadoop/Spark 集群上直接運行深度學習應用，不需要設置單獨的訓練集群，也無需在兩個集群之間拷貝多版本的數據和模型，從而減少了端到端的學習延遲，並降低了總體成本。

基於大數據平台的 BigDL 比現有的深度學習框架有更高效的橫向擴展、容錯性、彈性和動態資源管理；通過利用英特爾 MKL 和其他多線程優化方法，它在單節點 Xeon 上擁有極高的性能，並且可以輕鬆擴展到上百個節點。它還支持載入 Caffe / Torch 的預訓練模型到 Spark 上，來進行特徵提取、微調、預測等。

新智元：英特爾準備如何把人們吸引到 BigDL 中來呢？

馬子雅：我們始終相信，更好地滿足用戶需求的解決方案會得到更好的應用。

近年來，隨著我們與許多大數據分析和 AI 客戶合作，他們的需求有幾個明顯的趨勢：

-客戶體驗和易用性：客戶希望能在同一集群中、在現有的數據分析流水線上進行深度學習，以便輕鬆地與數據管理、特性工程、傳統（非深度）機器學習集成；這樣就能幫助他們消除在不同集群之間的多版本數據/模型的拷貝，降低端到端的機器學習延遲，將深度學習集成到現有的大數據分析工作流中管理，並且實現動態、彈性的機器資源管理。

-大規模深度學習：客戶希望為他們的深度學習模型提供越來越多的數據，以提高訓練的準確性。許多人選擇在大數據（Haoop/Spark）平台之上構建深度學習功能，以便利用其水平擴展架構，分析大規模訓練數據。

專訪英特爾STO馬子雅：開源BigDL，AI民主化的一步妙棋

當為客戶解決這些問題時，第一反應是將現有的深度學習框架集成到客戶的大數據平台上，希望將他們的深度學習能力和 Spark / Hadoop 的可擴展性結合在一起；但是這樣的整合僅僅停留在表面，而缺乏在數據處理或模型集成上的無縫集成。這是我們引入 BigDL 的最大驅動因素。BigDL 與現有深度學習框架的功能一致，但是 BigDL 的優點是它原生地建立在 Spark 上，並且天然地繼承了 Spark 的可擴展性，並且與現有大數據處理工作流（例如 Spark ML pipeline，SparkSQL, Spark Streaming, Dataframes, Structured Streaming 等）無縫集成。所以 BigDL 特別適用於有大量數據需要管理，以及擁有（或將擁有）大數據平台（Hadoop/Spark）的分析客戶。

BigDL 的應用案例和未來改進方向

新智元：BigDL 現在主要應用於哪些領域？您是否可以介紹一兩個應用的案例？

馬子雅：BigDL 的目標是大大降低普通大數據用戶和數據科學家，使用深度學習進行數據分析和構建人工智慧應用的門檻；所以 BigDL 可以和現有大數據分析的工作流（例如Spark ML pipeline，SparkSQL, Spark Streaming, Dataframes, Structured Streaming 等）進行無縫集成。BigDL 雖然是在幾個月前開源的，但實際上我們已經與一些早期合作者，基於以上特性成功構建了基於 BigDL 的深度學習（和人工智慧）的端到端的應用案例。

第一個客戶案例是在鋼鐵製造行業的應用。提高鋼表面缺陷的識別精度對鋼鐵生產和質量控制非常重要；我們與一個知名的鋼鐵生產商合作，使用 Spark 和 BigDL 實現了端到端的深度學習流水線，用於產品缺陷圖像識別。由此客戶顯著地提高了其缺陷識別的精度和能力。

對於金融服務公司來說，由於其廣泛的產品、服務和客戶互動渠道，他們面臨的欺詐交易風險大大增加了。我們與一家金融服務公司合作，使用 Spark 和 BigDL 實施了端到端的學習流水線，即時分析大量數據，為此顯著地提高了欺詐交易檢測率。

新智元：BigDL 之後會在哪些方面做出改進？比如，是否會提供 Python API ？是否會允許更多的其他框架訓練好的模型載入？

馬子雅：Jason Dai 是我們大數據技術全球 CTO，他在 BigDL 的架構構建和工程開發方面發揮了重要的領導作用。在開源後 BigDL 項目得到了全世界許多開源社區用戶的積极參与：例如在 BigDL 開源不到兩個月後，InfoWorld 就在其對深度學習趨勢的預測中，將 BigDL 與 TensorFlow、Caffe 等一起並列為目前最流行的深度學習框架；Jason 和他在上海及矽谷的團隊，基於全世界 BigDL 社區用戶提供的反饋，以及和我們全球的客戶/合作夥伴的密切合作，為 BigDL 項目制定了將來的路線圖（包括新功能、可用性、可擴展性等方面）。我們的下一個版本將在第一季度末左右發布，主要更新包括：增加對 PythonAPI 的支持，提供更好的可視化體驗（利用 Notebook 和 TensorBoard），增加對 macOS 的支持，提供更豐富的 RNN 支持（如對 LSTM 、GRU 等演算法的支持）等等。

Intel-analytics 的其他開源庫及對各類深度學習任務的支持

新智元：除了 BigDL，我們知道 Intel-analytics下面還有另外的開源庫：比如 SparseML等；您是否可以比較一下，這些開源庫分別有什麼特點？應用於哪些場景？

馬子雅：BigDL 能為那些擁有大量數據、以及已建（或將建）大數據集群的用戶，提供構建基於深度學習（和人工智慧）的大數據分析的最優服務。BigDL 天生就可以運行在現有標準的大數據平台（Hadoop/Spark）之上，利用公共的數據基礎架構，在數據採集、特徵提取、傳統機器學習和深度學習工作負載等方面，為客戶提供統一的和無縫集成的完整體驗。它支持大規模的深度學習和機器學習，並提供自動容錯和自動動態彈性資源管理。

對於具有極高模型維度和大量非常稀疏數據（例如，百億到千億級別的訓練樣本，十億級甚至百億級別特徵）的用戶，SparseML 可以顯著地為他們提高機器學習的可擴展性。許多互聯網公司需要從大量的極度稀疏數據中學習模型，他們面臨的挑戰是現有的機器學習解決方案無法處理大量數據或高維度模型；通過利用數據稀疏性，對分布式機器學習數據結構、網路通信和算術運算的優化，SparseML 可以比現有開源的機器學習演算法（例如Spark Mllib）提供更高的可擴展性。

新智元：可以看出，Intel-analytics 在努力形成一個支撐各種應用場景的完整生態。那麼，請允許我問一個比較具體的問題：如果我希望進行深度學習的圖像分類，應該如何從英特爾的產品組合中選擇呢？或者我要處理的數據裡面既包括圖像又包括音頻，又該如何選擇呢？

馬子雅：我們的目標是為機器學慣用戶和開發人員提供從硬體到軟體的最簡便、最完整和最高效的體驗。

為了選擇最合適的解決方案棧，您需要評估一些事情：（1）您是否已有了現有的基礎架構，並希望利用它來構建圖像分類？（2）您最大的需求是什麼：從現有的分布式文件系統/存儲中直接訪問數據存儲，以實現快速的機器學習實驗周期（turn-around time）？是與您現有的分析工作流程或平台輕鬆集成？還是可擴展性（處理大量訓練樣本或高維特徵的能力），高資源利用率，低總擁有成本，訓練性能等等？根據您對這些問題的回答，您可以選擇不同的解決方案。

在硬體層面，我們有各種產品可供選擇，例如：Xeon，Xeon phi，FPGA。將來我們還會有LakeCrest（Nervana silicon）；您可以挑選最適合您的需要的產品。

在深度學習框架層面，我們正在推動 Neon 並將英特爾優化的MKL應用於深度學習框架，比如 Caffe，TensorFlow，Theano 和 Torch 等。如果您喜歡使用這些優化的框架，您可以直接使用它們或通過英特爾深度學習SDK來使用它們。

如果您已經有了大數據（Hadoop/Spark）集群或大數據分析工作流，那麼您很可能更傾向在現有的大數據基礎架構中來進行深度學習。我們正在推動以 Spark /Hadoop 為數據分析和人工智慧的統一平台，來支持端到端的學習工作流，包括從數據管理，特徵管理，特徵工程，模型訓練到最後的結果評估；那麼，BigDL 將會極大地適合你的需求。

從開源到 AI 民主化

新智元：英特爾在人工智慧領域所提供的產品組合已經非常豐富了，其中包括了許多我們今天提到的開源項目，那麼請問馬女士，在英特爾人工智慧的產業布局中，是如何認識「開源」這件事的意義呢？未來是否會有計劃推出更多的開源項目呢？

馬子雅：開源項目有很多原因：

1.建立一個更大的開發社區，可以檢驗我們的設計和解決方案（好不好？哪裡好？哪裡不好？……）。好的開發人員喜歡與好的開發人員合作，與好的項目合作。如果我們的項目流行得足以吸引到外部人員來貢獻力量，那麼我們就相當於創建了一個倍增的開發人員社區，幫助我們工作得更快更好；

2.加速客戶使用：隨著我們的項目開源，它幫助更多的用戶和客戶從我們的工作中受益；他們的成功反過來會影響其他客戶和用戶使用這些解決方案。來自這些快速擴張的用戶群的反饋也可以反過來影響我們的路線圖和設計，以更好地服務用戶的需求；

3.開源項目也是我們為行業和社區支持 AI 的承諾做出的最好的展示。

隨著我們與行業客戶和合作夥伴的繼續合作，確定新的需求領域，我們將繼續推動新的項目開源，就像我們這次為 BigDL 所做的。英特爾致力於開源協作，確保我們的客戶和合作夥伴在英特爾硬體上擁有最佳、最簡便、最完整的 AI 體驗。

新智元：在英特爾的人工智慧戰略中，Democratize AI 是一個非常重要的組成部分。請問英特爾是如何定義自己在人工智慧領域的「 democratize 」的？準備採取什麼舉措來服務企業級用戶和開發者？同時，又準備如何更好地服務已經習慣使用CPU來做深度學習項目的用戶，比如高校、研究機構中的研究人員？

馬子雅：英特爾致力於將我們的技術提供給我們的社區，為客戶和開發人員釋放 AI 在 IA 上的全部潛力。

我們將與開源社區廣泛合作，以便讓更廣泛的受眾可以利用我們的工作。在DL框架級別，我們推動開源 Neon，並將英特爾優化的 MKL 應用於開源框架例如 Caffe，Tensorflow，Theano，Torch 等（一個例子是英特爾和谷歌去年宣布戰略聯盟，以加速機器學習的應用，例如加速英特爾處理器上的 TensorFlow 性能，將高性能庫如 Math Kernel Library (MKL)集成到 TensorFlow）。我們還開源基於大數據和 Spark 的深度學習框架比如 BigDL。英特爾深度學習 SDK 讓客戶和開發人員易於使用和訪問這些框架，以便客戶能夠更好地專註於真正增值的機器學習工作。

英特爾也傳播AI知識。在英特爾 NervanaAI 學院，在英特爾開發區 (Intel developer zone)，我們提供了大量的AI知識共享、框架優化信息、工具和庫。我們還有英特爾學生開發項目為學生提供培訓，針對不同的大學我們還有學生大使和推廣計劃。我們還提供線上和線下的研討會，開發人員和開源社區用戶的 meetup 等。英特爾還與Coursera合作製作在線AI課程。去年底英特爾，MobileODT 和 kaggle 推出數據科學競賽，關注宮頸癌的診治。我們繼續與業界合作夥伴和客戶合作，幫助他們解決業務或現實生活中的問題。

對於已經使用 CPU 進行深度學習的客戶，我們一直在改進我們的新一代 CPU 以提高我們的訓練性能和成本效益。這些客戶可以隨時利用英特爾 MKL 在英特爾硬體上實現最佳訓練性能。除了這些客戶，大數據客戶今天也在 CPU 上運行他們的數據平台。隨著大數據和 AI 的緊密、無縫集成，這些客戶不僅能享受 AI 功能，而且通過使用大數據平台，可以在例如可擴展性、容錯性、易用性和動態彈性資源管理等方面受益。

專訪英特爾STO馬子雅：開源BigDL，AI民主化的一步妙棋

3月27日，新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開，包括「BAT」在內的中國主流 AI 公司、600多名行業精英齊聚，共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。

點擊閱讀原文，查閱文字版大會實錄

訪問以下鏈接，回顧大會盛況：

阿里雲棲社區：http://yq.aliyun.com/webinar/play/199
愛奇藝：http://www.iqiyi.com/l_19rrfgal1z.html
騰訊科技：http://v.qq.com/live/p/topic/26417/preview.html

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※新智元327技術峰會人工智慧創業家夢想秀：山世光、汪冠春、周曦演講實錄（PPT）
※機器學習快速粉碎摩爾定律，醫院已開始摘取AI低枝果實
※「盤點」2017年機器學習領域重點會議List（知名講者名單）
※神經網路教父 Hinton 傳奇：從建築學到物理學再到哲學，最後在人工智慧取得成就
※脫碳入硅：不是人類被機器取代，而是「人類社會」被「社會機器」取代

TAG:新智元 |

您可能感興趣

※iMac、MBP和MB全線更新英特爾七代酷睿CPU
※英特爾Intel的CPU挑選經驗
※iMac、MBP和MB更新英特爾第七代CPU
※英特爾無線VR和TPCAST哪家強
※VR大新聞：英特爾裁撤AR部門、索尼註冊新VR商標、ABI發布VR醫療報告、Magic Leap發布新視頻……
※英特爾、Oculus和ESL聯合舉辦VR競技挑戰賽
※英特爾叫停Project Alloy一體機計劃；帕胖：我在進行VR新項目；HTC值得尊敬
※英特爾推出新的Skylake 迎擊AMD Epyc
※推動AI民主化英特爾開源BigDL背後的原動力
※Facebook、HTC和英特爾是VR最大的投資者
※HTC和英特爾聯合為Vive開發WiGig無線連接方案
※英特爾中止VR一體機「Project Alloy VR」項目
※英特爾發布Movidius Myriad X VPU：提出神經計算引擎
※[圖]英特爾Skylake X跑分曝光:以及和AMD Ryzen處理器對比
※英特爾在NABShow上展示VR電影蛋椅
※英特爾攜手AT&T和愛立信進行DIRECTV NOW流媒體直播服務的5G試驗
※遊戲宅的福音！英特爾新發布Myriad X超強視覺處理AI晶元
※立足日本實施大動作，英特爾憑藉「Chainer」AI代碼項目向GPU開火
※英特爾發布六款「Dawson Canyon」NUC新品