對話英特爾戴金權：BigDL開源一年後 AI飛入尋常百姓家

最新 01-20

智東西文 | Lina

不知道大家有沒有這樣的感覺，人工智慧、深度學習等領域好像每個星期都能取得某項突破性的學術進展，人工智慧時代似乎下一秒就能降臨全球，然而回過頭來看自己的工作生活，又覺得離深度學習還遠得很，八杆子都打不著。

其實，工業級機器學習/深度學習系統是一條非常複雜的大數據分析流水線，演算法研究只佔了其中很小一部分，圍繞它的還有一系列數據收集、數據處理流程要走，這些都不是科研人員關心的事情，而是大數據工程師們關心的問題。

因此，深度學習研究人員和大數據普通用戶中間存在著斷層。

為了進一步拉近深度學習科研人員和真正使用的深度學習的大數據工程師、分析師等的距離，在一年多前，英特爾開源了BigDL項目，讓用戶可以輕鬆、簡單地在大數據集群中進行深度學習應用（用SQL就能寫深度學習應用哦），而且這一項目目前已經受到了AWS、京東、MasterCard等眾多行業用戶的歡迎，是英特爾推動深度學習平民化/民主化的「重磅武器」。

（英特爾高級首席工程師兼大數據技術全球CTO戴金權）

為了進一步了解BigDL項目的神奇之處，以及開源一年來BigDL獲得的眾多進展，智東西近日專程來到了英特爾的上海總部，與少數媒體一同對該項目的負責人、英特爾高級首席工程師兼大數據技術全球CTO戴金權進行了詳細採訪。

在現實生產環節中，生產數據通常是存儲在大數據分布集群里的，這個集群可能是幾千幾萬台計算機的規模。

而一般深度學習的框架並不能支持在這些數據存儲的集群上進行直接運算，因此往往還要單獨設一個十幾台計算機的集群，不斷將數據從大集群拷貝到小集群中進行運算，耗時耗力且浪費資源，成為深度學習落地的一大阻礙。

而且在實驗室里，用於深度學習實驗的數據往往都是已經進過清洗、預處理的「乾淨數據」，研究深度學習的專家學者們可以直接拿來使用。

然而在現實生產環節中則不然，正如上文所說，工業級機器學習系統是一條非常複雜的大數據分析流水線，機器學習演算法只佔了其中很小一部分（比如上圖中的黑色方框部分），還有其他數據收集、數據清理、特徵提取等眾多環節，需要工程師們去一一逐步完成的。

因此，如何直接在數據存儲的地方進行深度學習應用與數據預處理，成為現實生產環節中遇到的考量。

BigDL的研發初衷就是為了解決上文提到的這一問題。

由於BigDL是大數據框架Spark生態的一部分，因此它可以跟現有的大數據平台無縫銜接，讓企業可以在存儲數據的同一個集群上直接進行深度學習的應用（比如實時圖片搜索、人臉識別），也可以在這個集群上進行數據清洗、特徵提取、圖分析等數據預處理工作。

對於個人而言，你可以用現有的軟體工具，在Spark工作流等大數據工具之中直接調用深度學習應用，比如在導入一個能識別狗的AI模型之後，直接寫一句SQL語言就能在上千萬張圖片中找出「狗」的照片，不需要重新學習AI相關的編程語言。

對於公司而言，則可以直接在存儲數據的同一個Hadoop/Spark集群上運行深度學習工作負載、使用深度學習來進行數據分析，讓數據處理更高效、更易用。比如MasterCard就在使用利用BigDL進行用戶-商家的傾向度分析，利用深度學習有針對性地推出促銷廣告，提高促銷準確度。

而且，這一框架非常受雲服務廠商的歡迎——畢竟他們擁有最大規模的計算機集群。對於AWS、阿里雲、微軟雲、京東雲這種向客戶提供深度學習平台的雲服務廠商來說，他們能夠讓深度學習在集群上運行得更快速、更高效、更受用戶歡迎。而且這些雲服務廠商的網站也提供了各種教程，幫助用戶在自己的雲平台來使用BigDL。

目前，BigDL不僅能夠與現有大數據生態系統無縫集成，還支持TensorFlow (TensorBoard)、Caffe、Torch等一系列現有深度學習框架，並且能夠支持大量開箱即用的高級演算法和模型，比如用於視覺處理的OpenCV-on-Spark、還有3D Convolution、Tree-LSTM等等。

BigDL項目在2016年12月30日正式在Github上開源，這也就意味著這個項目現在免費向用戶開放，而且戴金權說，他們在Github上還收到了眾多社區用戶對於該框架的的代碼貢獻，用於BigDL的優化與迭代。

截止至上周，英特爾總共發布了四個主版本的BigDL（0.1.0~0.4.0），支持Spark 1.5～2.2, Scala 2.10~2.11, Python 2.7、3.5~3.6。

戴金權告訴智東西，BigDL項目在正式開源之前已經經過了一年多的研發，一開始只是因為英特爾在實際生產過程中發現了大數據在處理深度學習方面的問題，於是一個小團隊開始進行原型探索。到目前為止，整個BigDL項目已經有二三十人規模，團隊分布橫跨中美。

由於這一項目既包括大數據相關技術，又包括深度學習相關技術，因此涉及到的技術橫跨多個領域，包括大規模分散式系統、深度學習框架、演算法模型、分析和數據模型等等——而在大數據生態系統中，英特爾又恰恰是重要的技術領導者，戴金權本人也是Spark Committer，參與了Spark本身的開發貢獻。

下一步，戴金權和他的團隊們將研究如何進一步提高BigDL的易用性，降低深度學習的應用門檻，包括集成更多深度學習演算法，進一步優化框架等。

無論是谷歌的AutoML還是英特爾的BigDL，都是為了推進深度學習民主化的進程而創立的，它讓擁有資源的大公司不再處於壟斷地位，小公司或者個人即便沒有擁有格外優秀的AI技術人才，也能將機器學習為己所用——這是眾多科技巨頭都在大力推進的方向。

未來，AI也許會成為我們工作生活中一項不可或缺的工具，像Word、Excel一樣簡單易用，人人都能擁有AI的力量。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 智東西 的精彩文章:

※這六家中國公司亮相CES 展示智能家居中國力量

TAG:智東西 |

對話英特爾戴金權：BigDL開源一年後 AI飛入尋常百姓家

一、深度學習與大數據用戶的斷層

二、讓深度學習離大眾近一點，再近一點

三、研發兩年多，團隊橫跨中美

結語：科技巨頭推進深度學習平民化