Apache Spark和DL/AI結合，誰與爭鋒？期待Spark3.0的到來！

最新 07-21

不知各位，是否關注社區的發展？關注Spark呢？

官網的Spark圖標和解釋語已經發生變化了。

然而在6-18號，社區提出Spark and DL/AI相結合，這無比再一次說明，Spark在大數據的地位是無法撼動的！期待Spark3.0的到來！

接下來對SPARK-24579的翻譯:

在大數據和人工智慧的十字路口，我們看到了Apache Spark作為一個統一的分析引擎以及AI框架如TensorFlow和Apache MXNet (正在孵化中)的興起及這兩大塊的巨大成功。

大數據和人工智慧都是推動企業創新的不可或缺的組成部分，兩個社區的多次嘗試，使他們結合在一起。

我們看到AI社區的努力，為AI框架實現數據解決方案，如TF.DATA和TF.Tror。然而，50+個數據源和內置SQL、數據流和流特徵，Spark仍然是對於大數據社區選擇。

這就是為什麼我們看到許多努力,將DL/AI框架與Spark結合起來，以利用它的力量，例如，Spark數據源TFRecords、TensorFlowOnSpark, TensorFrames等。作為項目Hydrogen的一部分，這個SPIP將Spark+AI從不同的角度統一起來。

沒有在Spark和外部DL/AI框架之間交換數據，這些集成都是不可能的,也有性能問題。然而，目前還沒有一種標準的方式來交換數據，因此實現和性能優化就陷入了困境。例如，在Python中，TensorFlowOnSpark使用Hadoop InputFormat/OutputFormat作為TensorFlow的TFRecords，來載入和保存數據，並將RDD數據傳遞給TensorFlow。TensorFrames使用TensorFlow的Java API，轉換為 Spark DataFrames Rows to/from TensorFlow Tensors 。我們怎樣才能降低複雜性呢?

這裡的建議是標準化Spark和DL/AI框架之間的數據交換介面(或格式)，並優化從/到這個介面的數據轉換。因此，DL/AI框架可以利用Spark從任何地方載入數據，而無需花費額外的精力構建複雜的數據解決方案，比如從生產數據倉庫讀取特性或流模型推斷。Spark用戶可以使用DL/AI框架，而無需學習那裡實現的特定數據api。而且雙方的開發人員都可以獨立地進行性能優化，因為介面本身不會帶來很大的開銷。

ISSUE:https://issues.apache.org/jira/browse/SPARK-24579

若澤數據，星星本人水平有限，翻譯多多包涵。

對了忘記說了，本ISSUE有個PDF文檔，趕快去下載吧。

https://issues.apache.org/jira/secure/attachment/12928222/%5BSPARK-24579%5D%20SPIP_%20Standardize%20Optimized%20Data%20Exchange%20between%20Apache%20Spark%20and%20DL%252FAI%20Frameworks%20.pdf

關於轉載

·如需轉載，請在開篇顯著位置註明文章出處（轉自:若澤大數據ruozedata）

·無原創標識文章請按照原文內容編輯，可直接轉載，轉載後請將轉載鏈接發送給我們；

·有原創標識文章，請發送【文章名稱—待授權公眾號名稱及ID】給我們申請白名單授權。

·未經許可的轉載以及改編者，我們將依照微信公眾號相關規則追究其責任。

人工智慧+大數據第三期

7月15號開班

詳情底部留言諮詢或加ruoze_star

若澤數據小程序:

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 若澤大數據 的精彩文章:

TAG:若澤大數據 |