當前位置:
首頁 > 最新 > Apache Spark和DL/AI結合,誰與爭鋒?期待Spark3.0的到來!

Apache Spark和DL/AI結合,誰與爭鋒?期待Spark3.0的到來!

不知各位,是否關注社區的發展?關注Spark呢?

官網的Spark圖標和解釋語已經發生變化了。

然而在6-18號,社區提出Spark and DL/AI相結合,這無比再一次說明,Spark在大數據的地位是無法撼動的!期待Spark3.0的到來!

接下來對SPARK-24579的翻譯:

在大數據和人工智慧的十字路口,我們看到了Apache Spark作為一個統一的分析引擎以及AI框架如TensorFlow和Apache MXNet (正在孵化中)的興起及這兩大塊的巨大成功 。

大數據和人工智慧都是推動企業創新的不可或缺的組成部分, 兩個社區的多次嘗試,使他們結合在一起。

我們看到AI社區的努力,為AI框架實現數據解決方案,如TF.DATA和TF.Tror。然而,50+個數據源和內置SQL、數據流和流特徵,Spark仍然是對於大數據社區選擇。

這就是為什麼我們看到許多努力,將DL/AI框架與Spark結合起來,以利用它的力量,例如,Spark數據源TFRecords、TensorFlowOnSpark, TensorFrames等。作為項目Hydrogen的一部分,這個SPIP將Spark+AI從不同的角度統一起來。

沒有在Spark和外部DL/AI框架之間交換數據,這些集成都是不可能的,也有性能問題。然而,目前還沒有一種標準的方式來交換數據,因此實現和性能優化就陷入了困境。例如,在Python中,TensorFlowOnSpark使用Hadoop InputFormat/OutputFormat作為TensorFlow的TFRecords,來載入和保存數據,並將RDD數據傳遞給TensorFlow。TensorFrames使用TensorFlow的Java API,轉換為 Spark DataFrames Rows to/from TensorFlow Tensors 。我們怎樣才能降低複雜性呢?

這裡的建議是標準化Spark和DL/AI框架之間的數據交換介面(或格式),並優化從/到這個介面的數據轉換。因此,DL/AI框架可以利用Spark從任何地方載入數據,而無需花費額外的精力構建複雜的數據解決方案,比如從生產數據倉庫讀取特性或流模型推斷。Spark用戶可以使用DL/AI框架,而無需學習那裡實現的特定數據api。而且雙方的開發人員都可以獨立地進行性能優化,因為介面本身不會帶來很大的開銷。

ISSUE:https://issues.apache.org/jira/browse/SPARK-24579

若澤數據,星星本人水平有限,翻譯多多包涵。

對了忘記說了,本ISSUE有個PDF文檔,趕快去下載吧。

https://issues.apache.org/jira/secure/attachment/12928222/%5BSPARK-24579%5D%20SPIP_%20Standardize%20Optimized%20Data%20Exchange%20between%20Apache%20Spark%20and%20DL%252FAI%20Frameworks%20.pdf

關於轉載

·如需轉載,請在開篇顯著位置註明文章出處(轉自:若澤大數據ruozedata

·無原創標識文章請按照原文內容編輯,可直接轉載,轉載後請將轉載鏈接發送給我們;

·有原創標識文章,請發送【文章名稱—待授權公眾號名稱及ID】給我們申請白名單授權。

·未經許可的轉載以及改編者,我們將依照微信公眾號相關規則追究其責任。

人工智慧+大數據第三期

7月15號開班

詳情底部留言諮詢或加ruoze_star

若澤數據 小程序:


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 若澤大數據 的精彩文章:

TAG:若澤大數據 |