Apache Spark和DL/AI結合,誰與爭鋒?期待Spark3.0的到來!
不知各位,是否關注社區的發展?關注Spark呢?
官網的Spark圖標和解釋語已經發生變化了。
然而在6-18號,社區提出Spark and DL/AI相結合,這無比再一次說明,Spark在大數據的地位是無法撼動的!期待Spark3.0的到來!
接下來對SPARK-24579的翻譯:
在大數據和人工智慧的十字路口,我們看到了Apache Spark作為一個統一的分析引擎以及AI框架如TensorFlow和Apache MXNet (正在孵化中)的興起及這兩大塊的巨大成功 。
大數據和人工智慧都是推動企業創新的不可或缺的組成部分, 兩個社區的多次嘗試,使他們結合在一起。
我們看到AI社區的努力,為AI框架實現數據解決方案,如TF.DATA和TF.Tror。然而,50+個數據源和內置SQL、數據流和流特徵,Spark仍然是對於大數據社區選擇。
這就是為什麼我們看到許多努力,將DL/AI框架與Spark結合起來,以利用它的力量,例如,Spark數據源TFRecords、TensorFlowOnSpark, TensorFrames等。作為項目Hydrogen的一部分,這個SPIP將Spark+AI從不同的角度統一起來。
沒有在Spark和外部DL/AI框架之間交換數據,這些集成都是不可能的,也有性能問題。然而,目前還沒有一種標準的方式來交換數據,因此實現和性能優化就陷入了困境。例如,在Python中,TensorFlowOnSpark使用Hadoop InputFormat/OutputFormat作為TensorFlow的TFRecords,來載入和保存數據,並將RDD數據傳遞給TensorFlow。TensorFrames使用TensorFlow的Java API,轉換為 Spark DataFrames Rows to/from TensorFlow Tensors 。我們怎樣才能降低複雜性呢?
這裡的建議是標準化Spark和DL/AI框架之間的數據交換介面(或格式),並優化從/到這個介面的數據轉換。因此,DL/AI框架可以利用Spark從任何地方載入數據,而無需花費額外的精力構建複雜的數據解決方案,比如從生產數據倉庫讀取特性或流模型推斷。Spark用戶可以使用DL/AI框架,而無需學習那裡實現的特定數據api。而且雙方的開發人員都可以獨立地進行性能優化,因為介面本身不會帶來很大的開銷。
ISSUE:https://issues.apache.org/jira/browse/SPARK-24579
若澤數據,星星本人水平有限,翻譯多多包涵。
對了忘記說了,本ISSUE有個PDF文檔,趕快去下載吧。
https://issues.apache.org/jira/secure/attachment/12928222/%5BSPARK-24579%5D%20SPIP_%20Standardize%20Optimized%20Data%20Exchange%20between%20Apache%20Spark%20and%20DL%252FAI%20Frameworks%20.pdf
關於轉載
·如需轉載,請在開篇顯著位置註明文章出處(轉自:若澤大數據ruozedata)
·無原創標識文章請按照原文內容編輯,可直接轉載,轉載後請將轉載鏈接發送給我們;
·有原創標識文章,請發送【文章名稱—待授權公眾號名稱及ID】給我們申請白名單授權。
·未經許可的轉載以及改編者,我們將依照微信公眾號相關規則追究其責任。
人工智慧+大數據第三期
7月15號開班
詳情底部留言諮詢或加ruoze_star
若澤數據 小程序:


TAG:若澤大數據 |