大數據Hadoop和Spark哪個更重要一些?內含學習資料
最新
01-30
當前有不少公司將Spark和Hadoop同步使用,從一名使用者的角度來看,Spark作為一種大數據通用的計算引擎,可能目前尚未成熟,但有朝一日替代Hadoop並非不可能。
1. 相同的演算法,Spark比Hadoop快數倍,如果是一些迭代或者要對數據反覆讀取的演算法,Spark比Hadoop快數十倍至上百倍;
2. Spark對於數據的操作種類更多,對於一些比較特殊的計算需求,比如求兩個集合的交集並集,Spark都有函數直接計算,而Hadoop實現這樣的計算無比繁瑣;
3. Spark的開發效率比Hadoop高很多。
但同時也要看到,Hadoop作為一種分散式系統基礎架構,在目前的企業應用中是比較容易實現的,而且實施成本較低。它的開源特性也使其較為實用。
從內容層面來講,Spark也並非無懈可擊,目前來看Spark還有很多bug,而且可以看的資料也不多。
對於大數據的學習者來說,小編還是建議兩者都不要輕視,都應該當做重點來學習,因為兩者目前在企業中的應用都是比價廣泛而重要的。如果有同學需要Hadoop和Spark資料的同學可以私信小編。


※淺談Hbase和Hive的區別以及分別適用的場景,內附大數據資料
TAG:科技大咖匯 |