當前位置:
首頁 > 知識 > Spark運算元講解(上)

Spark運算元講解(上)

1:Zip運算元

Spark運算元講解(上)

2:zipPartitions

以分區為單位進行zip操作,要求分區數目相等。否則異常。

Spark運算元講解(上)

3:zipWithIndex

給RDD中的每一個元素添加上索引號,組成二元組。索引號從0開始並且索引號類型是Long,當RDD分區大於1個時候需要出發一個Spark Job。

4:zipWithUniqueId

Spark運算元講解(上)

其實就是按照每一個的分區的每一個元素的順序進行編號。這個運算元不需要出發作業到集群運行。

5:union

RDD求並集操作,不會自動去重。

Spark運算元講解(上)

6:distinct

Spark運算元講解(上)

實現去重。

7:treeReduce

treeReduce有點類似於reduce函數,也不需要傳入初始值,只不過這個運算元使用一個多層樹的形式來進行reduce操作。

Spark運算元講解(上)

8:aggregate

Spark運算元講解(上)

由於rdd1默認是2個分區,所以在計算兩個分區時候使用兩次,相當於+1,最後合併兩個分區時候有使用一次,相當於再加1.所以一共加3,,即:

1+2+3+4+5+6=21,21+3 =24.另一個只因為多一個分區,所以多累加1.

9:treeAggregate

和8中聚集運算元效果一樣,只不過使用的是樹的層次結構聚集。

10:top

返回前面n個最大元素,可以定義排序規則

文章摘自博客園


中公優就業 幫你成就職業夢:

IT教育專業培訓:https://www.ujiuye.com/

IT職業在線教育:https://xue.ujiuye.com/

大數據時代下做java開發工程師:https://www.ujiuye.com/zt/java/?wt.bd=lsw44106tt

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT優就業 的精彩文章:

盤點互聯網黑色產業
慶祝優就業甘肅分校UI設計微課堂圓滿成功
Python函數

TAG:IT優就業 |