Spark運算元講解（上）

知識 09-10

1：Zip運算元

Spark運算元講解（上）

2：zipPartitions

以分區為單位進行zip操作，要求分區數目相等。否則異常。

Spark運算元講解（上）

3：zipWithIndex

給RDD中的每一個元素添加上索引號，組成二元組。索引號從0開始並且索引號類型是Long，當RDD分區大於1個時候需要出發一個Spark Job。

4：zipWithUniqueId

Spark運算元講解（上）

其實就是按照每一個的分區的每一個元素的順序進行編號。這個運算元不需要出發作業到集群運行。

5：union

RDD求並集操作，不會自動去重。

Spark運算元講解（上）

6：distinct

Spark運算元講解（上）

實現去重。

7：treeReduce

treeReduce有點類似於reduce函數，也不需要傳入初始值，只不過這個運算元使用一個多層樹的形式來進行reduce操作。

Spark運算元講解（上）

8：aggregate

Spark運算元講解（上）

由於rdd1默認是2個分區，所以在計算兩個分區時候使用兩次，相當於+1，最後合併兩個分區時候有使用一次，相當於再加1.所以一共加3,，即：

1+2+3+4+5+6=21,21+3 =24.另一個只因為多一個分區，所以多累加1.

9：treeAggregate

和8中聚集運算元效果一樣，只不過使用的是樹的層次結構聚集。

10：top

返回前面n個最大元素，可以定義排序規則

文章摘自博客園

中公優就業幫你成就職業夢：
IT教育專業培訓：https://www.ujiuye.com/
IT職業在線教育：https://xue.ujiuye.com/
大數據時代下做java開發工程師：https://www.ujiuye.com/zt/java/?wt.bd=lsw44106tt

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 IT優就業 的精彩文章: