Spark運算元講解(上)
知識
09-10
1:Zip運算元
2:zipPartitions
以分區為單位進行zip操作,要求分區數目相等。否則異常。
3:zipWithIndex
給RDD中的每一個元素添加上索引號,組成二元組。索引號從0開始並且索引號類型是Long,當RDD分區大於1個時候需要出發一個Spark Job。
4:zipWithUniqueId
其實就是按照每一個的分區的每一個元素的順序進行編號。這個運算元不需要出發作業到集群運行。
5:union
RDD求並集操作,不會自動去重。
6:distinct
實現去重。
7:treeReduce
treeReduce有點類似於reduce函數,也不需要傳入初始值,只不過這個運算元使用一個多層樹的形式來進行reduce操作。
8:aggregate
由於rdd1默認是2個分區,所以在計算兩個分區時候使用兩次,相當於+1,最後合併兩個分區時候有使用一次,相當於再加1.所以一共加3,,即:
1+2+3+4+5+6=21,21+3 =24.另一個只因為多一個分區,所以多累加1.
9:treeAggregate
和8中聚集運算元效果一樣,只不過使用的是樹的層次結構聚集。
10:top
返回前面n個最大元素,可以定義排序規則
文章摘自博客園
中公優就業 幫你成就職業夢:
IT教育專業培訓:https://www.ujiuye.com/
IT職業在線教育:https://xue.ujiuye.com/
大數據時代下做java開發工程師:https://www.ujiuye.com/zt/java/?wt.bd=lsw44106tt
※盤點互聯網黑色產業
※慶祝優就業甘肅分校UI設計微課堂圓滿成功
※Python函數
TAG:IT優就業 |