台湾 || 语言: 大陆简体港澳繁體台灣正體

Spark常用運算元

雪花臺灣 2019-07-20 21:08

Spark的運算元分類：

從大方向說，Spark運算元大致可以分為以下兩類：

（1）Transformation變換/轉換運算元：這種變換並不觸發提交作業，這種運算元是延遲執行的，也就是說從一個RDD轉換生成另一個RDD的轉換操作不是馬上執行，需要等到有Action操作的時候才會真正觸發。

（2）Action行動運算元：這類運算元會觸發SparkContext提交job作業，並將數據輸出到Spark系統。

從小方向說，Spark運算元大致可以分為以下三類：

（1）Value數據類型的Transformation運算元，這種變換並不觸發提交作業，針對處理的數據項是Value型的數據

（2）Key-Value 數據類型的Transformation運算元，這種變換並不觸發提交作業，針對處理的數據項是Key-Value型的數據對

（3）Action運算元：這類運算元會觸發SparkContext提交Job作業

（一）Value數據類型的Transformation運算元：

（1）輸入分區與輸出分區一對一型：

1.map運算元

2.flatMap運算元

3.mapPartitions運算元

4.mapPartitionsWithIndex運算元

（2）輸入分區與輸出分區多對一型

5.union運算元

6.cartesian運算元

（3）輸入分區與輸出分區多對多型

7.groupBy運算元、groupByKey運算元

（4）輸出分區是輸入分區子集類型

8.filter運算元

9.distinct運算元

10.subtract運算元

11.sample運算元

（5）Cache運算元

13.cache運算元

14.persist運算元

（二）Key-Value數據類型的Transformation運算元

（1）輸入分區與輸出分區一對一

15.mapValues運算元

（2）對單個RDD或者兩個RDD聚集

單個RDD聚集

16.combineByKey運算元

17.reduceByKey運算元

18.repartition運算元

兩個RDD聚集

19.cogroup運算元

（3）連接

20.join運算元

21.leftOutJoin和rightOutJoin運算元、fullOuterJoin運算元

（三）Action運算元

（1）無輸出

22.foreach運算元

（2）HDFS

23.saveAsTextFile運算元

24.saveAsObjectFile運算元

（3）Scala集合和數據類型

25.collect運算元

26.collectAsMap運算元

27.count，countByKey，CountByValue運算元

28.take、takeSample運算元

29.reduce運算元

30.aggregate運算元

31.zip、zipWithIndex運算元

Transformation：

1.map運算元

處理數據是一對一的關係，進入一條數據，出去的還是一條數據。map的輸入變換函數應用於RDD中所有的元素，而mapPartitions應用於所有分區。區別於mapPartitions主要在於調度粒度不同。如parallelize（1 to 10 ，3），map函數執行了10次，而mapPartitions函數執行了3次。

val infos: RDD[String] = sc.parallelize(Array[String]("hello spark","hello hdfs","hello HBase")) val result: RDD[Array[String]] = infos.map(one => { one.split(" ") }) result.foreach(arr =>{arr.foreach(println)})

執行結果：

相關文章