台湾 || 语言: 大陆简体港澳繁體台灣正體

2小時入門SparkSQL編程

雪花臺灣 2019-07-21 04:04

?一，RDD，DataFrame和DataSet

DataFrame參照了Pandas的思想，在RDD基礎上增加了schma，能夠獲取列名信息。

DataSet在DataFrame基礎上進一步增加了數據類型信息，可以在編譯時發現類型錯誤。DataFrame可以看成DataSet[Row]，兩者的API介面完全相同。DataFrame和DataSet都支持SQL互動式查詢，可以和 Hive無縫銜接。

DataSet只有在Scala語言和Java語言的Spark介面中才支持，在Python和R語言介面只支持DataFrame，不支持DataSet。

相關文章