台湾 || 语言: 大陆简体港澳繁體台灣正體

2小时入门SparkSQL编程

雪花台湾 2019-07-21 04:04

?一，RDD，DataFrame和DataSet

DataFrame参照了Pandas的思想，在RDD基础上增加了schma，能够获取列名信息。

DataSet在DataFrame基础上进一步增加了数据类型信息，可以在编译时发现类型错误。DataFrame可以看成DataSet[Row]，两者的API介面完全相同。DataFrame和DataSet都支持SQL互动式查询，可以和 Hive无缝衔接。

DataSet只有在Scala语言和Java语言的Spark介面中才支持，在Python和R语言介面只支持DataFrame，不支持DataSet。

相关文章