?一,RDD,DataFrame和DataSet
DataFrame參照了Pandas的思想,在RDD基礎上增加了schma,能夠獲取列名信息。
DataSet在DataFrame基礎上進一步增加了數據類型信息,可以在編譯時發現類型錯誤。DataFrame可以看成DataSet[Row],兩者的API介面完全相同。DataFrame和DataSet都支持SQL互動式查詢,可以和 Hive無縫銜接。
DataSet只有在Scala語言和Java語言的Spark介面中才支持,在Python和R語言介面只支持DataFrame,不支持DataSet。