Spark SQL的幾個里程碑

本文講講Spark SQL的幾個里程碑的更新升級。

1. spark 1.0.0誕生了Spark SQL

官方版本是spark 1.0.0引入的Spark SQL模塊。當時這個模塊的核心實際上就是一種新類型的RDD，叫做SchemaRDD。SchemaRDD就是類型為ROW的RDD，但同時又包含了一個描述每一列數據類型的schema信息。SchemRDD也可類似於傳統資料庫的一張表。SchemaRDD可以從已有的RDD創建，可以是Parquet文件，json數據集或則HiveQL生成。該版本引入是在2014年五月30日。