在数据分析过程中,数据的不同分布形态将直接影响数据分析策略的选择。因此,对数据分布形态的判定是非常重要内容。常见的数据分布形态有正态分布、均匀分布、指数分布、泊松分布等。但最重要也是最有用的分布形态是正态分布,很多数据分析技术都是面向正态分布的定距变数。
下面介绍数据正态性的几种判断方法,这些方法其实也适用于其它分布。在Excel中没有数据分布形态判断的功能,但是SPSS中有丰富判断工具。理解判断方法的理论依据是做出正确方法选择的基础,掌握理论再借助SPSS等软体的快速计算展现就能事半功倍。
主观判断法
表示频率分布的图形有很多:直方图、曲线图、箱线图和茎叶图等。将待检数据作成这些图形,并与这些图形的正态分布形式对比,可以主观的判断待测数据的分布情况是否为正态分布。这种判断方法的精度不高,但是简单直观快速,对于偏离正态分布很多的数据集,用这种方式就足够了。这里不作过多的操作介绍,分享几幅非正态分布的直方图给大家,大家一眼就能判断它们不是正态分布的吧: