在數據分析過程中,數據的不同分布形態將直接影響數據分析策略的選擇。因此,對數據分布形態的判定是非常重要內容。常見的數據分布形態有正態分布、均勻分布、指數分布、泊松分布等。但最重要也是最有用的分布形態是正態分布,很多數據分析技術都是面向正態分布的定距變數。
下面介紹數據正態性的幾種判斷方法,這些方法其實也適用於其它分布。在Excel中沒有數據分布形態判斷的功能,但是SPSS中有豐富判斷工具。理解判斷方法的理論依據是做出正確方法選擇的基礎,掌握理論再藉助SPSS等軟體的快速計算展現就能事半功倍。
主觀判斷法
表示頻率分布的圖形有很多:直方圖、曲線圖、箱線圖和莖葉圖等。將待檢數據作成這些圖形,並與這些圖形的正態分布形式對比,可以主觀的判斷待測數據的分布情況是否為正態分布。這種判斷方法的精度不高,但是簡單直觀快速,對於偏離正態分布很多的數據集,用這種方式就足夠了。這裡不作過多的操作介紹,分享幾幅非正態分布的直方圖給大家,大家一眼就能判斷它們不是正態分布的吧: