在數據分析過程中,數據的不同分布形態將直接影響數據分析策略的選擇。因此,對數據分布形態的判定是非常重要內容。常見的數據分布形態有正態分布、均勻分布、指數分布、泊松分布等。但最重要也是最有用的分布形態是正態分布,很多數據分析技術都是面向正態分布的定距變數。

下面介紹數據正態性的幾種判斷方法,這些方法其實也適用於其它分布。在Excel中沒有數據分布形態判斷的功能,但是SPSS中有豐富判斷工具。理解判斷方法的理論依據是做出正確方法選擇的基礎,掌握理論再藉助SPSS等軟體的快速計算展現就能事半功倍。

主觀判斷法

表示頻率分布的圖形有很多:直方圖、曲線圖、箱線圖和莖葉圖等。將待檢數據作成這些圖形,並與這些圖形的正態分布形式對比,可以主觀的判斷待測數據的分布情況是否為正態分布。這種判斷方法的精度不高,但是簡單直觀快速,對於偏離正態分布很多的數據集,用這種方式就足夠了。這裡不作過多的操作介紹,分享幾幅非正態分布的直方圖給大家,大家一眼就能判斷它們不是正態分布的吧:

P-P圖和Q-Q圖

P-P圖是根據變數的累積比例與指定分布的累積比例之間的關係所繪製的圖形(P是累積比例單詞的首字母)。當數據符合指定分布時,P-P圖中各點近似一條直線。以樣本的累積頻率作為橫坐標,以按照正態分布計算的相應累積頻率作為縱坐標。舉例如下圖:

從上圖可以判斷數據序列是正態分布的。

Q-Q圖與P-P圖類似,只不過Q-Q圖是以分位數作為橫縱坐標。它用標準正態分布的分位數作為橫坐標,樣本值作為縱坐標。利用Q-Q圖鑑別樣本數據是否近似於正態分布,只需看圖上的點是否在一條直線附近,如下圖:

P-P圖和Q-Q圖的判斷精度比主觀判斷法的精度更高,但仍然沒有量化判斷標準,所以還是將它們歸類為主觀判斷的範疇。

卡方擬合優度檢驗

這部分的內容,在之間介紹過,具體過程請回顧:正態分布的卡方檢驗;它的原理就是將實際頻率與期望頻率差值的平方和期望頻率的平方作為卡方統計量的分子和分母,算出得卡方值與卡方臨界值對比,判斷數據序列是否為卡方分布。

K-S正態性檢驗

Kolmogorov-Smirnov正態性檢驗法是檢驗單一樣本是否來自某一特定分布。比如檢驗一組數據是否為正態分布。它的檢驗方法是以樣本數據的累積頻數分布與特定理論分布的累積頻率比較,若兩者間的差距很小,則推論該樣本取自某特定分布族。它的推斷過程如下:

卡方擬合優度檢驗與K-S正態檢驗都採用實際頻數與期望頻數進行檢驗。它們之間最大的不同在於前者主要用於類別數據,而後者主要用於有計量單位的連續和定量數據,擬合優度檢驗雖然也可以用於定量數據,但必須先將數據分組得到實際觀測頻數,並要求多變數之間獨立,而K-S正態檢驗法可以不分組直接把原始數據的n個觀測值進行檢驗,所以它對數據的利用較完整。其它方法上面介紹的這些方法是常用的正態分布檢驗方法,除此之外,還有利用正態分布百分位及峰度偏度特性進行檢驗的方法。W檢驗和D檢驗這兩種方法的比較基礎是待檢數據與正態分布的數據百分位排列情況的對比,區別是W檢驗的統計量適用於小樣本容量(3到50),D檢驗適用於大樣本容量(50到2000)。這裡不做深入介紹,後面如果有機會。峰度與偏度檢驗正態分布概率密度曲線的峰度與偏度也有其特點,峰度與偏度檢驗就是基於正態分布在這兩項特性進行數據的比較檢驗,得出數據分布的結論。這裡也不作深入的介紹。 結論數據序列正態分布的檢驗方法很多,但是它們的基礎都是利用正態分布的特性(頻率分布,曲線形狀,百分位排位、峰度偏度等)作為標準,將其與待測數據的這些性質結果進行對比,得出在設定置信水平(常用90%,95%或99%)下的判斷結論。
推薦閱讀:
相关文章