當我們應用統計方法對數據進行分析時,會發現許多計量資料的分析方法,例如常用的T檢驗、方差分析、相關分析以及線性回歸等等,都要求數據服從正態分布或者近似正態分布,但這一前提條件往往被使用者所忽略。因此為了保證數據滿足上述統計方法的應用條件,對原始數據進行正態性檢驗是十分必要的,這一節內容我們主要向大家介紹如何對數據資料進行正態性檢驗。

一、正態性檢驗:偏度和峰度

1、偏度(Skewness):描述數據分布不對稱的方向及其程度(見圖1)

  1. 當偏度≈0時,可認為分布是對稱的,服從正態分布;
  2. 當偏度>0時,分布為右偏,即拖尾在右邊,峰尖在左邊,也稱為正偏態;
  3. 當偏度<0時,分布為左偏,即拖尾在左邊,峰尖在右邊,也稱為負偏態;

注意:數據分布的左偏或右偏,指的是數值拖尾的方向,而不是峰的位置,容易引起誤解。

2、峰度(Kurtosis):描述數據分布形態的陡緩程度(圖2)

  1. 當峰度≈0時,可認為分布的峰態合適,服從正態分布(不胖不瘦);
  2. 當峰度>0時,分布的峰態陡峭(高尖);
  3. 當峰度<0時,分布的峰態平緩(矮胖);

利用偏度和峰度進行正態性檢驗時,可以同時計算其相應的Z評分(Z-score),即:偏度Z-score=偏度值/標準誤,峰度Z-score=峰度值/標準誤。在α=0.05的檢驗水平下,若Z-score在±1.96之間,則可認為資料服從正態分布。

了解偏度和峰度這兩個統計量的含義很重要,在對數據進行正態轉換時,需要將其作為參考,選擇合適的轉換方法。

3、SPSS操作方法

方法1:打開數據源,點擊「分析」中的「描述統計」,在點擊「頻率」;把需要分析的變數放置「變數(V)」,點擊「統計」,勾選「偏度」和「峰度」;

方法2:在若上步驟中點擊「描述」選擇菜單頁中的「偏度」和「峰度」;

4、結果解讀

從如上結果來看x2數據偏向於服從正態分布。

二、正態性檢驗:圖形判斷

1、直方圖:表示連續性變數的頻數分布,可以用來考察是否服從正態分布

(1)選擇「圖形」下拉菜單中的「舊對話框」,選擇「舊對話框」中的「直方圖」;

(2)把變數「x2」放入變數框中,勾選「顯示正態曲線」;生成的圖像如下

2、P-P圖和Q-Q圖

(1)P-P圖反映了變數的實際累積概率與理論累積概率的符合程度,Q-Q圖反映了變數的實際分布與理論分布的符合程度,兩者意義相似,都可以用來考察數據資料是否服從某種分布類型。若數據服從正態分布,則數據點應與理論直線(即對角線)基本重合。

(2)SPSS操作:

  1. 選擇「分析」下來菜單中的「描述統計」,及「描述統計」下的「P-P圖」;
  2. 選擇變數,及勾選正態分布;生成如下圖形

使用Q-Q圖生成的圖像如下:

三、正態性檢驗:非參數檢驗方法

1、正態性檢驗屬於非參數檢驗,原假設為「樣本來自的總體與正態分布無顯著性差異,即符合正態分布」,也就是說P>0.05才能說明資料符合正態分布。

通常正態分布的檢驗方法有兩種,一種是Shapiro-Wilk檢驗,適用於小樣本資料(SPSS規定樣本量≤5000),另一種是Kolmogorov–Smirnov檢驗,適用於大樣本資料(SPSS規定樣本量>5000);

2、


推薦閱讀:
相关文章