在實際研究中,很多時候都需要數據滿足正態分布才可以。比如說回歸分析,其實做回歸分析有一個前提條件即因變數需要滿足正態分布性。也比如說方差分析,其有一個潛在的前提假定即因變數Y需要滿足正態分布。還有很多種情況,比如T檢驗,相關分析等等。

但這種情況往往被分析人員忽略掉,或者是數學基本不夠紮實,或者是無論如何數據均不滿足正態分布等客觀條件,也或者其它情況等。如果說沒有滿足前提條件,分析的結果會變得不科學嚴謹,分析結論會受到置疑。

哪些研究方法需要數據滿足正態分布才行呢?以及如果不滿足正態分布時應該如何處理呢?接下來會逐步說明。

第一:需要滿足正態分布的幾類常見研究方法:

SPSSAU整理

常見會涉及五種研究方法,它們對正態性要求相對較高,如果不滿足正態性則會有對應的處理。

線性回歸分析

線性回歸分析,很多時候也稱回歸分析。其對正態性的要求較為嚴格,包括因變數Y需要滿足正態性要求,同時殘差也需要滿足正態性。如果說因變數Y不滿足正態分布,通常情況下有以下幾種處理辦法。

第1:對因變數Y取對數處理(包括自然對數和10為底的對數);這可以在SPSSAU的生成變數功能裡面找到;

第2:如果數據接近於正態分布,則接受其為正態分布性。此種情況較多,因為在研究影響關係時,線性回歸最適合,如果不進行線性回歸,通常情況下很難有更適合的研究方法。因而很多時候只要數據接受於正態性即可,而不用強求數據完美的正態,事實上在生活中絕對的「正態性」並不存在。使用正態分布檢驗方法進行驗證正態性最為嚴苛,因而可使用正態分布圖直觀查看數據分布情況,接近於「正態分布」更符合實際情況;

第3:加大樣本量;有時候數據太少時,即使正態分布的數據,也因為樣本小沒有辦法覆蓋各種情況,從而變得不正態,因而加大樣本量會減少這種情況產生。

Pearson相關分析

Pearson相關分析(也稱皮爾遜相關分析,很多時候直接稱呼為相關分析),在實際研究中使用最多。其實Pearson相關分析也有著默認的前提條件,即數據滿足正態分布性。但現實中的數據很難滿足正態分布性,此時建議使用Spearman(斯皮爾曼)相關係數進行研究即可。

方差分析

方差分析(這裡特指單因素方差分析),其默認有個前提條件是因變數需要符合正態分布性,可能是由於即使非正態分布,方差分析的結果也較為穩健,因而很少有人先進行正態分布性檢驗。

事實上方差分析的因變數也需要滿足正態分布特質,如果沒有滿足,則可以使用非參數檢驗進行檢驗。具體非參數檢驗的類型來看,如果X的組別為兩組,例如研究人員想知道不同性別學生的購買意願是否有顯著差異,按性別分為男和女共兩組,則應該使用MannWhitney統計量,如果組別超過兩組,則應該使用Kruskal-Wallis統計量結果。SPSSAU自動為你選擇MannWhitney或者Kruskal-Wallis統計量。

獨立T檢驗

獨立T檢驗(也稱T檢驗),其默認有個前提條件是因變數需要符合正態分布性,如果不滿足,此時可考慮使用非參數檢驗,具體來講應該是MannWhitney檢驗進行研究。

單樣本T檢驗

單樣本T檢驗,其默認前提條件是數據需要符合正態分布性,如果不滿足,此時可考慮使用非參數檢驗,具體來講應該是單樣本Wilcoxon檢驗進行研究。

配對樣本T檢驗

配對樣本T檢驗,其默認前提條件是差值數據需要符合正態分布性,如果不滿足,此時可考慮使用非參數檢驗,具體來講應該是單樣本Wilcoxon檢驗進行研究。其實配對樣本T檢驗與單樣本T檢驗的原理是一模一樣,無非是進行了一次數據相減(即差值)處理而已,因而其和單樣本T檢驗保持一致。

第二:理論與現實的「相悖」

從理論上講,很多研究方法需要滿足正態分布特質,但現實情況下,很難滿足正態分布性。SPSSAU認為有兩點原因。

1是抽樣樣本過少,很難cover所有情況,所以導致總體是正態分布,但抽樣樣本不滿足正態分布,比如中國13億人的身高肯定是正態分布,但抽樣100個人可能就不會正態分布;

2是認知的不一致,事實上正態性是一種數學理論上的分布,實際情況下只要數據分布基本滿足「鐘形曲線」特徵,SPSSAU認為也應該將數據看成是正態分布。

因而在實際研究過程中,很可能會出現需要滿足正態性要求,但是並不滿足,此時應該如何處理呢?SPSSAU認為有三種處理方式,如下圖:

SPSSAU整理

第一種:使用正態分布圖直觀判斷正態分布特質,而不是使用檢驗方法。原因在於檢驗方法比較嚴苛,而現實數據滿足「鐘形曲線」特徵即可;

第二種:將數據取對數,或者開根號等處理。如果數據值非常大,取對數或者開根號等,會對數據進行「壓縮」處理,相對意義上單位會減小,但值的相對意義還是一樣,通常情況下,數據會變得相對「正態」一些;此步可使用SPSSAU的「生成變數」功能即可完成。

第三種:使用其它研究方法。如果是使用方差分析,T檢驗等,如果不滿足正態性,則有對應的非參數檢驗方法可以使用。如果是非參數檢驗方法進行差異對比,則應該使用中位數去表述大小差異等,而一般不使用平均值(滿足正態分布性時才使用平均值表示整體水平)。當然,SPSSAU均會提供對應的非參數檢驗方法等,可直接使用。

第三:正態分布的「檢驗方法」

上述已經講了很多關於正態分布的話題,那如何對正態分布性進行檢驗呢?SPSSAU共提供以下幾種檢驗,如下:

第一種:圖示法(使用SPSSAU的正態圖即可,可得到類似如下的圖等)

第二種:檢驗方法

SPSSAU結果輸出界面

SPSSAU共提供兩種正態性檢驗方法,包括S-W檢驗和K-S檢驗。小樣本(小於50)時建議使用S-W檢驗,大樣本(大於50)時建議使用K-S檢驗;此兩個檢驗的原假設為數據正態分布,因而P值>0.05,說明該項具有正態分布特質;這些均會在SPSSAU的智能分析中默認提供。

參考資料

SPSS在線_SPSSAU_SPSS正態圖

SPSS在線_SPSSAU_SPSS正態性檢驗

SPSS在線_SPSSAU_SPSS非參數檢驗


推薦閱讀:
相关文章