數據描述的三個角度:集中趨勢,離散程度和分布形態。而常用統計推斷檢驗方法分為兩大類:參數檢驗和非參數檢驗。它們兩者有什麼聯繫呢?

參數檢驗通常是假設總體服從正態分布,樣本統計量服從T分布的基礎之上,對總體分布中一些未知的參數,例如總體均值、總體方差和總體標準差等進行統計推斷。如果總體的分布情況未知,同時樣本容量又小,無法運用中心極限定理實施參數檢驗,推斷總體的集中趨勢和離散程度的參數情況。這時,可以用非參數檢驗,非參數檢驗對總體分布不做假設,直接從樣本的分析入手推斷總體的分布。與參數檢驗相比,非參數檢驗適用範圍廣,特別適用於小樣本數據、總體分布未知或偏態、方差不齊及混合樣本等各類型數據。二者的對比如下圖:

非參數檢驗非參數檢驗的方法是五花八門,名字也是千奇百怪,但是,這些方法有它們的共性。上面介紹了,因為對總體的分布形態不清楚或總體分布不是正態分布,所以無法用參數檢驗來推斷總體的集中趨勢和離散程度的參數。統計學家想到用排秩(排序)的方法來規避不是正態分布的問題,用樣本的排序情況來推斷總體的分布情況。這就好比梁山一百單八將排好了座次,從中隨機抽出幾個,測試武力值,大概其能夠了解梁山的實力如何。下圖是非參數檢驗常用的檢驗方法表。接下來會具體介紹它們的檢驗理論和距離的案例應用。總體分布情況很多時候是未知或非正態分布的,所以非參數檢驗在現實生活中的應用很廣泛。

由於參數檢驗的精確度高於非參數檢驗,因此在數據符合參數檢驗的條件時,仍優先採用參數檢驗。在實踐中,各種因素的未知性導致參數統計的方法不再適用,可以應用非參數檢驗的方法予以解決。

而針對T檢驗和方差分析,它們解決的是正態分布的高測度數據的均值差異性問題。對於非正態分布的高測度數據,T檢驗或方差分析的方法就不再適用了。

對於分布形態未知的數據,常用處理方法如下:

判斷數據序列的分布形態

以標準的正態分布形態為基準,檢驗數據序列與正態序列是否存在分布差異性,這裡可以用單樣本的K-S檢驗,如果沒有顯著性差異,就認為該序列滿足正態分布。對於已經滿足正態分布的序列,可以直接使用基於正態分布的數據分析技術,比如T檢驗和方差分析。

轉化為正態分布序列明確不是正態分布的序列,可以通過技術手段將序列轉化為接近正態分布的形態。在數據分析過程中,人們常常藉助於秩分把非正態分布的數據轉化為接近正態分布的形態;或者藉助於Z分數和正態得分對數據序列進行預處理,然後藉助正態分布差異性分析結束實現差異顯著性檢驗。非參數檢驗方法除了轉化為正態分布序列,還可直接使用非參數檢驗方法檢驗其分布差異性。實際上,所謂的非參數檢驗,其實質就是藉助於秩分或符號等技術對原始序列進行轉化,然後借用類似參數檢驗的手段開展數據分析。非參數檢驗前面說到,對於不符合正態分布的數據,可以採用非參數檢驗的方法進行數據分析。在這裡,不符合正態分布的數據可以分為兩種:1、不符合正態分布的高測度數據(定距數據和高測度的定序數據);2、低測度數據(定類數據和低測度的定序數據)。根據上面兩種數據類型,非參數檢驗主要包括下面三個方面的內容:檢驗樣本的分布形態

檢驗高測度數據序列的分布形態,這是針對單變數的檢驗,其方法是檢驗數據序列的分布與標準分布形態的差異性。如果當前數據序列與標準分布形態沒有顯著性差異,則被認為當前序列滿足該分布形態。常見的針對單樣本數據判斷其分布形態的檢驗技術主要有:單樣本K-S檢驗、單樣本遊程檢驗、二項分布檢驗、卡方檢驗。

分布形態差異顯著性檢驗對於不符合正態分布的高測度數據序列,常見的差異顯著性檢驗方法有:1、兩獨立樣本的差異顯著性檢驗;2、多獨立樣本的差異顯著性檢驗;3、兩關聯樣本的差異顯著性檢驗;4、多關聯樣本的差異顯著性檢驗。低測度數據的差異顯著性檢驗對於不符合正態分布的定類數據或低測度定序數據,其檢驗方法是利用交叉表技術分行分列計算交叉點的頻數,利用卡方距離實施卡方檢驗,基於頻數和數據分布形態分析不同類別的數據是否存在顯著性差異。對於定類數據的對比檢驗,也叫獨立性檢驗。分布形態差異顯著性檢驗分布形態檢驗前面已經介紹過,低測度數據的卡方檢驗將在下一篇文章中介紹。下面重點介紹對於非正態分布的高測度數據的分布形態差異顯著性檢驗方法。兩關聯樣本的非參數檢驗對不滿足正態分布的兩關聯樣本,如果分析其是否存在顯著性差異,不可以通過均值比較其差異性,通常是通過對比其分布形態比較其差異性。數據序列的三個要求:1、樣本數據來源於同一總體的不同視角,或者是對相同樣本的多次測量;2、幾組樣本數據之間存在一一對應的關聯性;3、數據不滿足正態分布,或樣本的測量區分度不高。

兩關聯樣本非參數檢驗的方法
  • 符號秩檢驗(Wilcoxon);基於符號檢驗其秩分分布的辦法,本質上是一種檢驗平均秩的檢驗。即把樣本的兩次觀測值相減,記錄差值的符號和絕對值,並基於絕對值升序求秩分,比較兩組數據的正值秩分或負值秩分,從而確定其差異性。
  • 符號檢驗(Sign);純粹通過符號實施數據檢驗的一種方法,即對樣本的兩次測量值直接相減求取符號,然後根據符號情況確定其差異性。由於符號檢驗僅僅通過正負號進行檢驗,適合於測度較低的非定距數據,其檢驗準確度不夠高。
  • 變化顯著性檢驗(McNemar);變化顯著性檢驗,是基於兩次測量差值情況的檢驗方法。即把樣本的兩次測量值相減,記錄差值,然後通過校驗公式處理後,求取卡方值。然後基於卡方檢驗決定其差異性。變化顯著性檢驗,僅適用於兩個變數均為二分數據的情況。
  • 邊緣一致性檢驗(MarginalHomo);邊緣一致性檢驗,也是基於兩次測量差值情況的檢驗方法,主要通過把先後測量的兩組樣本值進行卡方檢驗。基於卡方檢驗的方法判斷序列之間差異性。邊緣一致性檢驗,對變數的要求並不局限於二分數據,還可以面向多值的分類變數。

多關聯樣本的非參數檢驗當關聯樣本多於兩個時,需要用多關聯樣本的非參數檢驗。多關聯樣本的非參數檢驗方法主要有:
  • 雙向等級方差分析(FriedMan);雙向等級方差分析是基於K個變數降序秩分的差異顯著性檢驗。這是基於秩分的一種方差分析方法,其基本思路是先對樣本的K個檢驗量進行降序求秩分,然後按照秩分做方差分析。雙向等級方差分析,比較適合於針對定距變數和高測度定序變數的數據分析。
  • 肯德爾和諧係數檢驗(Kendall);肯德爾和諧係數檢驗,是基於肯德爾係數的差異顯著性檢驗技術,是基於秩分的平均等級分析。其基本思路是:先計算K個觀測量卡方值和肯德爾和諧係數W,然後判斷其觀測值的分布是否一致。在肯德爾和諧係數檢驗中,以肯德爾和諧係數W表示被檢驗變數的秩分之間的差異程度。協同係數W的取值在0~1,W越接近於1,表示變數的組件差異越大,反之,協同係數W越接近於0,表示變數的組間差異越小。肯德爾和諧係數檢驗,比較適合於定距變數與定序變數的處理。
  • 二分變數檢驗(Cochran檢驗);二分變數檢驗,通過檢驗多個樣本量的CochranQ係數,以便分析K各關聯樣本是否來自同一總體或者具有相同的分布。二分變數檢驗,主要面向二分變數的分析。

兩獨立樣本的非參數檢驗對不滿足正態分布的兩獨立樣本,如需要分析其是否存在顯著性差異,同樣不可以通過均值比較其差異性,通常是通過分布形態或秩分比較其差異性。對於兩獨立樣本的非參數檢驗,對數據序列主要有以下要求:1、樣本數據來源於同一總體;2、樣本數據不滿足正態分布,或樣本的測量區分度不高;3、樣本數據可被另外的分組變數劃分為兩組;兩獨立樣本非參數檢驗的方法
  • Wilcxon W等級和檢驗(Mann-Whitney U);Wilcxon W(威爾克科遜)等級與檢驗,也叫曼-惠特尼U檢驗,其基本思路是:把全部樣本混在一起求秩,然後根據兩組樣本的秩分情況判斷是否存在差異。曼-惠特尼U檢驗本質上是一種通過比較兩個樣本秩分情況而獲得差異顯著性檢驗結論的一種檢驗技術。本演算法適應於定距數據和定序數據。
  • 摩西極端反映的差異檢驗(MosesExtreme reaction);摩西極端反映檢驗,即摩西極端反映的差異顯著性檢驗,即對全體樣本混合求秩分,根據兩端的極端秩分值確定其差異性。摩西極端反映檢驗是通過檢驗極端秩分值來反映的差異情況,來判斷兩組數據的分布是否存在差異。
  • 兩獨立樣本的K-S檢驗(Kolmogorov-Smirnov Z);兩獨立樣本的K-S檢驗,是基於秩分累積頻數的檢驗方式。即對全體樣本混合求取秩分,然後針對秩分的累積頻數或累積頻率進行差異顯著性檢驗。本演算法適應於定距數據和定序數據。如果預先把其中一組數據設置為標準分布形態的數據,那麼通過K-S分析待檢驗序列與標準分布的差異性水平,就能實現針對單樣本數據的分布形態的判定。
  • 沃爾德-沃爾福威茨遊程檢驗(Wald-Wolfwitz runs);沃爾德-沃爾夫威茨遊程檢驗,是基於秩分排列的遊程檢驗。即對全體樣本混合求取秩分,並基於兩組樣本在秩分序列中的位置構造遊程。通過分析遊程的大小和數量實現遊程檢驗,從而判斷兩組樣本在混合序列中的排列是否為隨機的。若兩組樣本在混合序列中的排列是隨機的,則兩組樣本之間沒有顯著性差異。

多獨立樣本的非參數檢驗

多獨立樣本的差異顯著性檢驗既可以是針對同一總體的不同隨機抽樣,也可以源於不同總體,其目的是判斷多個樣本序列的差異是否顯著。在多獨立樣本的差異顯著性檢驗中,對符合正態分布的高測度數據,通常使用方差分析的方法,而對不符合正態分布的數據,或者方差非齊性時,則常常使用非參數檢驗的方法。多獨立樣本非參數檢驗的方法
  • K-W平均秩檢驗(Kruskal-Wailis H);K-W平均秩檢驗是一種基於平均秩的差異顯著性檢驗。其基本思路是:先把待分析的觀測變數序列排序後求取秩分(或者把多個獨立樣本的數據混合後排序並求取秩分),然後基於各組秩分,進行類似方差分析的計算,分析秩分的均值差異是否顯著。K-W平均秩檢驗是基於秩分的一種方差分析技術,適合於觀測變數為定距數據或定序數據的場合。
  • 中位數檢驗(Median);中位數檢驗是基於數據序列的中位數而設計的一種差異性的檢驗。其基本思路:先求取混合後數據的中位數,然後利用卡方分布統計量來計算每個樣本組內中位數兩側個案數的差異性。中位數檢驗適合於測度不高的定序變數。
  • 分組分布檢驗(Jonckheere);分組分布檢驗是通過檢驗多個樣本組是否具有相同分布來判斷差異性的方法。樣本的分組根據分組變數定義。分組分布檢驗既可以檢驗定距變數,也可以檢驗定序變數。對於定序變數,本方法比K-W檢驗更為有效。

推薦閱讀:

相关文章