前面两节介绍了采用Q-Q图和偏度与峰度对采集样本进行正态性检验,本节介绍非参数性的正态性检验,非参数性的正态性检验演算法思想大致相同,演算法思想步骤为:首先假设条件H0成立,然后计算采集样本的统计量,最后在已知统计量分布的情况下比较统计量与显著性水平 alpha 的大小,根据比较结果判断是否拒绝检验假设H0(如下图)。

本文先介绍了非参数正态性检验演算法如 chi^2 拟合优度检验,K-S检验,S-W检验等,最后比较各非参数性正态检验的适用条件。

1. chi^2 拟合优度检验

chi^2 是在总体X的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法,比较样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受总体分布的原假设。比如,记录小明最近一年每天花在学习英语的时间,判断小明是否是英语爱好者。运用 chi^2 检验法来判断的步骤是:

(1) 假设小明是英语爱好者。 

(2) 统计英语爱好者最近一年内每天学习英语的时间。 

(3) 计算英语爱好者每天学习英语的时间与小明每天学习英语的时间的差异,再计算这一年内学习英语时间的总差异,若总差异结果超过某一阈值,拒绝假设,即小明不是英语爱好者;反之,不拒绝假设,即小明是英语爱好者。

在用 chi^2 检验法假设H0时,需要用极大似然估计计算检验假设H0的参数,比如,若H0是正态分布,则需要用极大似然估计计算均值和方差;若H0是指数分布,则需要用极大似然估计计算均值;

chi^2 统计量为:

chi^2 = sum_{i=1}^{k} frac{n}{p_{i}} (frac{f_{i}}{n} - p_{i})^2 = sum_{i=1}^{k} frac{(f_{i} - np_{i})^2}{np_{i}} simchi(k-1)

chi^2 = sum_{i=1}^{k}frac{n}{hat{p_{i}}}(frac{f_{i}}{n} - hat{p_{i}})^2 = sum_{i=1}^{k} frac{(f_{i}-nhat{p_{i}})^2}{nhat{p_{i}}} sim chi(k-r-1)

其中r是检验假设H0模型的被估参数的个数,n为样本容量,离散化样本容量成k段,Pi为假设检验H0成立时第i个分段的频率,n * Pi ,fi分别为第i段的理论频数和实际频数。

皮尔逊证明了 chi^2 统计量的分布服从(k-r-1)个自由度的 chi^2 分布的前提是样本容量n足够大。使用 chi^2 拟合优度检验正态分布需要注意大样本容量和n * pi 不能太小(>=5)这两个条件,若某一段出现的频数太小,则与其他的分段合并,达到频数>=5的条件。

最后比较样本 chi^2 检验统计量数值与显著性水平 alpha 的大小,来判断假设是否成功。

【例】

解:假设

H0:IQ得分服从正态分布,H1:不服从正态分布, alpha = 0.05, X=101.294, S=15.585

其中 O_{i} 为第i段的实际观测频数, E_{i} 为第i段的理论频数。因为最后两组的观测频数过小,则合并最后三组成一组,该组频数为8。

自由度v=7-1-2=4, chi^2_{0.05,4} = 9.49 ,统计量 chi^2=1.63832 < 9.49 ,所以不拒绝零假设H0,即IQ得分服从正态分布。

2.K-S正态性检验

S检验是通过比较样本经验分布函数与给定分布函数来推断该样本是否来自给定分布函数的总体。比较容量n的经验分布函数$F_{n}(x)$与给定分布函数$F_{o}(x)$的间隔,构造统计量D为两个分布函数的间隔最大值,如下。

F_{n}(x) = frac{sum_{i}(i le x){频数}}{n}

D=max|F{n}(x)-F_{o}(x)|

步骤:

(1) 提出假设: H0:F_{n}(x),H1:F_{n}(x)
ot=F_{o}(x)

(2) 计算统计量D。

(3) 根据给定的显著性水平 alpha 和样本数据个数n,确定单样本K-S检验的临界值 D_{alpha}(n)

(4) 若 D<D(alpha,n) ,则不拒绝假设H0;反之,拒绝假设H0。

这个检验需要给定 F_{o}(x) ,因此非参数检验的K-S正态性检验只能做标准正态检验。

【例】验证一组39例抽样数据是否符合标准正态分布

(1) 假设抽样数据符合标准正态分布;(2) 画出经验分布函数和标准正态分布函数的曲线图;

(3) 确定统计量D;

(4) 显著性水平 alpha=0.05 ,样本容量n=39,确定统计量的拒绝域最小值 D(alpha,n) , D(alpha,n) 可以通过查表知道。

(5) 比较统计量D与 D(alpha,n) 的大小,若大于,则拒绝假设,反之,则不拒绝;

3.Lilliefor 正态性检验

Lilliefor正态性检验是对K-S检验的修正,非参数K-S检验只能作标准正态分布检验,Lilliefor提出用样本均值和标准差代替总体的期望和标准差,然后再用K-S正态性检验法,步骤相同,不同点在於单样本K-S检验只能检测标准正态分布,Lilliefor检验能检测一般性的正态分布。

4.S-W正态性检验

S-W检验正态分布的思想与K-S检验一致,关键点在于如何求样本的统计量以及确定统计量的分布情况。

S-W检验称为W检验,统计量W定义为:

                W=frac{(sum a_{i}y_{i})^2}{sum(y_{i}-overline{y})^2}

其中overline{y} 是样本均值,a=(a1,a2,...,an)^{T} , delta 是样本来自正态分布的标注差,a的确切值是:

a=(m^{T}V^{-1}V^{-1}m)^{-frac{1}{2}}m^{T}V^{-1}

其中V矩阵是n个标准正态分布的随机变数的顺序统计量的协方差矩阵。给定显著性水平alpha 和样本容量n,可以知道拒绝域的临界值 W_{alpha}(n) ,比较统计量结果W与 W_{alpha}(n) 的大小,判断是否拒绝原假设。

【例】用函数rnorm获得一个标准正态分布的随机样本,然后用W检验它的正态性。

结果显示p-value值大于显著性水平0.05,因此不能拒绝零假设,即样本来自正态分布。

5.非参数检验演算法的比较

(1) Lilliefor检验是对K-S检验的改进,可用于一般的正态性检验,而非参数检验的K-S检验只能做标准正态检验。

(2) chi^2 拟合优度检验的检验结果依赖于分组,而其他方法的检验结果与区间划分无关。

(3) 拟合优度检验和K-S检验都采用实际频数和期望频数进行检验,前者既可用于连续总体,又可用于离散总体,而Kolmogorov-Smirnov检验只适用于连续和定量数据。(4) SPSS规定:当样本含量3<=n<=5000时,结果以S-W(W检验)为准,当样本含量n>5000结果以K-S检验(D检验)为准。

参考:

blog.csdn.net/suncherry

docin.com/p-2006164716.

dxy.cn/bbs/topic/263661

推荐阅读:

相关文章