非参数正态性检验

前面两节介绍了采用Ｑ-Ｑ图和偏度与峰度对采集样本进行正态性检验，本节介绍非参数性的正态性检验，非参数性的正态性检验演算法思想大致相同，演算法思想步骤为：首先假设条件Ｈ0成立，然后计算采集样本的统计量，最后在已知统计量分布的情况下比较统计量与显著性水平的大小，根据比较结果判断是否拒绝检验假设Ｈ0（如下图）。

本文先介绍了非参数正态性检验演算法如拟合优度检验，K-S检验，S-W检验等，最后比较各非参数性正态检验的适用条件。

１．拟合优度检验

是在总体Ｘ的分布未知时，根据来自总体的样本，检验关于总体分布的假设的一种检验方法，比较样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受总体分布的原假设。比如，记录小明最近一年每天花在学习英语的时间，判断小明是否是英语爱好者。运用检验法来判断的步骤是:

(1) 假设小明是英语爱好者。　

(2) 统计英语爱好者最近一年内每天学习英语的时间。　

(3) 计算英语爱好者每天学习英语的时间与小明每天学习英语的时间的差异，再计算这一年内学习英语时间的总差异，若总差异结果超过某一阈值，拒绝假设，即小明不是英语爱好者；反之，不拒绝假设，即小明是英语爱好者。

在用检验法假设Ｈ0时，需要用极大似然估计计算检验假设Ｈ0的参数，比如，若Ｈ0是正态分布，则需要用极大似然估计计算均值和方差；若Ｈ0是指数分布，则需要用极大似然估计计算均值；

统计量为：

$chi^2 = sum_{i=1}^{k} frac{n}{p_{i}} (frac{f_{i}}{n} - p_{i})^2 = sum_{i=1}^{k} frac{(f_{i} - np_{i})^2}{np_{i}} simchi(k-1)$

$chi^2 = sum_{i=1}^{k}frac{n}{hat{p_{i}}}(frac{f_{i}}{n} - hat{p_{i}})^2 = sum_{i=1}^{k} frac{(f_{i}-nhat{p_{i}})^2}{nhat{p_{i}}} sim chi(k-r-1)$

其中ｒ是检验假设Ｈ0模型的被估参数的个数，ｎ为样本容量，离散化样本容量成k段，Ｐi为假设检验Ｈ0成立时第i个分段的频率，n　*　Pi　，fi分别为第i段的理论频数和实际频数。

皮尔逊证明了 统计量的分布服从(k-r-1)个自由度的 分布的前提是样本容量n足够大。使用 拟合优度检验正态分布需要注意大样本容量和n * pi 不能太小(>=5)这两个条件，若某一段出现的频数太小，则与其他的分段合并，达到频数>=5的条件。

最后比较样本 检验统计量数值与显著性水平 的大小，来判断假设是否成功。

【例】

解：假设

Ｈ0:IQ得分服从正态分布，H1:不服从正态分布，

= 0.05, X=101.294, S=15.585

其中 $O_{i}$ 为第i段的实际观测频数， $E_{i}$ 为第i段的理论频数。因为最后两组的观测频数过小，则合并最后三组成一组，该组频数为８。

自由度v=7-1-2=4, $chi^2_{0.05,4} = 9.49$ ,统计量

,所以不拒绝零假设Ｈ0,即ＩＱ得分服从正态分布。

2.K-S正态性检验

Ｓ检验是通过比较样本经验分布函数与给定分布函数来推断该样本是否来自给定分布函数的总体。比较容量n的经验分布函数$F_{n}(x)$与给定分布函数$Ｆ_{o}(x)$的间隔,构造统计量Ｄ为两个分布函数的间隔最大值，如下。

$F_{n}(x) = frac{sum_{i}(i le x){频数}}{n}$

$D=max|F{n}(x)-F_{o}(x)|$

步骤:

(1) 提出假设: $H0:F_{n}(x),H1:F_{n}(x) ot=F_{o}(x)$ 。

(2) 计算统计量Ｄ。

(3) 根据给定的显著性水平 和样本数据个数n,确定单样本K-S检验的临界值 $D_{alpha}(n)$ 。

(4) 若 ,则不拒绝假设H0;反之，拒绝假设H0。

这个检验需要给定 $F_{o}(x)$ ,因此非参数检验的K-S正态性检验只能做标准正态检验。

【例】验证一组39例抽样数据是否符合标准正态分布

(1) 假设抽样数据符合标准正态分布；(2) 画出经验分布函数和标准正态分布函数的曲线图;

(3) 确定统计量D;

(4) 显著性水平 ,样本容量n=39,确定统计量的拒绝域最小值 , 可以通过查表知道。

(5) 比较统计量Ｄ与

的大小，若大于，则拒绝假设，反之，则不拒绝;

3.Lilliefor 正态性检验

Lilliefor正态性检验是对K-S检验的修正，非参数K-S检验只能作标准正态分布检验，Lilliefor提出用样本均值和标准差代替总体的期望和标准差，然后再用K-S正态性检验法，步骤相同，不同点在於单样本K-S检验只能检测标准正态分布，Lilliefor检验能检测一般性的正态分布。

4.S-W正态性检验

S-W检验正态分布的思想与K-S检验一致，关键点在于如何求样本的统计量以及确定统计量的分布情况。

S-W检验称为Ｗ检验，统计量W定义为:

　　　　　　　　　　　　　　　　 $W=frac{(sum a_{i}y_{i})^2}{sum(y_{i}-overline{y})^2}$

其中 是样本均值， $a=(a1,a2,...,an)^{T}$ ,　 是样本来自正态分布的标注差，ａ的确切值是:

$a=(m^{T}V^{-1}V^{-1}m)^{-frac{1}{2}}m^{T}V^{-1}$

其中Ｖ矩阵是n个标准正态分布的随机变数的顺序统计量的协方差矩阵。给定显著性水平

和样本容量n,可以知道拒绝域的临界值 $W_{alpha}(n)$ ,比较统计量结果Ｗ与 $W_{alpha}(n)$ 的大小，判断是否拒绝原假设。

【例】用函数rnorm获得一个标准正态分布的随机样本，然后用W检验它的正态性。

结果显示p-value值大于显著性水平0.05,因此不能拒绝零假设，即样本来自正态分布。

5.非参数检验演算法的比较

(1) Lilliefor检验是对K-S检验的改进，可用于一般的正态性检验，而非参数检验的K-S检验只能做标准正态检验。

(2) 拟合优度检验的检验结果依赖于分组，而其他方法的检验结果与区间划分无关。

(3) 拟合优度检验和K-S检验都采用实际频数和期望频数进行检验，前者既可用于连续总体，又可用于离散总体，而Kolmogorov-Smirnov检验只适用于连续和定量数据。(4) SPSS规定:当样本含量3<=n<=5000时，结果以S-W(W检验)为准，当样本含量n>5000结果以K-S检验(D检验）为准。

参考:

https://blog.csdn.net/suncherrydream/article/details/51073001

http://www.docin.com/p-2006164716.html

http://www.dxy.cn/bbs/topic/26366190

非参数正态性检验

１．拟合优度检验

2.K-S正态性检验

3.Lilliefor 正态性检验

4.S-W正态性检验

5.非参数检验演算法的比较

热门新闻

周热门

非参数正态性检验

１． 拟合优度检验

2.K-S正态性检验

3.Lilliefor 正态性检验

4.S-W正态性检验

5.非参数检验演算法的比较

验证斯特鲁普效应

相关配对检验-特鲁普效应是否存在

假设检验,显著性水平,p-value

13 假设检验分析的完整套路

python数据分析之假设检验

为什么在使用最小二乘法得出参数值后，仍然要进行显著性t检验？

数据分析入门知识之假设检验

为什么误差总是服从高斯分布？

如何定义自信与自尊，并区分二者？

物理随机过程笔记（2）

为什么高斯分布极大似然的方差会产生偏差

F分布、t分布、正太分布与卡方分布的联系与区别

基于高斯分布的极大似然估计

（多元高斯分布）协方差矩阵的（半）正定/可逆

多元高斯分布的协方差矩阵为什么是可逆的？

热门新闻

周热门

１．拟合优度检验