台湾 || 语言: 大陆简体港澳繁體台灣正體

偏度与峰度的正态性分布判断

雪花台湾 2019-04-10 14:30

当我们应用统计方法对数据进行分析时，会发现许多分析方法如T检验、方差分析、相关分析以及线性回归等等，都要求数据服从正态分布或近似正态分布，正态分布在机器学习中的重要性后期会讲述。上一篇文章用Q-Q图来验证数据集是否符合正态分布，本文首先介绍了偏度与峰度的定义，然后用偏度与峰度检测数据集是否符合正态分布，最后分析该检测演算法的适用条件以及SPSS的结果分析。

1、偏度与峰度

（1）偏度（Skewness）

偏度衡量随机变数概率分布的不对称性，是相对于平均值不对称程度的度量，通过对偏度系数的测量，我们能够判定数据分布的不对称程度以及方向。

具体来说，对于随机变数X，我们定义偏度为其的三阶标准中心距:

$gamma_{1} = E[(frac{X-mu}{delta})^3] = frac{E[(X-mu)^3]}{delta^3} = frac{E[(X-mu)^3]}{(E[(X-mu)^2])^frac{3}{2}} = frac{K_{3}}{K_{2}^frac{3}{2}}$

对于样本的偏度，我们一般记为SK，我们可以基于矩估计，得到有:

$SK_{1} = frac{m_{3}}{m_2^frac{3}{2}} = frac{frac{1}{n} sum_{i=1}^{n} (x_{i} - overline{x})^3 } {[frac{1}{n} sum_{i=1}^{n} (x_{i} - overline{x})^2]^frac{3}{2}}$

其中, 为样本均值， $m_{3}$ 为样本三阶中心矩， $m_{2}$ 为样本二阶中心矩

偏度的衡量是相对于正态分布来说，正态分布的偏度为0，即若数据分布是对称的，偏度为0。若偏度大于0，则分布右偏，即分布有一条长尾在右；若偏度小于0，则分布为左偏，即分布有一条长尾在左（如下图）；同时偏度的绝对值越大，说明分布的偏移程度越严重。

m_{4}

相关文章