当我们应用统计方法对数据进行分析时,会发现许多分析方法如T检验、方差分析、相关分析以及线性回归等等,都要求数据服从正态分布或近似正态分布,正态分布在机器学习中的重要性后期会讲述。上一篇文章用Q-Q图来验证数据集是否符合正态分布,本文首先介绍了偏度与峰度的定义,然后用偏度与峰度检测数据集是否符合正态分布,最后分析该检测演算法的适用条件以及SPSS的结果分析。
1、偏度与峰度
(1)偏度(Skewness)
偏度衡量随机变数概率分布的不对称性,是相对于平均值不对称程度的度量,通过对偏度系数的测量,我们能够判定数据分布的不对称程度以及方向。
具体来说,对于随机变数X,我们定义偏度为其的三阶标准中心距:
对于样本的偏度,我们一般记为SK,我们可以基于矩估计,得到有:
其中, 为样本均值, 为样本三阶中心矩, 为样本二阶中心矩
偏度的衡量是相对于正态分布来说,正态分布的偏度为0,即若数据分布是对称的,偏度为0。若偏度大于0,则分布右偏,即分布有一条长尾在右;若偏度小于0,则分布为左偏,即分布有一条长尾在左(如下图);同时偏度的绝对值越大,说明分布的偏移程度越严重。