最近在进行机器学习,发现在对误差假定是都是服从高斯分布,不明白是为什么,就是因为方便吗?还有看到说是和中心极限定理有关,求点拨!


1. 大量独立的随机变数之和趋向于某个稳定的分布,这就是中心极限定理。

2. 后来人们给这种分布取了个名,叫高斯分布,或正态分布。

3. 人们认为误差是随机的,所以人们认为误差的和服从高斯分布。

个人认为,一般测量的误差是随机的,但机器学习中的误差是否随机就不一定了。


就是跟中心极限定律有关,概率论上有证明。摘抄一段模式识别上的话

实践中,最常遇到的概率密度函数是高斯密度函数,流行的原因是因为它容易计算以及能够充分模拟大量的例子。中心极限定理是统计学中最著名的定理之一,该定理指出,如果一个随机变数是若干独立随机变数的总和,当被加的个数趋近于无穷大时,他的概率密度函数近似高斯密度。


1、总得拿一种分布当例子;2、高斯分布的确常见,如果你不知道分布的形式,直接拍成高斯分布风险也比较小。

吴恩达斯坦福大学的公开课中关于这个有两个回答:

  1. 方便数学处理
  2. 他不知道,比如中心极限定理带来的效应,对于绝大多数的问题,假如使用一些线性回归模型,然后测量误差的分布,(并不一定是所有情况),但通常服从高斯分布。


朋友,你见过一范数吗?
谁说的 误差不是也有均匀分布和三角分布等等么……

1. 可通过误差的定义来:误差(得到)结果到目标(一般是最小二乘形式的目标)的距离,不是最小二乘形式的目标,误差整体会偏大,我们需要的误差一般是(最小)误差:(最小)误差是最小二乘误差 &<=&>误差服从正态分布。(可通过构建似然函数在数学上证明)

2. 可通过中心极限定理的另一种解释得到。受多种独立因素影响的随机变数,是服从正态分布的。而误差都是有多种独立(无相互影响)的误差源,因此,误差近似为正态分布。


那可不一定,正态分布是二项分布趋于无穷的情况,如果不确定误差产生的原因,直接上来就用正态分布做推测那是想当然没道理的。


推荐阅读:
相关文章