为什么误差总是服从高斯分布？

最近在进行机器学习，发现在对误差假定是都是服从高斯分布，不明白是为什么，就是因为方便吗？还有看到说是和中心极限定理有关，求点拨！

1. 大量独立的随机变数之和趋向于某个稳定的分布，这就是中心极限定理。

2. 后来人们给这种分布取了个名，叫高斯分布，或正态分布。

3. 人们认为误差是随机的，所以人们认为误差的和服从高斯分布。

个人认为，一般测量的误差是随机的，但机器学习中的误差是否随机就不一定了。

就是跟中心极限定律有关，概率论上有证明。摘抄一段模式识别上的话

实践中，最常遇到的概率密度函数是高斯密度函数，流行的原因是因为它容易计算以及能够充分模拟大量的例子。中心极限定理是统计学中最著名的定理之一，该定理指出，如果一个随机变数是若干独立随机变数的总和，当被加的个数趋近于无穷大时，他的概率密度函数近似高斯密度。

1、总得拿一种分布当例子；2、高斯分布的确常见，如果你不知道分布的形式，直接拍成高斯分布风险也比较小。

吴恩达斯坦福大学的公开课中关于这个有两个回答：

朋友，你见过一范数吗？

谁说的误差不是也有均匀分布和三角分布等等么……

1. 可通过误差的定义来：误差（得到）结果到目标（一般是最小二乘形式的目标）的距离，不是最小二乘形式的目标，误差整体会偏大，我们需要的误差一般是（最小）误差：（最小）误差是最小二乘误差 &<=&>误差服从正态分布。（可通过构建似然函数在数学上证明）

2. 可通过中心极限定理的另一种解释得到。受多种独立因素影响的随机变数，是服从正态分布的。而误差都是有多种独立（无相互影响）的误差源，因此，误差近似为正态分布。

那可不一定，正态分布是二项分布趋于无穷的情况，如果不确定误差产生的原因，直接上来就用正态分布做推测那是想当然没道理的。

为什么softmax很少会出现[0.5，0.5]？