為什麼誤差總是服從高斯分布？

最近在進行機器學習，發現在對誤差假定是都是服從高斯分布，不明白是為什麼，就是因為方便嗎？還有看到說是和中心極限定理有關，求點撥！

1. 大量獨立的隨機變數之和趨向於某個穩定的分布，這就是中心極限定理。

2. 後來人們給這種分布取了個名，叫高斯分布，或正態分布。

3. 人們認為誤差是隨機的，所以人們認為誤差的和服從高斯分布。

個人認為，一般測量的誤差是隨機的，但機器學習中的誤差是否隨機就不一定了。

就是跟中心極限定律有關，概率論上有證明。摘抄一段模式識別上的話

實踐中，最常遇到的概率密度函數是高斯密度函數，流行的原因是因為它容易計算以及能夠充分模擬大量的例子。中心極限定理是統計學中最著名的定理之一，該定理指出，如果一個隨機變數是若干獨立隨機變數的總和，當被加的個數趨近於無窮大時，他的概率密度函數近似高斯密度。

1、總得拿一種分布當例子；2、高斯分布的確常見，如果你不知道分布的形式，直接拍成高斯分布風險也比較小。

吳恩達斯坦福大學的公開課中關於這個有兩個回答：

朋友，你見過一範數嗎？

誰說的誤差不是也有均勻分布和三角分布等等么……

1. 可通過誤差的定義來：誤差（得到）結果到目標（一般是最小二乘形式的目標）的距離，不是最小二乘形式的目標，誤差整體會偏大，我們需要的誤差一般是（最小）誤差：（最小）誤差是最小二乘誤差 &<=&>誤差服從正態分布。（可通過構建似然函數在數學上證明）

2. 可通過中心極限定理的另一種解釋得到。受多種獨立因素影響的隨機變數，是服從正態分布的。而誤差都是有多種獨立（無相互影響）的誤差源，因此，誤差近似為正態分布。

那可不一定，正態分布是二項分布趨於無窮的情況，如果不確定誤差產生的原因，直接上來就用正態分布做推測那是想當然沒道理的。

為什麼softmax很少會出現[0.5，0.5]？