最近在進行機器學習,發現在對誤差假定是都是服從高斯分布,不明白是為什麼,就是因為方便嗎?還有看到說是和中心極限定理有關,求點撥!


1. 大量獨立的隨機變數之和趨向於某個穩定的分布,這就是中心極限定理。

2. 後來人們給這種分布取了個名,叫高斯分布,或正態分布。

3. 人們認為誤差是隨機的,所以人們認為誤差的和服從高斯分布。

個人認為,一般測量的誤差是隨機的,但機器學習中的誤差是否隨機就不一定了。


就是跟中心極限定律有關,概率論上有證明。摘抄一段模式識別上的話

實踐中,最常遇到的概率密度函數是高斯密度函數,流行的原因是因為它容易計算以及能夠充分模擬大量的例子。中心極限定理是統計學中最著名的定理之一,該定理指出,如果一個隨機變數是若干獨立隨機變數的總和,當被加的個數趨近於無窮大時,他的概率密度函數近似高斯密度。


1、總得拿一種分布當例子;2、高斯分布的確常見,如果你不知道分布的形式,直接拍成高斯分布風險也比較小。

吳恩達斯坦福大學的公開課中關於這個有兩個回答:

  1. 方便數學處理
  2. 他不知道,比如中心極限定理帶來的效應,對於絕大多數的問題,假如使用一些線性回歸模型,然後測量誤差的分布,(並不一定是所有情況),但通常服從高斯分布。


朋友,你見過一範數嗎?
誰說的 誤差不是也有均勻分布和三角分布等等么……

1. 可通過誤差的定義來:誤差(得到)結果到目標(一般是最小二乘形式的目標)的距離,不是最小二乘形式的目標,誤差整體會偏大,我們需要的誤差一般是(最小)誤差:(最小)誤差是最小二乘誤差 &<=&>誤差服從正態分布。(可通過構建似然函數在數學上證明)

2. 可通過中心極限定理的另一種解釋得到。受多種獨立因素影響的隨機變數,是服從正態分布的。而誤差都是有多種獨立(無相互影響)的誤差源,因此,誤差近似為正態分布。


那可不一定,正態分布是二項分布趨於無窮的情況,如果不確定誤差產生的原因,直接上來就用正態分布做推測那是想當然沒道理的。


推薦閱讀:
相关文章