最小二乘法的核心思想是保證所有數據誤差的平方和最小,但我們是否認真思考過為什麼數據誤差平方和最小便會最優,本文便從最大似然估計演算法的角度來推導最小二乘法的思想合理性,下面我們先了解一下最大似然估計和最小二乘法,最後我們通過中心極限定理剋制的誤差ε服從正態分佈來引出最大似然估計和最小二乘法的關係

一、最大似然估計

先從貝葉斯公式說起:

P(W) 先驗概率,表示每個類別的概率

P(W|X) 後驗概率,表示已知某事X發生的情況下,屬於某個類W的概率

P(X|W) 類條件概率,在某個類W的前提下,某事X發生的概率

對於 P(W) 先驗概率的估計是簡單的,樣本信息直接給出,但對於 P(X|W) 類條件概率來說,概率密度函數包含一個隨機變數的全部信息,直接求解概率密度無法入手,因此我們將概率密度估計問題轉化為參數估計問題,極大似然估計便就是一種參數估計法。

最大似然估計的核心思想是:在給出數據樣本下,找出最大可能產生該樣本的參數值,最大似然估計提供了一種給定觀察數據來評估模型參數的方法,即模型已定,參數未知,通過最大似然估計找到能夠使樣本出現概率最大的參數值,則稱為最大似然估計。

最大似然估計有一個重要的前提假設即:樣本之間是獨立同分布的,先給出一個一般模型。考慮現有一類樣本集D,記作D = { x1,x2,…,xn},來估計參數 θ,有:

其中 P(D|θ) 既是聯合概率密度函數,L(θ) 稱作樣本 D={x1,x2,…,xn} 關於θ的似然函數,對上式取對數可得:

按照最大似然函數的思想,我們要求的是使得樣本出現概率最大的參數θ,因此:

因此當 ?l(θ)/?θ = 0 成立時l(θ) 取得最大值,解此時便可得到參數 θ

註:這裡的參數θ可是實數變數(一個未知參數),也可以是向量(多個未知參數)

二、最小二乘法(最小平方法)

比如我們要做數據擬合,如下圖所示:

假設我們擬合函數為hθ(x),暫先不管hθ(x) 形式,擬合函數可以是線性,也可非線性,正如上圖所示,現在我們需要做的便是選出擬合效果最好的函數,法國數學家勒讓德定義,讓數據總體誤差最小的便是最好的。當然為什麼勒讓德如此定義我們便認為是合理的呢,下面第三節最大似然估計的角度說明該定義的合理性。

兩種定義擬合總體誤差:

(1) 誤差絕對值之和:

解釋:m表示樣本點數,(xi, yi) 既是坐標點

(2) 誤差平方和最小:

最小二乘法便是便是採用了保證所有數據誤差的平方和最小,這便是最小二乘法優化的核心思想。這裡簡單解釋為什麼不去誤差絕對值之和最小,主要願意便是誤差絕對值之和最小無法轉化為一個可解的尋優問題,無法確定一個合適的尋優的參數估計方程,數學上不易處理。

根據擬合函數 hθ(x) 定義形式的不同,參數的個數和形式也不同,但參數求解方式相同,都是通過對參數求偏導求解,這裡以簡單的線性擬合為例作簡單說明,則:

優化方程為:

對參數a,b求偏導有:

聯合上述式子便可求得參數a, b得到最優擬合函數

三、高斯正態分佈、最大似然估計、最小二乘法關係

繼續以上述數據擬合為例,對每個數據點擬合都會存在誤差,我們定義誤差為:

假設當樣本數據量足夠多的情況下,我們由中心極限定理剋制可知誤差ε服從正態分佈,即ε~N(0, σ2),因此有:

因此我們可得yi 關於xi 的概率密度公式為:

求概率密度問題是不是有想到了最大似然法,這裡便可以把求概率密度轉化為求參數,因此有最大似然法可得:

按照最大似然估計接下來便通過最大化似然函數求參,但通過觀察可以看出:

右式是啥,不就是最小二乘法嘛,所以從此角度也說明瞭最小二乘法定義的所有數據誤差的平方和最小既是最優的合理性

歡迎轉載,轉載請註明出處【機器學習與TensorFlow實戰】 作者【CHEONG】,謝謝!博文每週一更新,歡迎大家交流!

weixin.qq.com/r/5SgQCDf (二維碼自動識別)

都看到這了,幫忙點個讚唄


推薦閱讀:
相關文章