繼續花書第五章總結,主要內容有最大似然法(Maximum likelihood estimation), 貝葉斯統計(Bayesian statistics)與最大後驗概率估計(Maximum A Posteriori estimation簡稱MAP estimation)。

最大似然法

在上一部分 川陀學者:欠擬合、過擬合與正則化——深度學習花書第五章(二)裏我們看到了幾個經典的估計量(estimator),但是對於怎麼得到這些估計量並沒有解釋,我們希望能夠有一些能指導我們選擇估計量的原理,最大似然法就是其中之一。

我們考慮從某個未知的數據生成分佈 p_{data}(x) 中抽樣了m個樣本X=left{ x^{(1)},...,x^{(m)} 
ight}。我們用 p_{model} (x;	heta) 來代表含有參數 	heta 的模型的概率分佈,用來近似真實分佈 p_{data}(x) 。則最大似然法要求 	heta 滿足

通常,為了方便計算,我們又將其等價轉化為對數形式:

進一步的由於argmax對於添加一個常量乘項不會給出不同的最合適的 	heta ,所以我們可以對其除以樣本量m,得到其期望形式:

通過這個形式,我們可以理解為最大似然法就是為了要減小模型的概率分佈 p_{model} (x;	heta) 與真實的概率分佈 hat p _{data}之間的差異,這個差異我們可以用概率論——深度學習花書第三章總結過的KL divergence來表示

KL divergence中第一項只與真實分佈有關,和模型無關,所以當我們訓練模型以使KL divergence最小化時,實際上就是求使交叉熵-E_{xsim hat p _{data}}log{{p_{model}(x)}}最小的 	heta ,而這實際上就是上面給出的 	heta _{ML}

我們還是用之前的線性回歸問題機器學習問題定義與線性回歸——深度學習花書第五章(一)作為例子說明最大似然法。之前的回歸問題我們的目標設為減小均方差,但並沒有解釋為什麼要這麼做,這可以用最大似然法來理解。與之前對於某個x只預測單一的y值相比,我們這裡將其看做y相對於x的條件分佈問題p(y|x), 我們假設條件分佈滿足高斯分佈 p(y|x) = N(y;hat y (x;w), sigma ^2 ) 其中 hat y (x;w) 是高斯分佈的平均值,假設均方差是固定的,則我們需要求使下式最大的參數:

由於前兩項是常量,所以我們就是要求是最後一項最大化的參數,也即求

最小化的參數,可見由最大似然法所推導的目標與之前的減小均方差的目標是一致的。

貝葉斯統計

要注意,最大似然近似還是從頻率統計的觀點出發的,即估計一個單一的參數 	heta 值,並依據這一值做出預測。而從貝葉斯統計的角度出發,我們需要考慮所有可能的 	heta 值來做出預測。關於頻率統計和貝葉斯統計及貝葉斯公式請回顧概率論——深度學習花書第三章。

在我們觀察數據前,我們假設有對於 	heta先驗概率分佈(prior probability distribution) p(	heta) ,通過我們的數據集觀察 left{ x^{(1)},...,x^{(m)} 
ight} ,我們可以得到受這些觀察影響後新的後驗概率分佈(posterior probability distribution),由貝葉斯公式得到

通常我們可以將先驗分佈選為一些熵比較高的分佈例如均勻分佈或高斯分佈,然後通過對數據的不斷觀測,減小後驗概率的熵從而使其集中在比較可能的參數配置上。

與最大似然法僅用點估計做推斷相比,在利用貝葉斯統計做推斷時,我們需要所有可能的 	heta 值,即當我們已觀察 left{ x^{(1)},...,x^{(m)} 
ight} 需要推斷新的樣本 x^{(m+1)} 時,其概率表示為:

可以理解為所有可能的 	heta 都對最後的概率有貢獻,並且其權重為相應的後驗概率。

和頻率統計相比較,頻率統計通常用方差來衡量點估計的不確定性(欠擬合、過擬合與正則化——深度學習花書第五章(二)),方差代表了隨取樣變化預測的不確定性。而貝葉斯統計處理不確定性的方法是取全域的積分,能更好的阻止過擬合。對於樣本量有限的情況,貝葉斯統計常常能進行更好的泛化,但對於樣本量較大時,由於計算量過大而常常被棄用。

最大後驗概率估計

由於貝葉斯統計需要對全域進行積分,有的時候很難實現,我們有時也採用點估計方法對後驗概率進行估計,稱之為最大後驗概率估計(MAP estimation)。 與最大似然法不同的是,最大後驗概率仍利用了貝葉斯統計中先驗概率來影響最終的點估計,可用公式表達為:

第一項與最大似然法相同,是對數概率項,而最後一項即是先驗概率項,我們通過先驗概率可以影響最後的預測。一種應用是通過先驗概率來進行正則化,例如對於線性回歸問題,假如我們選取先驗概率為相對於權重w的高斯分佈形式為 N(w;0, frac{1}{lambda}I) 的分佈,則先驗概率項正比於對權重的懲罰項 lambda w^T w ,即我們之前的防止過擬合的正則項,達到權重衰減的效果。

至此最大似然法,貝葉斯統計及最大後驗概率估計總結完畢,下一篇總結經典的監督學習演算法。


推薦閱讀:
相關文章