從正則項的詳細分析我們知道正則化項對應於貝葉斯的先驗分布,因此通過設置參數的先驗分布來調節正則化項。本次首先介紹貝葉斯線性回歸的相關性質和正則化參數 lambda 的作用,然後簡單介紹了貝葉斯思想的模型比較,最後總結全文。

脈絡:

  1. 後驗參數分布和預測變數分布
  2. 正則化參數 lambda 的作用
  3. 貝葉斯模型比較
  4. 總結

參數的後驗分布和預測變數分布

已知模型參數的先驗分布和高斯分布的數據集,參數的後驗分布通過貝葉斯定理求得。

模型參數w的先驗分布:

P(overrightarrow{w}) = N(overrightarrow{w}|overrightarrow{m_{0}},overrightarrow{s_{0}})

overrightarrow{s_{0}} = alpha^{-1} overrightarrow{I}

其中overrightarrow{w_{0}},overrightarrow{s_{0}}分別是參數的均值和協方差

高斯分布的數據集的似然函數:

P(overrightarrow{t} | X,overrightarrow{w},eta) = prod_{n=1}^{N}N(t_{n}|overrightarrow{w}^{T} overrightarrow{phi(x_{n})},eta^{-1}) 其中, X=(x1,x2,...,x_{N}) 和overrightarrow{t} = (t_{1},t_{2},...,t_{n}) 分別為樣本數據集的輸入變數和輸出變數, eta 為高斯雜訊的精度。

1、模型的參數後驗分布

性質:

1. 當樣本數N增大時,後驗分布的協方差矩陣項會減小。2. 當樣本數N趨於無窮大時,後驗分布的協方差矩陣會趨向於0。

如下圖:

三張圖分別為樣本數等於1,2,20的參數後驗分布。

由上面三張圖可知,當樣本數逐漸增加時,參數w分布的等高圓半徑越來越小,即協方差項越來越小,參數w的確定性增大。

2、模型的預測變數分布

下圖樣本數分別為2,4,25的預測變數的分布。

由上面三圖可知,暗紅色區域代表預測變數的方差,當樣本數增加時,預測變數的方差變小,確定性增加。

因此,增加樣本數據可以提高預測結果的準確性。

正則項參數 lambda 的作用

含正則化項L2範數的損失函數:

E(w) = frac{1}{2}sum_{n=1}^{N}(t_{n} - overrightarrow{w}^{T}overrightarrow{phi(x_{n})})^{2} + frac{lambda}{2}overrightarrow{w}^{T}overrightarrow{w}

參數的先驗分布為高斯分布,參數後驗分布的自然對數為:

lnP(overrightarrow{w}|overrightarrow{t}) = -frac{eta}{2}sum_{n=1}^{N}(t_{n} - overrightarrow{w}^{T}overrightarrow{phi(x_{n})})^{2} - frac{alpha}{2}overrightarrow{w}^{T}overrightarrow{w}+const

等價於:

lnP(overrightarrow{w}|overrightarrow{t}) =  -frac{1}{2}sum_{n=1}^{N}(t_{n} - overrightarrow{w}^{T}overrightarrow{phi(x_{n})})^{2} - frac{alpha}{2eta}overrightarrow{w}^{T}overrightarrow{w}+const

lambda = frac{alpha}{eta} ,則:

lnP(overrightarrow{w}|overrightarrow{t}) =  -frac{1}{2}sum_{n=1}^{N}(t_{n} - overrightarrow{w}^{T}overrightarrow{phi(x_{n})})^{2} - frac{lambda}{2}overrightarrow{w}^{T}overrightarrow{w}+const

因此,最大化參數w的後驗分布等同於最小化含正則化項的損失函數。 eta 表示觀測數據集的精度, alpha 表示先驗參數分布的精度, lambda 衡量這兩項的相對重要程度。

最大化參數w的後驗分布,得參數w:

overrightarrow{w} = (lambda overrightarrow{I} + overrightarrow{phi}^{T}overrightarrow{phi})^{-1}overrightarrow{phi}^{T}overrightarrow{t}

由上式可知,當 lambda=0 時,無先驗分布,參數 overrightarrow{w} 等於最大似然函數對應的模型參數,模型複雜度達到最大。當 lambda 增大時,參數 overrightarrow{w} 的分量變小,若 lambda 足夠大,則參數 overrightarrow{w} 的某些分量等於0,因此正則化參數的作用是調節模型的複雜度。

貝葉斯模型的比較

常用的模型比較方法有留出法,交叉驗證法和自助法,這三種方法的缺點在於無法用完整的訓練數據構建模型,因此構建的模型可能不符合真實模型。

最大似然函數構建的模型存在過擬合,因為最大似然函數認為參數w是常數,即參數w的點估計。

貝葉斯模型避免過擬合問題,因為貝葉斯認為參數w存在一定的參數空間,所有可能的w與似然函數加權求和,得到的預測變數能夠避免過擬合問題。

p(t|x,D) = sum_{i=1}^{L}p(t|x,M_{i},D)p(M_{i}|D)

因此,貝葉斯可以使用整個訓練數據集來進行模型比較。

總結

本文簡單地介紹了貝葉斯線性回歸的相關性質,樣本數增加可以減小參數w和預測變數的分布空間,提高準確率。貝葉斯的模型比較之所以可以使用整個訓練數據集,是因為貝葉斯對參數w的分布空間進行了加權求和。


推薦閱讀:
相关文章