貝葉斯線性回歸
從正則項的詳細分析我們知道正則化項對應於貝葉斯的先驗分布,因此通過設置參數的先驗分布來調節正則化項。本次首先介紹貝葉斯線性回歸的相關性質和正則化參數 的作用,然後簡單介紹了貝葉斯思想的模型比較,最後總結全文。
脈絡:
- 後驗參數分布和預測變數分布
- 正則化參數 的作用
- 貝葉斯模型比較
- 總結
參數的後驗分布和預測變數分布
已知模型參數的先驗分布和高斯分布的數據集,參數的後驗分布通過貝葉斯定理求得。
模型參數w的先驗分布:
高斯分布的數據集的似然函數:
其中, 分別為樣本數據集的輸入變數和輸出變數, 為高斯雜訊的精度。1、模型的參數後驗分布
性質:
1. 當樣本數N增大時,後驗分布的協方差矩陣項會減小。2. 當樣本數N趨於無窮大時,後驗分布的協方差矩陣會趨向於0。如下圖:
三張圖分別為樣本數等於1,2,20的參數後驗分布。由上面三張圖可知,當樣本數逐漸增加時,參數w分布的等高圓半徑越來越小,即協方差項越來越小,參數w的確定性增大。
2、模型的預測變數分布
下圖樣本數分別為2,4,25的預測變數的分布。
由上面三圖可知,暗紅色區域代表預測變數的方差,當樣本數增加時,預測變數的方差變小,確定性增加。
因此,增加樣本數據可以提高預測結果的準確性。
正則項參數 的作用
含正則化項L2範數的損失函數:
參數的先驗分布為高斯分布,參數後驗分布的自然對數為:
等價於:
令 ,則:
因此,最大化參數w的後驗分布等同於最小化含正則化項的損失函數。 表示觀測數據集的精度, 表示先驗參數分布的精度, 衡量這兩項的相對重要程度。
最大化參數w的後驗分布,得參數w:
由上式可知,當 時,無先驗分布,參數 等於最大似然函數對應的模型參數,模型複雜度達到最大。當 增大時,參數 的分量變小,若 足夠大,則參數 的某些分量等於0,因此正則化參數的作用是調節模型的複雜度。
貝葉斯模型的比較
常用的模型比較方法有留出法,交叉驗證法和自助法,這三種方法的缺點在於無法用完整的訓練數據構建模型,因此構建的模型可能不符合真實模型。
最大似然函數構建的模型存在過擬合,因為最大似然函數認為參數w是常數,即參數w的點估計。
貝葉斯模型避免過擬合問題,因為貝葉斯認為參數w存在一定的參數空間,所有可能的w與似然函數加權求和,得到的預測變數能夠避免過擬合問題。
因此,貝葉斯可以使用整個訓練數據集來進行模型比較。
總結
本文簡單地介紹了貝葉斯線性回歸的相關性質,樣本數增加可以減小參數w和預測變數的分布空間,提高準確率。貝葉斯的模型比較之所以可以使用整個訓練數據集,是因為貝葉斯對參數w的分布空間進行了加權求和。
推薦閱讀: