邏輯回歸和最大熵模型的等效性
paper link
本人水平有限,也處在學習階段,如果有理解不到位的或者有其他角度來思考的歡迎留言,大家一起學習。
這篇文章主要記錄幾個我學習時的疑惑點和解決:
1. Sigmoid Function是怎麼想到的
2. Logistic regression 和 Linear regression的關係
3. 為什麼要採用平方誤差, 平方誤差有哪些局限
一. Sigmoid Function是怎麼想到的
wiki
好奇sigmoid function是怎麼得到的, 然後找到了這篇paper。
sigmoid function是logistic function的一個特殊情況
logistic function:
sigmoid function:
定義幾個notations:
表示輸入數據, , 第i個數據的第j個feature表示為 表示已知的訓練結果. 如果是二分類, 那麼 定義為一個從數據映射到訓練結果類的函數, 表示對於輸入數據x屬於u類的概率是多少, 就是模型學習的對象 - 定義indicator function
那個
目標函數就是最大化似然函數,(這裡的log指的是以自然對數e為底的對數函數):
<=>
<=>
反過來, sigmoid函數是怎麼得到的呢:
這裡解釋一下: eq.1, eq.2 是概率函數的一個必要的性質
eq.3 意思就是為了使
然後目標就是成了找出了一個優秀的函數
聯合以上的條件限制採用拉格朗日乘子法就可計算出sigmoid函數:
因為
最終可以得到
二. Logistic regression 和 Linear regression的關係
Linear Regression求解是
是對真實關係
接著之前邏輯回歸的說, 對於二分類, 定義
對於Logistic Regression我們求解的參數是
最大不同的地方在於Logistic Regression的因變數是離散的,而Linear Regression的因變數是連續的(
三. 為什麼要採用平方誤差, 平方誤差有哪些局限
關於這個背後 的歷史就不談了, 直接說正題。平方誤差是建立在假設誤差
(Root Mean Square Error RMSE)
一般情況下能夠很好的反應回歸模型預測值與真實值的偏離程度,但是如果存在個別偏離程度非常大的離群點(outlier),即使這種點非常少也會使得誤差很大,所以這種情況是不適用的。這個時候應當換其他的指標,比如(Mean Absolute Percent Error, MAPE)
另外就是一定要記住是建立在誤差分布為正太分布並且變數之間相互獨立的假設,應用限制條件很重要。
平方誤差的好處也很明顯,最直觀的就是求導容易,函數平滑連續,便於計算。
最後再來一份在誤差服從正太分布的情況下是怎麼導出平方誤差的公式推導。
最大似然函數就是
log-likelihood function:
從而得出了平方誤差(MSE), 也就是說在假設成立的情況下, 求解最小平方誤差和求解最大似然函數目標是一致等價的。
相似的, L1正則誤差就是建立在誤差分布假設為Laplace分布的情況
當然還有其他的一些變種, 進一步的還可以通過對參數
比如
打公式真的累人==!
推薦閱讀: