邏輯回歸和最大熵模型的等效性

paper link

本人水平有限，也處在學習階段，如果有理解不到位的或者有其他角度來思考的歡迎留言，大家一起學習。

這篇文章主要記錄幾個我學習時的疑惑點和解決:

1. Sigmoid Function是怎麼想到的

2. Logistic regression 和 Linear regression的關係

3. 為什麼要採用平方誤差, 平方誤差有哪些局限

一. Sigmoid Function是怎麼想到的

wiki

好奇sigmoid function是怎麼得到的, 然後找到了這篇paper。

sigmoid function是logistic function的一個特殊情況

logistic function:

sigmoid function: , 也叫S函數, 有著S型曲線

定義幾個notations:

函數有以下性質:

那個也就是多分類的sigmoid function, 他有兩個導數的性質(矩陣的分數求導):

目標函數就是最大化似然函數,(這裡的log指的是以自然對數e為底的對數函數):

<=>

反過來, sigmoid函數是怎麼得到的呢:

這裡解釋一下: eq.1, eq.2 是概率函數的一個必要的性質

eq.3 意思就是為了使很好的對訓練數據的類別鑒定函數做一個逼近

然後目標就是成了找出了一個優秀的函數能夠和好的滿足連續性，平滑性，最小表示長度，奧卡姆剃刀或者低複雜度,還要能夠很好的進行generalize, 然後就使用了資訊理論中的熵函數, 這是資訊理論的一個核心函數

聯合以上的條件限制採用拉格朗日乘子法就可計算出sigmoid函數:

因為所以 <==>

最終可以得到也就是sigmoid 函數

二. Logistic regression 和 Linear regression的關係

Linear Regression求解是

是對真實關係的一個近似代表誤差項

接著之前邏輯回歸的說, 對於二分類, 定義表示給定輸入x預測為正樣本的概率根據推導可以反推出

對於Logistic Regression我們求解的參數是 , Linear Regression也是的, 所以對於這個函數可以看做是Linear Regression對於這個對象的擬合, 從這個角度來說兩者是和相似之處的。也叫做一個事件發生的幾率

最大不同的地方在於Logistic Regression的因變數是離散的，而Linear Regression的因變數是連續的( )

三. 為什麼要採用平方誤差, 平方誤差有哪些局限

關於這個背後的歷史就不談了, 直接說正題。平方誤差是建立在假設誤差服從正太分布並且變數相互獨立的情況下進行的。而正太分布誤差廣泛存在, 所以這個假設比較靠譜。

(Root Mean Square Error RMSE)

一般情況下能夠很好的反應回歸模型預測值與真實值的偏離程度，但是如果存在個別偏離程度非常大的離群點(outlier)，即使這種點非常少也會使得誤差很大，所以這種情況是不適用的。這個時候應當換其他的指標，比如(Mean Absolute Percent Error, MAPE)

另外就是一定要記住是建立在誤差分布為正太分布並且變數之間相互獨立的假設，應用限制條件很重要。

平方誤差的好處也很明顯，最直觀的就是求導容易，函數平滑連續，便於計算。

最後再來一份在誤差服從正太分布的情況下是怎麼導出平方誤差的公式推導。

這裡均值化一下所以u = 0

最大似然函數就是

log-likelihood function:

從而得出了平方誤差(MSE), 也就是說在假設成立的情況下, 求解最小平方誤差和求解最大似然函數目標是一致等價的。

相似的， L1正則誤差就是建立在誤差分布假設為Laplace分布的情況

當然還有其他的一些變種, 進一步的還可以通過對參數進行條件約束進行似然求值

比如那麼

打公式真的累人==!