最近幾天在看有關邏輯回歸的東東,推導了一大堆公式,但是腦海浮現出個一個疑問:邏輯回歸為啥長這樣?為啥邏輯回歸要用Sigmoid函數?也許可能有人會說Sigmoid函數的性質很好,連續可導以及導函數簡單之類,但是Sigmoid不可能突然出現的吧?總會有一個被人發現的過程,對此有兩種解釋,一個是廣義線性模型(GLM),另一個是最大熵模型。

  我會分成兩篇文章來說明,一部分從GLM的角度去推導,一部分從最大熵模型來推導。

1.1 廣義線性模型(GLM)

  我們知道線性模型 y=mathbf{w}^{T}mathbf{x} 往往用來預測的是連續值,對於分類問題效果往往不好,故考慮再對預測值做一次處理,這個處理的函數稱之為連接函數(link function),即下圖中的 g 函數。GLM如下圖所示:

  廣義線性模型是一種應用靈活的線性模型,它認為因變數是屬於指數簇分布的(可理解為是一種限制),即對於輸入的 mathbf{x}Y 具有如下形式的分布:

p(Y|eta)=b(Y)e^{eta^{T}T(Y)-a(eta)}, eta=mathbf{w}^{T}mathbf{x}

該分布稱為指數簇分布,其中正態分布、伯努利分布、二項分布、泊松分布、多項分布等均屬於指數簇分布的一種。

  具體地,當 Y 服從正態分布、伯努利分布時,會推導出不同的連接函數,故廣義線性模型的形式 h(mathbf{x}) 也不同,我們會根據下面的公式來推導:

E(T(Y))=h(mathbf{x})

1.2 伯努利分布推導邏輯回歸

  現在我們希望藉助廣義線性模型做二分類。在二分類問題中,假設當前 Y 服從伯努利分布(0-1分布),形式如下:

p(Y=y;phi)=phi^{y}(1-phi)^{1-y},y=0,1

接著我們根據 E(T(Y))=h(mathbf{x}) 來推導 h(mathbf{x})

這時我們驚訝的發現,這不就是邏輯回歸的形式嗎?於是乎我們得出結論,當因變數服從伯努利分布時,廣義線性模型就為邏輯回歸。

1.3 推導Softmax回歸

  最後補充一個有關Softmax回歸,我們知道,邏輯回歸其實是Softmax回歸在二分類的情況。推導過程與邏輯回歸類似,但是要稍多多點技巧,且因為多分類,每種類別具有不同的概率,故求期望時會具有多個方程。

參考

  1. cloud.tencent.com/devel
  2. zhuanlan.zhihu.com/p/24
  3. jianshu.com/p/ae9725301

推薦閱讀:

相关文章