R邏輯回歸（二）

在日常學習中會經常使用線性回歸模型對一些數據進行預測：房租價格，二手房價格，保溫杯評分的影響因素（R線性回歸（一））等，這些響應變數都屬於連續型變數。在許多情況下，假設因變數為正態分布並不合理，例如結果變數是類別型的，是/否，通過/未通過，差/良好/優秀這些都不是正態分布。這時候就需要用logistic回歸。

首先捋一下邏輯回歸、線性回歸、廣義線性模型這其中的關係。

回歸分析模型中包括線性回歸和邏輯回歸，不同的模型是基於不同類型的因變數，廣義線性模型是為了克服線性回歸模型的缺點出現的，是線性回歸模型的推廣。

回歸分析中的各種變體

簡單線性：用一個量化的解釋變數預測一個量化的響應變數
多項式：用一個量化的解釋變數預測一個量化的響應變數，模型的關係式N階多項式
多元線性：用兩個或多個量化的解釋變數預測一個量化的響應變數
多變數：用一個或多個解釋變數預測多個響應變數
Logistic回歸：用一個或多個解釋變數預測一個類別型響應變數
泊松回歸：用一個或多個解釋變數預測一個代表頻數的響應變數
時間序列回歸：對誤差項想關的時間序列數據建模

廣義線性模型中，自變數可以是離散的，也可以是連續的。

與線性回歸模型相比較，有以下推廣：

（1）隨機誤差項不一定服從正態分布，可以服從二項、泊松、負二項、正態、伽馬、逆高斯等分布，這些分布被統稱為指數分布族。

（2）引入聯接函數。因變數和自變數通過聯結函數產生影響，聯接函數滿足單調，可導。

根據不同的數據，可以自由選擇不同的模型。大家比較熟悉的Logit模型就是使用Logit聯接、隨機誤差項服從二項分布得到的模型。

廣義線性模型中模型形式基本相似，不同的就是因變數：

如果是連續的，就是多重線性回歸
如果是二項分布，就是Logistic回歸
如果是Poisson分布，就是poisson回歸
如果是負二項分布，就是負二項回歸

Logistic回歸的因變數可以是二分類的，也可以是多分類的，但是二分類的更為常用，也更容易理解。所以實際中最常用的就是二分類的logistic回歸。

一、logistic回歸模型概述

廣義線性回歸是探索「響應變數的期望」與「自變數」的關係，以實現對非線性關係的某種擬合。這裡有一個「連接函數」和一個「誤差函數」，「響應變數的期望」經過連接函數作用後，與「自變數」存在線性關係。選取不同的「連接函數」與「誤差函數」可以構造不同的廣義回歸模型。當誤差函數取「二項分布」而連接函數取「logit函數」時，就是常見的「logistic回歸模型」,在0-1響應的問題中的得到了大量的應用。（摘抄自：如何在R語言中使用Logistic回歸模型 - Little_Rookie - 博客園）

線性回歸的公式如下：

$z= heta_{0}+ heta_{1}x_{1}+ heta_{2}x_{2}+...... heta_{n}x_{n}= heta^{T}x$