邏輯回歸是應用非常廣泛的一個分類機器學習演算法,它將數據擬合到一個logistic函數中,從而能夠完成對事件發生的概率進行預測。從大的類別上來說,邏輯回歸是一種有監督的統計學習方法,主要用於對樣本進行分類。
對於每一個輸入的x,都有一個對應的y輸出。x和y都是連續型數據。但是對於邏輯回歸,輸入可以是連續的,但輸出一般是離散的,即只有有限多個輸出值。例如,其值域可以只有兩個值{0, 1},這兩個值可以表示對樣本的某種分類,高/低、患病/健康、陰性/陽性等,這就是最常見的二分類邏輯回歸。
邏輯回歸與線性回歸模型的形式基本上相同,都具有 ax+b,其中a和b是待求參數,其區別在於他們的因變數不同,線性回歸直接將ax+b作為因變數,即y = ax+b,而logistic回歸則通過函數S將ax+b對應到一個隱狀態p,p= S(ax+b),然後根據p與1-p的大小決定因變數的值。這裡的函數S就是Sigmoid函數。