吳恩達Coursera機器學習Week3

來自專欄吳恩達機器學習筆記4 人贊了文章

1. Classification and Representation

  • Classification

當預測的結果只為離散的值時,此時用線性回歸演算法求解不合適,即當需要對預測結果分類的時候,此時應該使用邏輯回歸(logistic regression)演算法進行預測。雖然叫做「回歸」,但是這個演算法是用來解決分類問題的。回歸與分類的區別在於:回歸所預測的目標量的取值是連續的(例如房屋的價格);而分類所預測的目標變數的取值是離散的(例如判斷郵件是否為垃圾郵件)。

  • Hypothesis Representation

為了使預測的結果在0和1之間,對假設函數做了以下修改,從而得到了邏輯回歸(logistic regression)演算法。

其中對於假設函數的理解如下所示:

  • Decision Boundary

通過下圖,sigmoid函數的圖像:

對於離散性的結果,我們可以對假設函數做出以下的判斷:

決策邊界(Decision Boundary):是用來決定哪些區域能使y為0,哪些區域能使y為1。決策邊界不是訓練集的屬性,而是假設本身及其參數的屬性,只要我們給定了參數向量θ ,決策邊界也就確定了。不是用訓練集來定義決策邊界,而是利用訓練集來擬合參數θ ,一旦擬合好了參數θ ,那麼就確定了決策邊界。

2. Logistic Regression Model

  • Cost Function

Logistic Regression的代價函數不能使用Linear Regression的代價函數,否則的話會使輸出的預測結果呈現波浪形,即代價函數不是凸函數。因此將代價函數轉換成以下的形式,對於為什麼這樣子寫,請自行百度。

其中需要記住代價函數的圖像,分別如下所示:

  • Simplified Cost Function and Gradient Descent

對於上一章節提到的代價函數,我們可以合併如下:

而向量的表示形式如下:

其中邏輯回歸的梯度下降演算法的形式和線性回歸的形式相同,如下所示,其中所有參數的更新要同時進行。

而損失函數的推導過程如下圖所示:

向量的表示形式如下:

其中梯度的向量表示方法如下:

  • Multiclass Classification: One-vs-all

當遇到分類的問題,並且預測的結果y有多個值時,就屬於多類別分類問題,此時需要用一對多的方法(one-vs-all):假設我們有n種預測結果,我們先選擇一種結果,然後把其他的所有結果作為一類,然後利用邏輯回歸的方法求出預測曲線;然後選擇另一種結果,以同樣的方法求出預測曲線,直到求出n種預測曲線。其中圖像表示如下:

當輸入為x,需要預測輸出y時,就計算所有的n種預測曲線的值,選取最大的作為結果。

3. Solving the Problem of Overfitting

  • The Problem of Overfitting

對於同一個訓練集,可能有多種數據擬合方法,如下圖:

第一張圖片會出現以下問題:欠擬合(underfitting)高偏差(high bias),這是因為預測函數使用的變數過少,不能準確的擬合數據集的變化趨勢;第三張圖片會出現下面問題:過擬合(overfitting)高方差(high variance),這是因為預測函數使用的變數過多,不能夠做到泛化。

過度擬合(overfitting):在變數過多的時候, 訓練出的方程總能很好的擬合訓練數據,所以你的代價函數實際上可能非常接近於0 或者就是0 ,但是這樣的曲線它千方百計的擬合於訓練數據,這樣導致它無法泛化到 新的數據樣本中,以至於無法預測新樣本價格 。

其中,解決方式如下:

(1)減少變數的個數:認為的選擇哪些重要的變數需要留下來;使用一個模型選擇演算法。

(2)正則化:保存所有的變數,但是需要減少變數的值的大小。

  • Cost Function

當出現過度擬合的情況是,在計算代價函數的最小值時,需要做以下的修改,這樣子的話就能夠修改θ的值,使其變小。

λ為正規化參數,用來控制兩個不同目標中的平衡關係。其中第一個目標是 λ的值要更好的擬合訓練數據;第二個目標是保持參數值較小。如果 λ的很大的話,被懲罰的θ的值就會接近零,因此假設函數就等於常數θ0,就會出現欠擬合的狀態。

其中,有兩種正則化的手段,L1正則化和L2正則化,其中有兩張很形象的圖,如下所示,其中更詳細的講解,請自行百度。

  • Regularized Linear Regression

對於線性回歸的求解,當使用正則化的方法之後,兩種學習演算法種,一種基於梯度下降,一種基於正規方程,需要做以下的修改。

其中梯度下降修改如下:

對於上圖中的第二個公式,還可以做進一步變形:

對於正規方程修改如下,其中矩陣L是n+1維矩陣。

  • Regularized Logistic Regression

邏輯回歸的代價函數為:

當遇到過度擬合的情況時,我們需要進行正則化處理,其中處理如下:

其中對邏輯回歸中梯度下降演算法的修改如下:


推薦閱讀:
查看原文 >>
相關文章