隨機森林(Random Forest),簡稱RF。作為新興起的、高度靈活的一種機器學習演算法,從市場營銷到醫療保健保險,既可以用來做市場營銷模擬的建模,統計客戶來源,保留和流失,也可用來預測疾病的風險和病患者的易感性。

隨機森林的本質屬於機器學習的一大分支——集成學習(Ensemble Learning)方法。

它有如下幾個特點:

  • 在當前所有演算法中,具有極好的準確率
  • 能夠有效地運行在大數據集上
  • 能夠處理具有高維特徵的輸入樣本,而且不需要降維
  • 能夠評估各個特徵在分類問題上的重要性
  • 在生成過程中,能夠獲取到內部生成誤差的一種無偏估計
  • 對於缺失值問題也能夠獲得很好得結果

1.隨機森林的相關基礎知識

1)信息、熵以及信息增益的概念

這三個基本概念是決策樹的根本,是決策樹利用特徵來分類時,確定特徵選取順序的依據。

對於機器學習中的決策樹而言,如果帶分類的事物集合可以劃分為多個類別當中,則某個類(xi)的信息可以定義如下:

  I(x)用來表示隨機變數的信息,p(xi)指是當xi發生時的概率。

  熵是用來度量不確定性的,當熵越大,X=xi的不確定性越大,反之越小。對於機器學習中的分類問題而言,熵越大即這個類別的不確定性更大,反之越小。

  信息增益在決策樹演算法中是用來選擇特徵的指標,信息增益越大,則這個特徵的選擇性越好。

感興趣的話可以參考:信息&熵&信息增益

2)決策樹

  決策樹是一種樹形結構,其中每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別。常見的決策樹演算法有C4.5、ID3和CART。

3)集成學習

集成學習通過建立幾個模型組合的來解決單一預測問題。它的工作原理是生成多個分類器/模型,各自獨立地學習和作出預測。這些預測最後結合成單預測,因此優於任何一個單分類的做出預測。

隨機森林是集成學習的一個子類,它依靠於決策樹的投票選擇來決定最後的分類結果。你可以在這找到用python實現集成學習的文檔:Scikit 學習文檔。

2. 隨機森林的生成

隨機森林中有許多的分類樹。我們要將一個輸入樣本進行分類,我們需要將輸入樣本輸入到每棵樹中進行分類。打個形象的比喻:森林中召開會議,討論某個動物到底是老鼠還是松鼠,每棵樹都要獨立地發表自己對這個問題的看法,也就是每棵樹都要投票。該動物到底是老鼠還是松鼠,要依據投票情況來確定,獲得票數最多的類別就是森林的分類結果。

核心思想:將若干個弱分類器的分類結果進行投票選擇,從而組成一個強分類器,這就是隨機森林bagging的思想(關於bagging的一個有必要提及的問題:bagging的代價是不用單棵決策樹來做預測,具體哪個變數起到重要作用變得未知,所以bagging改進了預測準確率但損失瞭解釋性。)。下圖可以形象地描述這個情況:

有了樹我們就可以分類了,但是森林中的每棵樹是怎麼生成的呢?

每棵樹的按照如下規則生成:

  1)如果訓練集大小為N,對於每棵樹而言,隨機且有放回地從訓練集中的抽取N個訓練樣本(這種採樣方式稱為bootstrap sample方法),作為該樹的訓練集;

  從這裡我們可以知道:每棵樹的訓練集都是不同的,而且裡麪包含重複的訓練樣本(理解這點很重要)。

為什麼要隨機抽樣訓練集?

  如果不進行隨機抽樣,每棵樹的訓練集都一樣,那麼最終訓練出的樹分類結果也是完全一樣的,這樣的話完全沒有bagging的必要;

為什麼要有放回地抽樣?

  如果不是有放回的抽樣,那麼每棵樹的訓練樣本都是不同的,都是沒有交集的,這樣每棵樹都是"有偏的",都是絕對"片面的"(當然這樣說可能不對),也就是說每棵樹訓練出來都是有很大的差異的;而隨機森林最後分類取決於多棵樹(弱分類器)的投票表決,這種表決應該是"求同",因此使用完全不同的訓練集來訓練每棵樹這樣對最終分類結果是沒有幫助的,這樣無異於是"盲人摸象"。

  2)如果每個樣本的特徵維度為M,指定一個常數m<<M,隨機地從M個特徵中選取m個特徵子集,每次樹進行分裂時,從這m個特徵中選擇最優的;

  3)每棵樹都盡最大程度的生長,並且沒有剪枝過程。

  一開始我們提到的隨機森林中的「隨機」就是指的這裡的兩個隨機性。兩個隨機性的引入對隨機森林的分類性能至關重要。由於它們的引入,使得隨機森林不容易陷入過擬合,並且具有很好得抗噪能力(比如:對預設值不敏感)。

3.隨機森林分類效果(錯誤率)與兩個因素有關:

  • 森林中任意兩棵樹的相關性:相關性越大,錯誤率越大;
  • 森林中每棵樹的分類能力:每棵樹的分類能力越強,整個森林的錯誤率越低。

  減小特徵選擇個數m,樹的相關性和分類能力也會相應的降低;增大m,兩者也會隨之增大。所以關鍵問題是如何選擇最優的m(或者是範圍),這也是隨機森林唯一的一個參數。

4. 誤分率(oob error)

上面提到,構建隨機森林的關鍵問題就是如何選擇最優的m,要解決這個問題主要依據計算誤分率oob error。

  隨機森林有一個重要的優點就是,沒有必要對它進行交叉驗證或者用一個獨立的測試集來獲得誤差的一個無偏估計。它可以在內部進行評估,也就是說在生成的過程中就可以對誤差建立一個無偏估計。

  我們知道,在構建每棵樹時,我們對訓練集使用了不同的bootstrap sample(隨機且有放回地抽取)。所以對於每棵樹而言(假設對於第k棵樹),大約有1/3的訓練實例沒有參與第k棵樹的生成,它們稱為第k棵樹的oob樣本。

  而這樣的採樣特點就允許我們進行oob估計,它的計算方式如下:

(note:以樣本為單位)

  1)對每個樣本,計算它作為oob樣本的樹對它的分類情況(約1/3的樹);

  2)然後以簡單多數投票作為該樣本的分類結果;

  3)最後用誤分個數佔樣本總數的比率作為隨機森林的oob誤分率。

5. 隨機森林工作原理解釋的一個簡單例子

  描述:根據已有的訓練集已經生成了對應的隨機森林,隨機森林如何利用某一個人的年齡(Age)、性別(Gender)、教育情況(Highest Educational Qualification)、工作領域(Industry)以及住宅地(Residence)共5個欄位來預測他的收入層次。

  收入層次 :

    Band 1 : Below $40,000

    Band 2: $40,000 – 150,000

    Band 3: More than $150,000

  隨機森林中每一棵樹都可以看做是一棵CART(分類回歸樹),這裡假設森林中有5棵CART樹,總特徵個數N=5,我們取m=1(這裡假設每個CART樹對應一個不同的特徵)。

  CART 1 : Variable Age

  CART 2 : Variable Gender

  CART 3 : Variable Education

  CART 4 : Variable Residence

  CART 5 : Variable Industry

  我們要預測的某個人的信息如下:

  1. Age : 35 years ; 2. Gender : Male ; 3. Highest Educational Qualification : Diploma holder; 4. Industry : Manufacturing; 5. Residence : Metro.

  根據這五棵CART樹的分類結果,我們可以針對這個人的信息建立收入層次的分佈情況:

  最後,我們得出結論,這個人的收入層次70%是一等,大約24%為二等,6%為三等,所以最終認定該人屬於一等收入層次(小於$40,000)。

推薦閱讀:

相關文章