台湾 || 语言: 大陆简体港澳繁體台灣正體

隨機森林原理

雪花臺灣 2019-04-09 23:08

隨機森林（Random Forest），簡稱RF。作為新興起的、高度靈活的一種機器學習演算法，從市場營銷到醫療保健保險，既可以用來做市場營銷模擬的建模，統計客戶來源，保留和流失，也可用來預測疾病的風險和病患者的易感性。

隨機森林的本質屬於機器學習的一大分支——集成學習（Ensemble Learning）方法。

它有如下幾個特點：

在當前所有演算法中，具有極好的準確率
能夠有效地運行在大數據集上
能夠處理具有高維特徵的輸入樣本，而且不需要降維
能夠評估各個特徵在分類問題上的重要性
在生成過程中，能夠獲取到內部生成誤差的一種無偏估計
對於缺失值問題也能夠獲得很好得結果

1.隨機森林的相關基礎知識

1）信息、熵以及信息增益的概念

這三個基本概念是決策樹的根本，是決策樹利用特徵來分類時，確定特徵選取順序的依據。

對於機器學習中的決策樹而言，如果帶分類的事物集合可以劃分為多個類別當中，則某個類（xi）的信息可以定義如下:

相關文章