隨機森林在sklearn中的實現

小夥伴們大家好~o(￣▽￣)ブ，我是菜菜，我的開發環境是Jupyter lab，所用的庫和版本大家參考：

Python 3.7.1（你的版本至少要3.4以上

Scikit-learn 0.20.0 （你的版本至少要0.19

Numpy 1.15.3, Pandas 0.23.4, Matplotlib 3.0.1, SciPy 1.1.0

1 概述

1.1 集成演算法概述

集成學習（ensemble learning）是時下非常流行的機器學習演算法，它本身不是一個單獨的機器學習演算法，而是通過在數據上構建多個模型，集成所有模型的建模結果。基本上所有的機器學習領域都可以看到集成學習的身影，在現實中集成學習也有相當大的作用，它可以用來做市場營銷模擬的建模，統計客戶來源，保留和流失，也可用來預測疾病的風險和病患者的易感性。在現在的各種演算法競賽中，隨機森林，梯度提升樹（GBDT），Xgboost等集成演算法的身影也隨處可見，可見其效果之好，應用之廣。

集成演算法的目標集成演算法會考慮多個評估器的建模結果，匯總之後得到一個綜合的結果，以此來獲取比單個模型更好的回歸或分類表現。

多個模型集成成為的模型叫做集成評估器（ensemble estimator），組成集成評估器的每個模型都叫做基評估器（base estimator）。通常來說，有三類集成演算法：裝袋法（Bagging），提升法（Boosting）和stacking。