台湾 || 语言: 大陆简体港澳繁體台灣正體

模型融合及python實現

雪花台灣 2019-06-21 10:58

「如果你沒有什麼好的思路的話，那麼就模型融合吧！」

『我愛機器學習』集成學習（一）模型融合與Bagging - 細語呢喃?

www.hrwhisper.me

蹭蹭不進去：Kaggle機器學習之模型融合（stacking）心得?

zhuanlan.zhihu.com

Stacking利器（mlxtend庫）:

https://blog.csdn.net/weixin_38569817/article/details/80534785?

blog.csdn.net

在KDD CUP、Kaggle、天池等數據挖掘比賽中，常常用到集成學習。使用了集成學習後，模型的效果往往有很大的進步。

本文將介紹常見的集成學習方法，包括但不限於：

集成學習為什麼有效
Voting
Linear Blending
Stacking
Bagging
隨機森林

集成學習

如果硬要把集成學習進一步分類，可以分為兩類，一種是把強分類器進行強強聯合，使得融合後的模型效果更強，稱為模型融合。另一種是將弱分類器通過學習演算法集成起來變為很強的分類器，稱為機器學習元演算法。

這裡我們把用來進行融合的學習器稱為個體學習器。

模型融合的代表有：投票法(Voting)、線性混合(Linear Blending)、Stacking。

而機器學習元演算法又可以根據個體學習器之間是否存在依賴關係分為兩類，稱為Bagging和Boosting:

Bagging: 個體學習器不存在依賴關係，可同時對樣本隨機採樣並行化生成個體學習器。代表作為隨機森林(Random Forest)
Boosting: 個體學習器存在依賴關係,基於前面模型的訓練結果誤差生成新的模型，必須串列化生成。代表的演算法有：Adaboost、GBDT、XGBoost

zach96：Boosting方法-GBDT,XGBoost,LightGBM?

zhuanlan.zhihu.com

模型融合

上面提到，模型融合是把強分類器進行強強聯合，變得更強。

在進行模型融合的時候，也不是說隨意的融合就能達到好的效果。進行融合時，所需的集成個體（就是用來集成的模型）應該好而不同。好指的是個體學習器的性能要好，不同指的是個體模型的類別不同。

這裡舉個西瓜書的例子，在介紹例子之前，首先提前介紹簡單投票法，以分類問題為例，就是每個分類器對樣例進行投票，哪個類別得到的票數最多的就是融合後模型的結果。

h_t

相关文章