集成思想是機器學習中重要的思想之一,kaggle中常用的的xgboost就是集成的應用。其基本框架是:假如你有一打分類器(我們稱之為基分類器),假設這些分類器有不同的屬性,將這些基分類器結合起來, 會有意想不到的效果,這篇文章記錄的事集成思想的兩種重要表現:Bagging與Boosting。本文是李宏毅老師ML Lecture22: Ensemble的筆記,建議大家去觀看原視頻。
假設現在有N筆數據,每次從這N筆數據中sample出N個樣本,就是通過這樣的方式可以sample出多個database,接下來用一個複雜的模型對每個resample的database做訓練,就得到了幾個不同的function。接下來在做預測的時候,把數據分別丟進這些模型,然後對結果做平均(對回歸問題)或者投票(對分類問題),這就是bagging的思想。