LightGBM
在Kaggle,KDD等各類數據競賽中,無論是分類問題還是回歸問題亦或是排序問題,以GBDT(分類回歸決策樹)為基礎的梯度提升樹,如XGBoost、LightGBM、Thunder Boost等均佔有無撼動的主導地位。尤其是在數據維度(屬性)較少時,特徵工程加XGBoost的pipeline幾乎已經成為了各類比賽的冠軍方案。不得不說先驗知識再加上「分而治之」的方法在特徵維數較低且易於表示時仍然具有「解釋性好」、精度高、速度快等深度神經網路無法媲美的優點(深度神經網路真正取得突破的是在圖像和語音這類特徵抽象,表徵困難其過去進步較小的領域,而NLP中深度網取得的進步仍然有限,這一方要歸咎於數據量的不足,但還有一點是語言的學習從小開始,其已經擁有大量的人工知識)。
Introduction
首先簡單的回顧GBDT的思想(更加詳細的介紹可以參看我的這篇筆記)
PoderLee:集成學習中的XGBoost?zhuanlan.zhihu.com 對於決策樹的構建主要分為兩類方法,即深度優先(損失更小,與廣度優先相比,在leaf數目相同時樹根深,因此容易造成過擬合,但是構建過程更加靈活且容易在大規模數據集上使用)和廣度優先(樹的構建更加平衡,但是精度較差),決策樹通過「分而治之」的思想將樣本進行分類。在決策樹構建的過程中最困難且最耗時的就是結點的分裂,這裡不同的分裂策略即對應了不同版本的決策樹,如根據信息增益構建ID3,根據信息增益率構建C4.5,根據Gini index構建CART等,split策略的不同也將帶來decision tree的不同偏好。然而單一的決策樹其性能有限,且容易造成過擬合,而通過剪枝或限制樹深等手段雖然能在一定程度上緩解overfitting,但是其精度也將受到損失。因此,研究人員便以決策樹為基學習器,通過集成的思想來提升模型的性能,梯度提升決策樹就是典型代表,此外包括AdaBoost、Random Forest等均被廣泛採用。