集成學習演算法LightGBM

LightGBM

在Kaggle，KDD等各類數據競賽中，無論是分類問題還是回歸問題亦或是排序問題，以GBDT（分類回歸決策樹）為基礎的梯度提升樹，如XGBoost、LightGBM、Thunder Boost等均佔有無撼動的主導地位。尤其是在數據維度（屬性）較少時，特徵工程加XGBoost的pipeline幾乎已經成為了各類比賽的冠軍方案。不得不說先驗知識再加上「分而治之」的方法在特徵維數較低且易於表示時仍然具有「解釋性好」、精度高、速度快等深度神經網路無法媲美的優點（深度神經網路真正取得突破的是在圖像和語音這類特徵抽象，表徵困難其過去進步較小的領域，而NLP中深度網取得的進步仍然有限，這一方要歸咎於數據量的不足，但還有一點是語言的學習從小開始，其已經擁有大量的人工知識）。

Introduction

首先簡單的回顧GBDT的思想（更加詳細的介紹可以參看我的這篇筆記）

PoderLee：集成學習中的XGBoost?

zhuanlan.zhihu.com

對於決策樹的構建主要分為兩類方法，即深度優先（損失更小，與廣度優先相比，在leaf數目相同時樹根深，因此容易造成過擬合，但是構建過程更加靈活且容易在大規模數據集上使用）和廣度優先（樹的構建更加平衡，但是精度較差），決策樹通過「分而治之」的思想將樣本進行分類。在決策樹構建的過程中最困難且最耗時的就是結點的分裂，這裡不同的分裂策略即對應了不同版本的決策樹，如根據信息增益構建ID3，根據信息增益率構建C4.5，根據Gini index構建CART等，split策略的不同也將帶來decision tree的不同偏好。然而單一的決策樹其性能有限，且容易造成過擬合，而通過剪枝或限制樹深等手段雖然能在一定程度上緩解overfitting，但是其精度也將受到損失。因此，研究人員便以決策樹為基學習器，通過集成的思想來提升模型的性能，梯度提升決策樹就是典型代表，此外包括AdaBoost、Random Forest等均被廣泛採用。