機器學習百試不爽之（三）xgboost&LightGBM

本文包含

xgboost在gbdt基礎上的重要改進
xgboost的缺點
LightGBM在gbdt上的差異化實現

直方圖演算法（從源碼角度詳細解讀）
leaf-wise

本文不包含

gbdt的詳細訓練過程
各種框架優化的原理論證

xgboost 和 LightGBM是gbdt的兩種實現框架。在項目實踐和面基中都是經常碰到的。

gbdt是boosting方式訓練的base model，而xgboost在gbdt基礎做出眾多改進，使得它成為業界的一大殺器。前人已經做了整理，這裡直接引用（由於未能找到原始出處，這裡沒能指出具體引用源，若有侵權，請郵件聯繫）

1.傳統GBDT以CART作為基分類器，xgboost還支持線性分類器，這個時候xgboost相當於帶L1和L2正則化項的邏輯斯蒂回歸（分類問題）或者線性回歸（回歸問題）。
2.傳統GBDT在優化時只用到一階導數信息，xgboost則對代價函數進行了二階泰勒展開，同時用到了一階和二階導數。順便提一下，xgboost工具支持自定義代價函數，只要函數可一階和二階求導。

3.Xgboost在代價函數里加入了正則項，用於控制模型的複雜度。正則項里包含了樹的葉子節點個數、每個葉子節點上輸出的score的L2模的平方和。
從Bias-variance tradeoff角度來講，正則項降低了模型的variance，使學習出來的模型更加簡單，防止過擬合，這也是xgboost優於傳統GBDT的一個特性。4.Shrinkage（縮減），相當於學習速率（xgboost中的eta）。xgboost在進行完一次迭代後，會將葉子節點的權重乘上該係數，主要是為了削弱每棵樹的影響，讓後面有更大的學習空間。實際應用中，一般把eta設置得小一點，然後迭代次數設置得大一點。（補充：傳統GBDT的實現也有學習速率）5.列抽樣（column subsampling）。xgboost借鑒了隨機森林的做法，支持列抽樣，不僅能降低過擬合，還能減少計算，這也是xgboost異於傳統gbdt的一個特性。

6.缺失值的處理。對於特徵的值有缺失的樣本，xgboost可以自動學習出它的分裂方向。
7.xgboost工具支持並行。預先對數據進行了排序，然後保存為block結構，後面的迭代中重複地使用這個結構，大大減小計算量。這個block結構也使得並行成為了可能，在進行節點的分裂時，需要計算每個特徵的增益，最終選增益最大的那個特徵去做分裂，那麼各個特徵的增益計算就可以開多線程進行。8.可並行的近似直方圖演算法。樹節點在進行分裂時，我們需要計算每個特徵的每個分割點對應的增益，即用貪心法枚舉所有可能的分割點。當數據無法一次載入內存或者在分散式情況下，貪心演算法效率就會變得很低，所以xgboost還提出了一種可並行的近似直方圖演算法，用於高效地生成候選的分割點。

xgboost做出的改進也並不是完美的。例如上面的第七點，關於並行計算的改進。由於pre sort的方式，不僅要保存原始的特徵值，而且還需要保存排序的結果，造成了兩倍的內存開支。另外，level-wise的葉子分裂方式，對同一層的所有節點，無區別的進行分裂，造成了極大的計算消耗。

LightGBM是另一種boosting方式的實現框架，在Higgs數據集上表現強勁。模型訓練時間花費是xgboost的1/10，內存是xgboost的1/6, 同時模型的準確率還得到了提升。更多對比結果詳見參考文獻