Facebook經典模型LR+GBDT理論與實踐

參考：

論文：《Practical Lessons from Predicting Clicks on Ads at Facebook》

1、背景

本文主要介紹Facebook提出的CTR預估模型LR(Logistic Regression)+GBDT。當時深度學習還沒有應用到計算廣告領域，Facebook提出利用GBDT的葉節點編號作為非線性特徵的表示，或者說是組合特徵的一種方式。

LR+GBDT相比於單純的LR或者GBDT帶來了較大的性能提升，論文中給出數據為3%，這在CTR預估領域確實非常不錯。除此之外，Facebook還在在線學習、Data freshness、學習速率、樹模型參數、特徵重要度等方面進行了探索。

相比於搜索廣告領域，根據用戶query來給出候選廣告，然後利用Rank模型對候選廣告進行排序。這些廣告要麼顯式要麼隱式的和用戶query相關聯。但是在Facebook這樣的社交場閤中，廣告並沒有和用戶query相關聯，但是用戶看到的廣告一定程度上反映了用戶的人口統計特性和興趣特性。基於這個原因，在Facebook上展示的廣告相比於搜索廣告中的要多一些。

在實際的生產環境中，Facebook做了多個分類器，並把他們級聯起來。但是論文中分析的是最後的那一個prediction模型。它直接給出最後的CTR概率。

在介紹這個模型之前，我們先來介紹兩個問題：

1）為什麼要使用集成的決策樹模型，而不是單棵的決策樹模型：一棵樹的表達能力很弱，不足以表達多個有區分性的特徵組合，多棵樹的表達能力更強一些。可以更好的發現有效的特徵和特徵組合

2）為什麼建樹採用GBDT而非RF：RF也是多棵樹，但從效果上有實踐證明不如GBDT。且GBDT前面的樹，特徵分裂主要體現對多數樣本有區分度的特徵；後面的樹，主要體現的是經過前N顆樹，殘差仍然較大的少數樣本。優先選用在整體上有區分度的特徵，再選用針對少數樣本有區分度的特徵，思路更加合理，這應該也是用GBDT的原因。

瞭解了為什麼要用GBDT，我們就來看看到底二者是怎麼融合的吧！