需要強調的是,用GBDT構建特徵工程,和利用LR預估CTR兩步是獨立訓練的。所以自然不存在如何將LR的梯度回傳到GBDT這類複雜的問題,而利用LR預估CTR的過程前面已經有所介紹,在此不再贅述,下面著重講解如何利用GBDT構建新的特徵向量。
大家知道,GBDT是由多棵回歸樹組成的樹林,後一棵樹利用前面樹林的結果與真實結果的殘差做為擬合目標。每棵樹生成的過程是一棵標準的回歸樹生成過程,因此每個節點的分裂是一個自然的特徵選擇的過程,而多層節點的結構自然進行了有效的特徵組合,也就非常高效的解決了過去非常棘手的特徵選擇和特徵組合的問題。
利用訓練集訓練好GBDT模型之後,就可以利用該模型完成從原始特徵向量到新的離散型特徵向量的轉化。具體過程是這樣的,一個訓練樣本在輸入GBDT的某一子樹後,會根據每個節點的規則最終落入某一葉子節點,那麼我們把該葉子節點置為1,其他葉子節點置為0,所有葉子節點組成的向量即形成了該棵樹的特徵向量,把GBDT所有子樹的特徵向量連接起來,即形成了後續LR輸入的特徵向量。