神經網路從建模到服務化

$large{<--------收藏別忘記點贊-------->} ag{^_^}$

前言

在線廣告CTR或者推薦CTR預估模型都面臨一個稀疏數據的問題，傳統的解決思路是LR+人工特徵組合，這種方式因為特別依賴專家經驗而逐漸被放棄；後來演化了自動特徵組合的模型，比如FM和FFM，能較好的解決低階特徵自動組合的問題，或者說只能選擇一種特定維度的特徵組合方式，比如K=2或者K=18的二階特徵組合(一般為了避免過擬合選擇的K都比較小)，可以認為FM和FFM能夠解決低階特徵組合的問題；那如何進行高階特徵組合且不會導致過擬合呢？有兩種解決思路：

使用決策樹進行特徵組合：決策樹根據信息熵增益或者gini係數自動決定分裂點，通過前剪枝、後剪枝、feature random select、正則化等方法抑制過擬合。
使用神經網路進行特徵組合，通過embedding+全連接網路進行高階特徵組合，並使用BP、early stopping、正則化、drop out等技術手段來抑制過擬合。

本文主要講解的是CTR深度學習預估模型deep FM如何訓練、評估以及服務化。

特徵工程

特徵工程是一個師機器學習工程師必須掌握的技能，數據加工的好壞會比選擇什麼模型帶來更高的指標提升。傳統的機器學習模型對特徵工程依賴度較高，深度學習模型可以通過多隱層堆疊、每一層對上一層的輸出進行處理的機制，對輸入信號進行逐層加工，從而把初始的、與輸出目標之間聯繫不太緊密的輸入表示，轉化成與輸出目標聯繫更加密切的表示形式，用簡單的模型即可完成複雜的分類、回歸預測，因此可以將深度學習理解為"特徵學習"。

雖然深度學習模型可以自動的進行特徵學習，但是並不意味著可以對原始特徵不做任何處理，比如embedding層的shape需要定義，這個shape值還是需要根據數據決定的。

一般來講，訓練數據的特徵分為兩種形式：

單值離散特徵：比如分類特徵
list離散特徵：比如文本特徵中的sentence
連續特徵：一般都是單值的連續數值

對離散特徵需要將其進行編碼，如果是分類特徵，可以使用label encoder或者feature hasher的方式；如果是sentence，那麼就需要考慮使用word count, idf等。本文使用的數據集依然是avazu的ctr競賽數據集，只含有單值離散特徵。

Deep FM模型簡介

deepFM(A Factorization-Machine based Neural Network for CTR Prediction)模型是華為諾亞方舟實驗室做的一個模型，主要解決的是推薦系統點擊率模型如何融合低階特徵組合以及高階特徵組合的問題。從字面上很好理解，其解決思路就是使用了FM進行低階特徵組合，使用深度網路進行高階特徵組合。整體架構圖如下所示：