論文[Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction](https://arxiv.org/pdf/1704.05194.pdf)
==*定期更新,獲取更多,歡迎[star](AlexanLee/ads-papers)。另外歡迎關注[計算廣告實驗](AlexanLee/ads-ailab),我會總結一些實現。*==
#### 一、論文基本描述。
CTR預估由於是針對大規模非線性數據的機器學習存在很多的困難。
1. 本論文提出了一個新型的模型(LS-PLM)。
2. 利用`$L_1$`和`$L_{2,1}$`正則來解決學習問題,將會導致非凸和非光滑的優化問題。因此,為解決這個問題提出了一種基於方嚮導數和擬牛頓法的有效方法
3. 另外,設計了工業級的數百臺機器的模型訓練系統。
LS-PLM可以捕捉非線性的特徵數據,從而減少特徵工程的工作。從2012年這個模型就開始大規模應用到阿里巴巴的展示廣告預估上。
#### 二、解決方法、思想
點擊率預估是在線廣告的核心問題。傳統的方法是LR模型,LR模型利用`$L_1$`正則能生成稀疏解。實際上CTR預估是一個非線性的問題,用戶點擊涉及到流量質量,用戶興趣,上下文特徵,以及它們的交叉特徵。為瞭解決LR的非線性問題,需要做大量的特徵工程。另一方面,可以設計一些非線性模型,Facebook 利用決策樹?LR的方式。**但是樹形模型不適合非常稀疏的高緯特徵數據。FM能夠有效的解決特徵交叉的問題,但是,不能解決所有的數據非線性問題。**
本論文提出了一種基於大規模數據的分片線性回歸模型(LS_PLM),**它是基於分治法的思想。首先將特徵空間分解為若干本地區域,然後針對每一個區域訓練一個線性模型,把最後所有線性模型預測的權重作為輸出結果**。有如下三個特點:
1. 非線性性。
2. 大規模性。巨大的樣本量,高緯特徵。
3. 稀疏性。利用`$L_1$`和`$L_{2,1}$`正則可以很好的獲得稀疏性。
模型公式: