【阿里2017】利用分片線性模型實現大規模數據點擊率預估

論文[Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction](https://arxiv.org/pdf/1704.05194.pdf)

==*定期更新,獲取更多,歡迎[star](AlexanLee/ads-papers)。另外歡迎關注[計算廣告實驗](AlexanLee/ads-ailab),我會總結一些實現。*==

#### 一、論文基本描述。

CTR預估由於是針對大規模非線性數據的機器學習存在很多的困難。

1. 本論文提出了一個新型的模型（LS-PLM）。

2. 利用`$L_1$`和`$L_{2,1}$`正則來解決學習問題，將會導致非凸和非光滑的優化問題。因此，為解決這個問題提出了一種基於方嚮導數和擬牛頓法的有效方法

3. 另外，設計了工業級的數百臺機器的模型訓練系統。

LS-PLM可以捕捉非線性的特徵數據，從而減少特徵工程的工作。從2012年這個模型就開始大規模應用到阿里巴巴的展示廣告預估上。

#### 二、解決方法、思想

點擊率預估是在線廣告的核心問題。傳統的方法是LR模型，LR模型利用`$L_1$`正則能生成稀疏解。實際上CTR預估是一個非線性的問題，用戶點擊涉及到流量質量，用戶興趣，上下文特徵，以及它們的交叉特徵。為瞭解決LR的非線性問題，需要做大量的特徵工程。另一方面，可以設計一些非線性模型，Facebook 利用決策樹?LR的方式。**但是樹形模型不適合非常稀疏的高緯特徵數據。FM能夠有效的解決特徵交叉的問題，但是，不能解決所有的數據非線性問題。**

本論文提出了一種基於大規模數據的分片線性回歸模型（LS_PLM）,**它是基於分治法的思想。首先將特徵空間分解為若干本地區域，然後針對每一個區域訓練一個線性模型，把最後所有線性模型預測的權重作為輸出結果**。有如下三個特點：

1. 非線性性。

2. 大規模性。巨大的樣本量，高緯特徵。

3. 稀疏性。利用`$L_1$`和`$L_{2,1}$`正則可以很好的獲得稀疏性。

模型公式: