【阿里2017】利用分片线性模型实现大规模数据点击率预估

论文[Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction](https://arxiv.org/pdf/1704.05194.pdf)

==*定期更新,获取更多,欢迎[star](AlexanLee/ads-papers)。另外欢迎关注[计算广告实验](AlexanLee/ads-ailab),我会总结一些实现。*==

#### 一、论文基本描述。

CTR预估由于是针对大规模非线性数据的机器学习存在很多的困难。

1. 本论文提出了一个新型的模型（LS-PLM）。

2. 利用`$L_1$`和`$L_{2,1}$`正则来解决学习问题，将会导致非凸和非光滑的优化问题。因此，为解决这个问题提出了一种基于方向导数和拟牛顿法的有效方法

3. 另外，设计了工业级的数百台机器的模型训练系统。

LS-PLM可以捕捉非线性的特征数据，从而减少特征工程的工作。从2012年这个模型就开始大规模应用到阿里巴巴的展示广告预估上。

#### 二、解决方法、思想

点击率预估是在线广告的核心问题。传统的方法是LR模型，LR模型利用`$L_1$`正则能生成稀疏解。实际上CTR预估是一个非线性的问题，用户点击涉及到流量质量，用户兴趣，上下文特征，以及它们的交叉特征。为了解决LR的非线性问题，需要做大量的特征工程。另一方面，可以设计一些非线性模型，Facebook 利用决策树?LR的方式。**但是树形模型不适合非常稀疏的高纬特征数据。FM能够有效的解决特征交叉的问题，但是，不能解决所有的数据非线性问题。**

本论文提出了一种基于大规模数据的分片线性回归模型（LS_PLM）,**它是基于分治法的思想。首先将特征空间分解为若干本地区域，然后针对每一个区域训练一个线性模型，把最后所有线性模型预测的权重作为输出结果**。有如下三个特点：

1. 非线性性。

2. 大规模性。巨大的样本量，高纬特征。

3. 稀疏性。利用`$L_1$`和`$L_{2,1}$`正则可以很好的获得稀疏性。

模型公式: