论文[Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction](https://arxiv.org/pdf/1704.05194.pdf)
==*定期更新,获取更多,欢迎[star](AlexanLee/ads-papers)。另外欢迎关注[计算广告实验](AlexanLee/ads-ailab),我会总结一些实现。*==
#### 一、论文基本描述。
CTR预估由于是针对大规模非线性数据的机器学习存在很多的困难。
1. 本论文提出了一个新型的模型(LS-PLM)。
2. 利用`$L_1$`和`$L_{2,1}$`正则来解决学习问题,将会导致非凸和非光滑的优化问题。因此,为解决这个问题提出了一种基于方向导数和拟牛顿法的有效方法
3. 另外,设计了工业级的数百台机器的模型训练系统。
LS-PLM可以捕捉非线性的特征数据,从而减少特征工程的工作。从2012年这个模型就开始大规模应用到阿里巴巴的展示广告预估上。
#### 二、解决方法、思想
点击率预估是在线广告的核心问题。传统的方法是LR模型,LR模型利用`$L_1$`正则能生成稀疏解。实际上CTR预估是一个非线性的问题,用户点击涉及到流量质量,用户兴趣,上下文特征,以及它们的交叉特征。为了解决LR的非线性问题,需要做大量的特征工程。另一方面,可以设计一些非线性模型,Facebook 利用决策树?LR的方式。**但是树形模型不适合非常稀疏的高纬特征数据。FM能够有效的解决特征交叉的问题,但是,不能解决所有的数据非线性问题。**
本论文提出了一种基于大规模数据的分片线性回归模型(LS_PLM),**它是基于分治法的思想。首先将特征空间分解为若干本地区域,然后针对每一个区域训练一个线性模型,把最后所有线性模型预测的权重作为输出结果**。有如下三个特点:
1. 非线性性。
2. 大规模性。巨大的样本量,高纬特征。
3. 稀疏性。利用`$L_1$`和`$L_{2,1}$`正则可以很好的获得稀疏性。
模型公式: