神经网路从建模到服务化

$large{<--------收藏别忘记点赞-------->} ag{^_^}$

前言

在线广告CTR或者推荐CTR预估模型都面临一个稀疏数据的问题，传统的解决思路是LR+人工特征组合，这种方式因为特别依赖专家经验而逐渐被放弃；后来演化了自动特征组合的模型，比如FM和FFM，能较好的解决低阶特征自动组合的问题，或者说只能选择一种特定维度的特征组合方式，比如K=2或者K=18的二阶特征组合(一般为了避免过拟合选择的K都比较小)，可以认为FM和FFM能够解决低阶特征组合的问题；那如何进行高阶特征组合且不会导致过拟合呢？有两种解决思路：

使用决策树进行特征组合：决策树根据信息熵增益或者gini系数自动决定分裂点，通过前剪枝、后剪枝、feature random select、正则化等方法抑制过拟合。
使用神经网路进行特征组合，通过embedding+全连接网路进行高阶特征组合，并使用BP、early stopping、正则化、drop out等技术手段来抑制过拟合。

本文主要讲解的是CTR深度学习预估模型deep FM如何训练、评估以及服务化。

特征工程

特征工程是一个师机器学习工程师必须掌握的技能，数据加工的好坏会比选择什么模型带来更高的指标提升。传统的机器学习模型对特征工程依赖度较高，深度学习模型可以通过多隐层堆叠、每一层对上一层的输出进行处理的机制，对输入信号进行逐层加工，从而把初始的、与输出目标之间联系不太紧密的输入表示，转化成与输出目标联系更加密切的表示形式，用简单的模型即可完成复杂的分类、回归预测，因此可以将深度学习理解为"特征学习"。

虽然深度学习模型可以自动的进行特征学习，但是并不意味著可以对原始特征不做任何处理，比如embedding层的shape需要定义，这个shape值还是需要根据数据决定的。

一般来讲，训练数据的特征分为两种形式：

单值离散特征：比如分类特征
list离散特征：比如文本特征中的sentence
连续特征：一般都是单值的连续数值

对离散特征需要将其进行编码，如果是分类特征，可以使用label encoder或者feature hasher的方式；如果是sentence，那么就需要考虑使用word count, idf等。本文使用的数据集依然是avazu的ctr竞赛数据集，只含有单值离散特征。

Deep FM模型简介

deepFM(A Factorization-Machine based Neural Network for CTR Prediction)模型是华为诺亚方舟实验室做的一个模型，主要解决的是推荐系统点击率模型如何融合低阶特征组合以及高阶特征组合的问题。从字面上很好理解，其解决思路就是使用了FM进行低阶特征组合，使用深度网路进行高阶特征组合。整体架构图如下所示：

神经网路从建模到服务化

$large{<--------收藏别忘记点赞-------->} ag{^_^}$

前言

特征工程

Deep FM模型简介

模型训练

模型保存

docker安装

环境配置的难题

虚拟机

资源占用多

冗余步骤多

启动慢

Linux 容器

启动快

资源占用少

体积小

安装流程

TensorFlow serving

启动TensorFlow serving服务

获取TensorFlow serving预测结果

post man获取结果

使用Restful API调用模型

后续工作

参考文献

热门新闻

周热门

神经网路从建模到服务化

前言

特征工程

Deep FM模型简介

模型训练

模型保存

docker安装

环境配置的难题

虚拟机

资源占用多

冗余步骤多

启动慢

Linux 容器

启动快

资源占用少

体积小

安装流程

TensorFlow serving

启动TensorFlow serving服务

获取TensorFlow serving预测结果

post man获取结果

使用Restful API调用模型

后续工作

参考文献

为什么softmax很少会出现[0.5，0.5]？

在深度学习领域，预训练有一定作用的本质原因是什么？

李宏毅 吴恩达谁的课更好?

学习深度学习，在学习过程中需要自己搭建神经网路吗？还是理解网路即可?

有人关注oxford那组发布的matlab cnn么？

rnn为什么训练速度慢？

请问用Gumbel-softmax的时候，怎么让softmax输出的概率分布转化成one-hot向量？

使用pytorch 训练一个二分类器，训练集的准确率不断提高，但是验证集的准确率却波动很大，这是为啥？

如何评价新出的YOLO v4 ？

深度学习attention机制中的Q,K,V分别是从哪来的？

BERT模型在NLP中目前取得如此好的效果，那下一步NLP该何去何从？

为什么一些数学的优化演算法，比如DFP、BFGS等等，没有应用到神经网路的梯度优化中？

每天一看时间就是11.11，连著六七天，这是什么灵异事件？

神经网路损失函数由多部分组成怎么设置权重？

CTR预估：(标签-权重)列表类特征怎么输入到模型？

热门新闻

周热门

李宏毅吴恩达谁的课更好?