强化学习在推荐，营销等场景下，有何典型方法？

在推荐和营销等场景中，用户跟系统是不断交互的，但很遗憾，目前采用的最多的是使用监督学习和无监督学习来拟合用户的偏好，由于用户是被动显示的，不可避免的会偏离用户的真实兴趣分布，而且随著行为数据的不断强化，显示的物品会固化到比较窄的小集合中，带来用户的体验较差，进而影响其他业务效果。而强化学习可以避免上述固化，让系统可以充分利用用户的交互数据，使得这个系统可以在动态反馈中平衡利用和探索，实现用户体验的提升。

目前很多推荐演算法的工作都在结合强化学习啊，这边总结下我看过的一些文章和work：

美团猜你喜欢：https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html
阿里：强化学习在淘宝锦囊推荐系统中的应用 [2018]
阿里: Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application
阿里电子书：《强化学习在阿里的技术演进与业务创新》
京东：Deep Reinforcement Learning for List-wise Recommendations

主要贡献：构建了一个线上环境模拟器，可以在线下对AC网路参数进行训练。构建了基于强化学习的List-wise推荐系统。更能提供给用户多样性的选择。现有的强化学习大多先计算每一个item的Q-value，然后通过排序得到最终的推荐结果，这样就忽略了推荐列表中商品本身的关联。而List-wise的推荐，强化学习演算法计算的是一整个推荐列表的Q-value，可以充分考虑列表中物品的相关性，从而提升推荐的性能。

京东：Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning

该工作考虑了用户的负反馈，也就是当前的状态有正反馈状态（有点击或浏览的物品）和负反馈状态（无点击和浏览的物品）组成。以及商品之间的偏序关系。有偏序关系是指：a必须与b是同一类别的物品；其次，用户对于a和b的反馈是不同的；最后，a与b的推荐时间要相近。然后在优化Q函数的时候希望有偏序关系的两个物品的Q值差距越大越好。