在推荐和营销等场景中,用户跟系统是不断交互的,但很遗憾,目前采用的最多的是使用监督学习和无监督学习来拟合用户的偏好,由于用户是被动显示的,不可避免的会偏离用户的真实兴趣分布,而且随著行为数据的不断强化,显示的物品会固化到比较窄的小集合中,带来用户的体验较差,进而影响其他业务效果。而强化学习可以避免上述固化,让系统可以充分利用用户的交互数据,使得这个系统可以在动态反馈中平衡利用和探索,实现用户体验的提升。


目前很多推荐演算法的工作都在结合强化学习啊,这边总结下我看过的一些文章和work:

  • 美团猜你喜欢:https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html
  • 阿里:强化学习在淘宝锦囊推荐系统中的应用 [2018]
  • 阿里: Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application
  • 阿里电子书 :《强化学习在阿里的技术演进与业务创新》
  • 京东:Deep Reinforcement Learning for List-wise Recommendations

主要贡献:构建了一个线上环境模拟器,可以在线下对AC网路参数进行训练。构建了基于强化学习的List-wise推荐系统。更能提供给用户多样性的选择。现有的强化学习大多先计算每一个item的Q-value,然后通过排序得到最终的推荐结果,这样就忽略了推荐列表中商品本身的关联。而List-wise的推荐,强化学习演算法计算的是一整个推荐列表的Q-value,可以充分考虑列表中物品的相关性,从而提升推荐的性能。

  • 京东:Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning

该工作考虑了用户的负反馈,也就是当前的状态有正反馈状态(有点击或浏览的物品)和负反馈状态(无点击和浏览的物品)组成。以及商品之间的偏序关系。有偏序关系是指:a必须与b是同一类别的物品;其次,用户对于a和b的反馈是不同的;最后,a与b的推荐时间要相近。然后在优化Q函数的时候希望有偏序关系的两个物品的Q值差距越大越好。

  • 京东:Deep Reinforcement Learning for Page-wise Recommendations
  • 京东:Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems

使用强化学习来优化信息流推荐中用户的长期体验。

  • DRN: A deep reinforcement learning framework for news recommendation

提出了一种强化学习的框架用于在线新闻的个性化推荐,并且使用用户活跃度作为一种新的反馈,来提高推荐的准确性。

  • Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems


你要的典型方法:推荐系统的EE问题及Bandit演算法-大数据演算法


最近阿里出了一本电子书 《强化学习在阿里的技术演进与业务创新》,里面有涉及到如何使用强化学习解决类似任务,可以关注公众号阿里科技下载。用强化学习解决实际问题没有那么简单的,因为其最大的问题就是维数灾和学习时间长,这是其落地产品极少的原因。

可参考这篇文章,强化学习智能营销https://zhuanlan.zhihu.com/p/57183922


我们团队有非常丰富的经验,欢迎咨询


先搭建一个环境来训练自己的agent。方法有很多种。比较得出最适合场景的那个。


推荐阅读:
相关文章