在推薦和營銷等場景中,用戶跟系統是不斷交互的,但很遺憾,目前採用的最多的是使用監督學習和無監督學習來擬合用戶的偏好,由於用戶是被動顯示的,不可避免的會偏離用戶的真實興趣分布,而且隨著行為數據的不斷強化,顯示的物品會固化到比較窄的小集合中,帶來用戶的體驗較差,進而影響其他業務效果。而強化學習可以避免上述固化,讓系統可以充分利用用戶的交互數據,使得這個系統可以在動態反饋中平衡利用和探索,實現用戶體驗的提升。


目前很多推薦演算法的工作都在結合強化學習啊,這邊總結下我看過的一些文章和work:

  • 美團猜你喜歡:https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html
  • 阿里:強化學習在淘寶錦囊推薦系統中的應用 [2018]
  • 阿里: Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application
  • 阿里電子書 :《強化學習在阿里的技術演進與業務創新》
  • 京東:Deep Reinforcement Learning for List-wise Recommendations

主要貢獻:構建了一個線上環境模擬器,可以在線下對AC網路參數進行訓練。構建了基於強化學習的List-wise推薦系統。更能提供給用戶多樣性的選擇。現有的強化學習大多先計算每一個item的Q-value,然後通過排序得到最終的推薦結果,這樣就忽略了推薦列表中商品本身的關聯。而List-wise的推薦,強化學習演算法計算的是一整個推薦列表的Q-value,可以充分考慮列表中物品的相關性,從而提升推薦的性能。

  • 京東:Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning

該工作考慮了用戶的負反饋,也就是當前的狀態有正反饋狀態(有點擊或瀏覽的物品)和負反饋狀態(無點擊和瀏覽的物品)組成。以及商品之間的偏序關係。有偏序關係是指:a必須與b是同一類別的物品;其次,用戶對於a和b的反饋是不同的;最後,a與b的推薦時間要相近。然後在優化Q函數的時候希望有偏序關係的兩個物品的Q值差距越大越好。

  • 京東:Deep Reinforcement Learning for Page-wise Recommendations
  • 京東:Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems

使用強化學習來優化信息流推薦中用戶的長期體驗。

  • DRN: A deep reinforcement learning framework for news recommendation

提出了一種強化學習的框架用於在線新聞的個性化推薦,並且使用用戶活躍度作為一種新的反饋,來提高推薦的準確性。

  • Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems


你要的典型方法:推薦系統的EE問題及Bandit演算法-大數據演算法


最近阿里出了一本電子書 《強化學習在阿里的技術演進與業務創新》,裡面有涉及到如何使用強化學習解決類似任務,可以關注公眾號阿里科技下載。用強化學習解決實際問題沒有那麼簡單的,因為其最大的問題就是維數災和學習時間長,這是其落地產品極少的原因。

可參考這篇文章,強化學習智能營銷https://zhuanlan.zhihu.com/p/57183922


我們團隊有非常豐富的經驗,歡迎諮詢


先搭建一個環境來訓練自己的agent。方法有很多種。比較得出最適合場景的那個。


推薦閱讀:
相关文章