強化學習在推薦,營銷等場景下,有何典型方法?
在推薦和營銷等場景中,用戶跟系統是不斷交互的,但很遺憾,目前採用的最多的是使用監督學習和無監督學習來擬合用戶的偏好,由於用戶是被動顯示的,不可避免的會偏離用戶的真實興趣分佈,而且隨著行為數據的不斷強化,顯示的物品會固化到比較窄的小集合中,帶來用戶的體驗較差,進而影響其他業務效果。而強化學習可以避免上述固化,讓系統可以充分利用用戶的交互數據,使得這個系統可以在動態反饋中平衡利用和探索,實現用戶體驗的提升。
目前很多推薦演算法的工作都在結合強化學習啊,這邊總結下我看過的一些文章和work:
- 美團猜你喜歡:https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html
- 阿里:強化學習在淘寶錦囊推薦系統中的應用 [2018]
- 阿里: Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application
- 阿里電子書 :《強化學習在阿里的技術演進與業務創新》
- 京東:Deep Reinforcement Learning for List-wise Recommendations
主要貢獻:構建了一個線上環境模擬器,可以在線下對AC網路參數進行訓練。構建了基於強化學習的List-wise推薦系統。更能提供給用戶多樣性的選擇。現有的強化學習大多先計算每一個item的Q-value,然後通過排序得到最終的推薦結果,這樣就忽略了推薦列表中商品本身的關聯。而List-wise的推薦,強化學習演算法計算的是一整個推薦列表的Q-value,可以充分考慮列表中物品的相關性,從而提升推薦的性能。
- 京東:Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning
該工作考慮了用戶的負反饋,也就是當前的狀態有正反饋狀態(有點擊或瀏覽的物品)和負反饋狀態(無點擊和瀏覽的物品)組成。以及商品之間的偏序關係。有偏序關係是指:a必須與b是同一類別的物品;其次,用戶對於a和b的反饋是不同的;最後,a與b的推薦時間要相近。然後在優化Q函數的時候希望有偏序關係的兩個物品的Q值差距越大越好。
- 京東:Deep Reinforcement Learning for Page-wise Recommendations
- 京東:Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems
使用強化學習來優化信息流推薦中用戶的長期體驗。
- DRN: A deep reinforcement learning framework for news recommendation
提出了一種強化學習的框架用於在線新聞的個性化推薦,並且使用用戶活躍度作為一種新的反饋,來提高推薦的準確性。
- Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems
你要的典型方法:推薦系統的EE問題及Bandit演算法-大數據演算法
最近阿里出了一本電子書 《強化學習在阿里的技術演進與業務創新》,裡面有涉及到如何使用強化學習解決類似任務,可以關注公眾號阿里科技下載。用強化學習解決實際問題沒有那麼簡單的,因為其最大的問題就是維數災和學習時間長,這是其落地產品極少的原因。
可參考這篇文章,強化學習智能營銷https://zhuanlan.zhihu.com/p/57183922
我們團隊有非常豐富的經驗,歡迎諮詢
先搭建一個環境來訓練自己的agent。方法有很多種。比較得出最適合場景的那個。
推薦閱讀: