強化學習在推薦，營銷等場景下，有何典型方法？

在推薦和營銷等場景中，用戶跟系統是不斷交互的，但很遺憾，目前採用的最多的是使用監督學習和無監督學習來擬合用戶的偏好，由於用戶是被動顯示的，不可避免的會偏離用戶的真實興趣分佈，而且隨著行為數據的不斷強化，顯示的物品會固化到比較窄的小集合中，帶來用戶的體驗較差，進而影響其他業務效果。而強化學習可以避免上述固化，讓系統可以充分利用用戶的交互數據，使得這個系統可以在動態反饋中平衡利用和探索，實現用戶體驗的提升。

目前很多推薦演算法的工作都在結合強化學習啊，這邊總結下我看過的一些文章和work：

美團猜你喜歡：https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html
阿里：強化學習在淘寶錦囊推薦系統中的應用 [2018]
阿里: Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application
阿里電子書：《強化學習在阿里的技術演進與業務創新》
京東：Deep Reinforcement Learning for List-wise Recommendations

主要貢獻：構建了一個線上環境模擬器，可以在線下對AC網路參數進行訓練。構建了基於強化學習的List-wise推薦系統。更能提供給用戶多樣性的選擇。現有的強化學習大多先計算每一個item的Q-value，然後通過排序得到最終的推薦結果，這樣就忽略了推薦列表中商品本身的關聯。而List-wise的推薦，強化學習演算法計算的是一整個推薦列表的Q-value，可以充分考慮列表中物品的相關性，從而提升推薦的性能。

京東：Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning

該工作考慮了用戶的負反饋，也就是當前的狀態有正反饋狀態（有點擊或瀏覽的物品）和負反饋狀態（無點擊和瀏覽的物品）組成。以及商品之間的偏序關係。有偏序關係是指：a必須與b是同一類別的物品；其次，用戶對於a和b的反饋是不同的；最後，a與b的推薦時間要相近。然後在優化Q函數的時候希望有偏序關係的兩個物品的Q值差距越大越好。

京東：Deep Reinforcement Learning for Page-wise Recommendations
京東：Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems

使用強化學習來優化信息流推薦中用戶的長期體驗。

DRN: A deep reinforcement learning framework for news recommendation

提出了一種強化學習的框架用於在線新聞的個性化推薦，並且使用用戶活躍度作為一種新的反饋，來提高推薦的準確性。

Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems

你要的典型方法：推薦系統的EE問題及Bandit演算法-大數據演算法

最近阿里出了一本電子書《強化學習在阿里的技術演進與業務創新》，裡面有涉及到如何使用強化學習解決類似任務，可以關注公眾號阿里科技下載。用強化學習解決實際問題沒有那麼簡單的，因為其最大的問題就是維數災和學習時間長，這是其落地產品極少的原因。

可參考這篇文章，強化學習智能營銷https://zhuanlan.zhihu.com/p/57183922

我們團隊有非常豐富的經驗，歡迎諮詢

先搭建一個環境來訓練自己的agent。方法有很多種。比較得出最適合場景的那個。