雪花台湾

強化學習在推薦,營銷等場景下,有何典型方法?

在推薦和營銷等場景中,用戶跟系統是不斷交互的,但很遺憾,目前採用的最多的是使用監督學習和無監督學習來擬合用戶的偏好,由於用戶是被動顯示的,不可避免的會偏離用戶的真實興趣分布,而且隨著行為數據的不斷強化,顯示的物品會固化到比較窄的小集合中,帶來用戶的體驗較差,進而影響其他業務效果。而強化學習可以避免上述固化,讓系統可以充分利用用戶的交互數據,使得這個系統可以在動態反饋中平衡利用和探索,實現用戶體驗的提升。


目前很多推薦演算法的工作都在結合強化學習啊,這邊總結下我看過的一些文章和work:

主要貢獻:構建了一個線上環境模擬器,可以在線下對AC網路參數進行訓練。構建了基於強化學習的List-wise推薦系統。更能提供給用戶多樣性的選擇。現有的強化學習大多先計算每一個item的Q-value,然後通過排序得到最終的推薦結果,這樣就忽略了推薦列表中商品本身的關聯。而List-wise的推薦,強化學習演算法計算的是一整個推薦列表的Q-value,可以充分考慮列表中物品的相關性,從而提升推薦的性能。

該工作考慮了用戶的負反饋,也就是當前的狀態有正反饋狀態(有點擊或瀏覽的物品)和負反饋狀態(無點擊和瀏覽的物品)組成。以及商品之間的偏序關係。有偏序關係是指:a必須與b是同一類別的物品;其次,用戶對於a和b的反饋是不同的;最後,a與b的推薦時間要相近。然後在優化Q函數的時候希望有偏序關係的兩個物品的Q值差距越大越好。

使用強化學習來優化信息流推薦中用戶的長期體驗。

提出了一種強化學習的框架用於在線新聞的個性化推薦,並且使用用戶活躍度作為一種新的反饋,來提高推薦的準確性。


你要的典型方法:推薦系統的EE問題及Bandit演算法-大數據演算法


最近阿里出了一本電子書 《強化學習在阿里的技術演進與業務創新》,裡面有涉及到如何使用強化學習解決類似任務,可以關注公眾號阿里科技下載。用強化學習解決實際問題沒有那麼簡單的,因為其最大的問題就是維數災和學習時間長,這是其落地產品極少的原因。

可參考這篇文章,強化學習智能營銷https://zhuanlan.zhihu.com/p/57183922


我們團隊有非常豐富的經驗,歡迎諮詢


先搭建一個環境來訓練自己的agent。方法有很多種。比較得出最適合場景的那個。


推薦閱讀:
相关文章