ICML 2019 | 強化學慣用於推薦系統，螞蟻金服提出生成對抗用戶模型

將強化學慣用於推薦系統，能更好地考慮用戶的長期效益，從而保持用戶在平臺中的長期滿意度、活躍度。但是，強化學習需要大量訓練樣本，例如，AlphaGoZero [1] 進行了 490 百萬局模擬圍棋訓練，Atari game 的強化學習在電腦中高速運行了超過 50 個小時 [2]。而在推薦系統的場景中，在線用戶是訓練環境，系統需要與用戶進行大量的交互，利用用戶的在線反饋來訓練推薦策略。該過程將消耗大量交互成本、影響用戶體驗。在螞蟻金服被 ICML 2019 接收的這篇論文中，作者們提出用生成對抗用戶模型作為強化學習的模擬環境，先在此模擬環境中進行線下訓練，再根據線上用戶反饋進行即時策略更新，以此大大減少線上訓練樣本需求。此外，作者提出以集合（set）為單位而非單個物品（item）為單位進行推薦，並利用 Cascading-DQN 的神經網路結構解決組合推薦策略搜索空間過大的問題。

選自arXiv，作者：Xinshi Chen、Shuang Li、Hui Li、Shaohua Jiang、Yuan Qi、Le Song，機器之心編譯，參與：李詩萌、shooting。

在推薦系統中應用強化學習（RL）有很大的研究價值，但也面臨諸多挑戰。在這樣的配置中，在線用戶是環境（environment），但是並沒有明確定義獎勵函數（reward）和環境動態（transition），這些都對 RL 的應用造成了挑戰。

本文提出利用生成對抗網路同時學慣用戶行為模型（transition）以及獎勵函數（reward）。將該用戶模型作為強化學習的模擬環境，研究者開發了全新的 Cascading-DQN 演算法，從而得到了可以高效處理大量候選物品的組合推薦策略。

本文用真實數據進行了實驗，發現和其它相似的模型相比，這一生成對抗用戶模型可以更好地解釋用戶行為，而基於該模型的 RL 策略可以給用戶帶來更好的長期收益，並給系統提供更高的點擊率。

論文：Generative Adversarial User Model for Reinforcement Learning Based Recommendation System