在推薦系統中應用強化學習(RL)有很大的研究價值,但也面臨諸多挑戰。在這樣的配置中,在線用戶是環境(environment),但是並沒有明確定義獎勵函數(reward)和環境動態(transition),這些都對 RL 的應用造成了挑戰。
本文提出利用生成對抗網路同時學慣用戶行為模型(transition)以及獎勵函數(reward)。將該用戶模型作為強化學習的模擬環境,研究者開發了全新的 Cascading-DQN 演算法,從而得到了可以高效處理大量候選物品的組合推薦策略。
本文用真實數據進行了實驗,發現和其它相似的模型相比,這一生成對抗用戶模型可以更好地解釋用戶行為,而基於該模型的 RL 策略可以給用戶帶來更好的長期收益,並給系統提供更高的點擊率。