將強化學慣用於推薦系統,能更好地考慮用戶的長期效益,從而保持用戶在平臺中的長期滿意度、活躍度。但是,強化學習需要大量訓練樣本,例如,AlphaGoZero [1] 進行了 490 百萬局模擬圍棋訓練,Atari game 的強化學習在電腦中高速運行了超過 50 個小時 [2]。而在推薦系統的場景中,在線用戶是訓練環境,系統需要與用戶進行大量的交互,利用用戶的在線反饋來訓練推薦策略。該過程將消耗大量交互成本、影響用戶體驗。在螞蟻金服被 ICML 2019 接收的這篇論文中,作者們提出用生成對抗用戶模型作為強化學習的模擬環境,先在此模擬環境中進行線下訓練,再根據線上用戶反饋進行即時策略更新,以此大大減少線上訓練樣本需求。此外,作者提出以集合(set)為單位而非單個物品(item)為單位進行推薦,並利用 Cascading-DQN 的神經網路結構解決組合推薦策略搜索空間過大的問題。

選自arXiv,作者:Xinshi Chen、Shuang Li、Hui Li、Shaohua Jiang、Yuan Qi、Le Song,機器之心編譯,參與:李詩萌、shooting。

在推薦系統中應用強化學習(RL)有很大的研究價值,但也面臨諸多挑戰。在這樣的配置中,在線用戶是環境(environment),但是並沒有明確定義獎勵函數(reward)和環境動態(transition),這些都對 RL 的應用造成了挑戰。

本文提出利用生成對抗網路同時學慣用戶行為模型(transition)以及獎勵函數(reward)。將該用戶模型作為強化學習的模擬環境,研究者開發了全新的 Cascading-DQN 演算法,從而得到了可以高效處理大量候選物品的組合推薦策略。

本文用真實數據進行了實驗,發現和其它相似的模型相比,這一生成對抗用戶模型可以更好地解釋用戶行為,而基於該模型的 RL 策略可以給用戶帶來更好的長期收益,並給系統提供更高的點擊率。

論文:Generative Adversarial User Model for Reinforcement Learning Based Recommendation System

論文地址:arxiv.org/pdf/1812.1061

推薦系統的 RL 挑戰

幾乎對所有的在線服務平臺來說,推薦系統都是很關鍵的一部分。系統和用戶之間的交互一般是這樣的:系統推薦一個頁面給用戶,用戶提供反饋,然後系統再推薦一個新的頁面。

構建推薦系統的常用方式是根據損失函數評估可以使模型預測結果和即時用戶響應之間差異最小化的模型。換句話說,這些模型沒有明確考慮用戶的長期興趣。但用戶的興趣會根據他看到的內容隨著時間而變化,而推薦者的行為可能會顯著影響這樣的變化。

從某種意義上講,推薦行為其實是通過凸顯特定物品並隱藏其他物品來引導用戶興趣的。因此,設計推薦策略會更好一點,比如基於強化學習(RL)的推薦策略——它可以考慮用戶的長期興趣。但由於環境是與已經登陸的在線用戶相對應的,因此 RL 框架在推薦系統設置中也遇到了一些挑戰。

首先,驅動用戶行為的興趣點(獎勵函數)一般是未知的,但它對於 RL 演算法的使用來說至關重要。在用於推薦系統的現有 RL 演算法中,獎勵函數一般是手動設計的(例如用 ±1 表示點擊或不點擊),這可能無法反映出用戶對不同項目的偏好如何 (Zhao et al., 2018a; Zheng et al., 2018)。

其次,無模型 RL 一般都需要和環境(在線用戶)進行大量的交互才能學到良好的策略。但這在推薦系統設置中是不切實際的。如果推薦看起來比較隨機或者推薦結果不符合在線用戶興趣,她會很快放棄這一服務。

因此,為瞭解決無模型方法樣本複雜度大的問題,基於模型的 RL 方法更為可取。近期有一些研究在相關但不相同的環境設置中訓練機器人策略,結果表明基於模型的 RL 採樣效率更高 (Nagabandi et al., 2017; Deisenroth et al., 2015; Clavera et al., 2018)。

基於模型的方法的優勢在於可以池化大量的離策略(off-policy)數據,而且可以用這些數據學習良好的環境動態模型,而無模型方法只能用昂貴的在策略(on-policy)數據學習。但之前基於模型的方法一般都是根據物理或高斯過程設計的,而不是根據用戶行為的複雜序列定製的。

解決方案

為瞭解決上述問題,本文提出了一種新的基於模型的 RL 框架來用於推薦系統,該框架用統一的極小化極大(minimax)框架學慣用戶行為模型和相關的獎勵函數,然後再用這個模型學習 RL 策略。

圖 1:用戶與推薦系統之間的交互。綠色箭頭表示推薦者信息流,橙色箭頭表示用戶信息流。

本文的主要技術貢獻在於:

  • 開發了生成對抗學習(GAN)方法來模擬用戶行為動態並學習其獎勵函數。可以通過聯合極小化極大優化演算法同時評估這兩個組件。該方法的優勢在於:(i)可以得到更準確的用戶模型,而且可以用與用戶模型一致的方法學習獎勵函數;(ii)相較於手動設計的簡單獎勵函數,從用戶行為中學習到的獎勵函數更有利於後面的強化學習;(iii)學習到的用戶模型使研究者能夠為新用戶執行基於模型的 RL 和在線適應從而實現更好的結果。
  • 用這一模型作為模擬環境,研究者還開發了級聯 DQN 演算法來獲得組合推薦策略。動作-價值函數的級聯設計允許其在大量候選物品中找到要顯示的物品的最佳子集,其時間複雜度和候選物品的數量呈線性關係,大大減少了計算難度。

用真實數據進行實驗得到的結果表明,從保留似然性和點擊預測的角度來說,這種生成對抗模型可以更好地擬合用戶行為。根據學習到的用戶模型和獎勵,研究者發現評估推薦策略可以給用戶帶來更好的長期累積獎勵。此外,在模型不匹配的情況下,基於模型的策略也能夠很快地適應新動態(和無模型方法相比,和用戶交互的次數要少得多)。

生成對抗用戶

本文提出了一個模擬用戶順序選擇的模型,並討論了該模型的參數化和評估值。用戶模型的建立受到了模仿學習的啟發,模仿學習是根據專家演示來學習順序決策策略的強大工具。研究者還制訂了統一的極小化極大優化演算法,可以根據樣本軌跡同時學慣用戶行為模型和獎勵函數。

將用戶行為作為獎勵最大化

研究者還根據兩個現實的假設模擬了用戶行為:(i)用戶不是被動的。相反,當給用戶展示 k 個物品的集合時,她會做出選擇,從而最大化自己的獎勵。獎勵 r 度量了她對一個物品的興趣有多大或滿意程度。另外,用戶可以選擇不點擊任何物品。然後她得到的獎勵就是沒在無聊的物品上浪費時間。(ii)獎勵不僅取決於所選物品,還取決於用戶的歷史。

例如,一個用戶可能一開始對 Taylor Swift 的歌沒什麼興趣,但有一次她碰巧聽到了她的歌,她可能喜歡上了這首歌,於是開始對她的其他歌感興趣。此外,用戶在反覆聽 Taylor Swift 的歌之後可能會覺得無聊。換句話說,用戶對物品的評價可能會隨著她的個人經歷而產生變化。

模型公式為:

模型參數化

圖 2 說明瞭模型的整體參數化。簡單起見,研究者將獎勵函數中所有參數表示為 θ,將用戶模型中的所有參數集表示為 α,因此分別用符號 γ_θ 和 φ_α 表示。

圖 2:由 (a) 位置權重 (PW) 或 (b) LSTM 參數化的模型架構。(c) 級聯 Q 網路。

生成對抗訓練

在實踐中,用戶獎勵函數 γ(s^t, a^t) 和行為模型 φ(s^t,A^t) 都是未知的,需要評估數據得到。行為模型 φ試圖模模擬實用戶的行為序列,該用戶採取行為以最大化獎勵函數 γ。與生成對抗網路相似:(i) φ 作為生成器,會根據用戶的歷史來生成她的下一個行為;(ii) γ 作為判別器,試圖將行為模型 φ 生成的行為與用戶的實際行為區分開來。因此,受 GAN 框架的啟發,研究者通過極小化極大方法同時評估了 φ 和 γ。

更確切地說,給定某個用戶的 T 個觀測到的行為的軌跡 {a^1_true, a^2_true, . . . , a^T_true} 及相應的所點擊物品的特徵 {f^1_? , f^2_? , . . . , f^T_? },研究者通過求解下面的極小化極大優化方法共同學習到用戶的行為模型和獎勵函數:

研究者用 s^t_true 強調這是在數據中觀測到的值。

實驗

研究者用三組實驗來評估其生成對抗用戶模型(GAN 用戶模型)和由此產生的 RL 推薦策略。該實驗旨在解決下列問題:(1)GAN 用戶模型可以更好地預測用戶行為嗎?(2)GAN 用戶模型可以帶來更高的用戶獎勵和點擊率嗎?(3)GAN 用戶模型是否有助於降低強化學習的樣本複雜度?

下面展示的是具有位置權重(GAN-PW)和 LSTM(GAN-LSTM)的 GAN 用戶模型的預測準確率,表 1 結果表明 GAN 模型的性能顯著優於基線。此外,GAN-PW 的性能幾乎和 GAN-LSTM 一樣,但訓練效率更高。因此後續實驗使用的是 GAN-PW(後面統稱 GAN)。

表 1:預測性能的比較,研究者在 GAN-PW 和 GAN-LSTM 中使用的是香農熵。

另一個在 Movielens 上得到的結果很有趣,如圖 3 所示。藍色曲線表示用戶隨時間推移的實際選擇。橙色曲線則是 GAN 和 W&D-CCF 預測的行為軌跡。

圖 3:對比用戶選擇的真實軌跡(藍色曲線)、GAN 模型預測得到的模擬軌跡(上部分圖中的橙色曲線)和 W&D-CFF 預測得到的模擬軌跡(下圖中的橙色曲線)。Y 軸表示 80 個電影類別。


推薦閱讀:
相關文章