導讀:本文是「深度推薦系統」專欄的第六篇文章,這個系列將介紹在深度學習的強力驅動下,給推薦系統工業界所帶來的最前沿的變化。本文主要根據幾大頂會2019的最新論文,總結一下深度強化學習給推薦系統以及CTR預估工業界帶來的最新進展。

歡迎轉載,轉載請註明出處以及鏈接,更多關於深度推薦系統優質內容請關注如下頻道。知乎專欄:深度推薦系統 微博:深度傳送門 公眾號:深度傳送門

凡是Google出品,必屬精品。遙想當年(其實也就近在2016),YoutubeDNN[1]以及WDL[2]的橫空出世引領了推薦系統以及CTR預估工業界潮流至今,掀起了召回層與排序層演算法大規模優雅而高效地升級深度學習模型的浪潮。發展至今其實已經形成了工業界推薦系統與廣告CTR預估的龐大家族群,具體可以參見下文中的家族圖譜。

深度傳送門:最新!五大頂會2019必讀的深度推薦系統與CTR預估相關的論文?

zhuanlan.zhihu.com圖標

當然,本文的重點不是回首往事。好漢不提當年勇,而是立足當下看看接下來推薦系統和CTR預估工業界的路在何方。起因就在於Google先後在WSDM 2019和IJCAI 2019發表了極具工業界風格應用強化學習的論文,而且聲稱已經在Youtube推薦排序層的線上實驗中相對線上已有的深度學習模型獲得了顯著的收益。因此,本文就總結一下幾大頂會2019上強化學習應用於推薦系統和CTR預估工業界的最新進展,也歡迎各位有經驗的同行多多交流共同進步。

眾所周知,強化學習雖然在圍棋、遊戲等領域大放異彩,但是在推薦系統以及CTR預估上的應用一直有很多難點尚未解決。一方面是因為強化學習與推薦系統結合的探索剛剛開始,目前的方案尚未像傳統機器學習升級深度學習那樣效果顯著,升級強化學習在效果上相對已有的深度學習模型暫時還無法做到有質的飛躍;另外一方面,就是離線模型訓練與線上實驗在線學習環境搭建較為複雜。這就造成了目前在工業界應用強化學習模型性價比並不高。而且尷尬的是,很多論文在升級RL比較效果的時候使用的Baseline都是傳統機器學習演算法而不是最新的深度學習模型,其實從某種程度上來說是很難讓人信服的。

所以,Google這兩篇強化學習應用於YouTube推薦論文的出現給大家帶來了比較振奮人心的希望。首先,論文中宣稱效果對比使用的Baseline就是YouTube推薦線上最新的深度學習模型;其次,兩篇論文從不同的指標維度都帶來了比較明顯的效果增長。而且其中一篇論文的作者Minmin Chen大神在Industry Day上也提到線上實驗效果顯示這個是YouTube單個項目近兩年來最大的reward增長。這雖然不代表著強化學習與推薦系統的結合方案已經很成熟了,至少給大家帶來了一些在工業界積極嘗試的動力。

Top-K Off-Policy Correction for a REINFORCE Recommender System,WSDM 2019

本文的主要亮點是提出了一種Top-K的Off-Policy修正方案將RL中Policy-Gradient類演算法得以應用在動作空間數以百萬計的Youtube在線推薦系統中。

眾所周知[1],Youtube推薦系統架構主要分為兩層:召回和排序。本文中的演算法應用在召回側。建模思路與RNN召回類似,給定用戶的行為歷史,預測用戶下一次的點擊item。受限於On-Policy方法對系統訓練架構要求複雜,所以本文中轉而採用Off-Policy的訓練策略。也就是說並不是根據用戶的交互進行實時的策略更新,而是根據收集到日誌中用戶反饋進行模型訓練。

這種Off-Policy的訓練方式會給Policy-Gradient類的模型訓練帶來一定的問題,一方面策略梯度是由不同的policy計算出來的;另一方面同一個用戶的行為歷史也收集了其他召回策略的數據。所以文中提出了一種基於importance weighting的Off-Policy修正方案,針對策略梯度的計算進行了一階的近似推導。

因為是基於用戶的交互歷史預測下一個用戶點擊的item,所以文中也採用RNN針對用戶State的轉換進行建模。文中提到實驗了包括LSTM、GRU等RNN單元,發現Chaos Free的RNN單元因為穩定高效而使用起來效果最好。

在上述的策略修正公式(3)中最難獲取到的是用戶的行為策略,理想情況下是收集日誌的時候同時把用戶相應的用戶策略也就是點擊概率給收集下來,但由於策略不同等客觀原因文中針對用戶的行為策略使用另外一組θ參數進行預估,而且防止它的梯度回傳影響主RNN網路的訓練。

另外,由於在推薦系統中,用戶可以同時看到k個展示給用戶的候選item,用戶可能同時與一次展示出來的多個item進行交互。因此需要擴展策略根據用戶的行為歷史預測下一次用戶可能點擊的top-K個item。

假設同時展示K個不重複item的reward獎勵等於每個item的reward的之和,根據公式推導我們可以得到Top-K的Off-Policy修正的策略梯度如下,與上面Top 1的修正公式相比主要是多了一個包含K的係數。也就是說,隨著K的增長,策略梯度會比原來的公式更快地降到0。

從實驗結果的角度,文中進行了一系列的實驗進行效果比較和驗證,其中Top-K的Off-Policy修正方案帶來了線上0.85%的播放時長提升。而且前文也提到過,Minmin Chen大神在Industry Day上也提到線上實驗效果顯示這個是YouTube單個項目近兩年來最大的reward增長。

另外,在最新一期的Google AI Blog[3]上,宣布提出了一種基於強化學習Off-Policy的分類方法,可以預測出哪種機器學習模型會產生最好結果。感興趣的可以繼續延伸閱讀一下。

Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology,IJCAI 2019

這篇文章相比於第一篇文章時間要晚一點,提出的方法也不盡相同,不過類似的是都宣稱在Youtube線上推薦系統上取得了不錯的效果。主要貢獻是提出了一種名為SLATEQ的Q-Learning演算法,優化推薦系統裡面同時展示給用戶多個item情況的長期收益LTV(Long-term Value)。

這裡首先講一下這篇文章與第一篇文章的不同,首先,第一篇文章假設了在推薦系統中同時展示K個不重複item(本文中稱為Slate)的獎勵reward等於每個item的reward的之和,這個在本文中認為實際上是不合理的,因此建模了Slate的LTV和單個item的LTV之間的關係;其次,本文顯式的建模與評估了整個系統LTV的收益。

從系統架構的角度,本文擴展了Youtube現有的只注重即時收益的ranker,也就是針對CTR等指標以及長期收益LTV進行多目標前向深度網路學習。值得注意的是,為了保證線上實驗的公正性,這裡除了多目標外,其他與Youtube線上的特徵以及網路參數都完全一樣。

最後實驗部分,本文中評估的是User engagement,可以從下圖中看到效果提升是明顯且穩定的。

其他業界進展

除了Google的上述兩篇論文外,工業界其他公司也在積極嘗試強化學習在推薦系統中的實戰,下面主要簡要列出來一些到目前為止的進展:

Generative Adversarial User Model for Reinforcement Learning Based Recommendation System,ICML 2019

在螞蟻金服被 ICML 2019 接收的這篇論文中,作者們提出用生成對抗用戶模型作為強化學習的模擬環境,先在此模擬環境中進行線下訓練,再根據線上用戶反饋進行即時策略更新,以此大大減少線上訓練樣本需求。此外,作者提出以集合(set)為單位而非單個物品(item)為單位進行推薦,並利用 Cascading-DQN 的神經網路結構解決組合推薦策略搜索空間過大的問題[1]。

Virtual-Taobao: Virtualizing real-world online retail environment for reinforcement learning,AAAI 2019

阿里 at AAAI 2019,「虛擬淘寶」模擬器,利用RL與GAN規劃最佳商品搜索顯示策略,在真實環境中讓淘寶的收入提高2%。美中不足的是baseline仍然是傳統監督學習而不是深度學習方案。

Large-scale Interactive Recommendation with Tree-structured Policy Gradient,AAAI 2019

如果有耐心讀到這裡的話,就關注一下公眾號吧:)

參考文獻

[1] Deep Neural Networks for YouTube Recommendations, RecSys 2016

[2] Wide & Deep Learning for Recommender Systems,

[3] ai.googleblog.com/2019/

[4] Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems

[5] 阿里的《 強化學習在阿里的技術演進與業務創新》

[6] 京東的 Deep Reinforcement Learning for Page-wise Recommendations

推薦閱讀:

相关文章