Youtube推薦已經上線RL了，強化學習在推薦廣告工業界大規模應用還遠嗎？

導讀：本文是「深度推薦系統」專欄的第六篇文章，這個系列將介紹在深度學習的強力驅動下，給推薦系統工業界所帶來的最前沿的變化。本文主要根據幾大頂會2019的最新論文，總結一下深度強化學習給推薦系統以及CTR預估工業界帶來的最新進展。
歡迎轉載，轉載請註明出處以及鏈接，更多關於深度推薦系統優質內容請關注如下頻道。知乎專欄：深度推薦系統微博：深度傳送門公眾號：深度傳送門

凡是Google出品，必屬精品。遙想當年（其實也就近在2016），YoutubeDNN[1]以及WDL[2]的橫空出世引領了推薦系統以及CTR預估工業界潮流至今，掀起了召回層與排序層演算法大規模優雅而高效地升級深度學習模型的浪潮。發展至今其實已經形成了工業界推薦系統與廣告CTR預估的龐大家族群，具體可以參見下文中的家族圖譜。

深度傳送門：最新！五大頂會2019必讀的深度推薦系統與CTR預估相關的論文?

zhuanlan.zhihu.com

當然，本文的重點不是回首往事。好漢不提當年勇，而是立足當下看看接下來推薦系統和CTR預估工業界的路在何方。起因就在於Google先後在WSDM 2019和IJCAI 2019發表了極具工業界風格應用強化學習的論文，而且聲稱已經在Youtube推薦排序層的線上實驗中相對線上已有的深度學習模型獲得了顯著的收益。因此，本文就總結一下幾大頂會2019上強化學習應用於推薦系統和CTR預估工業界的最新進展，也歡迎各位有經驗的同行多多交流共同進步。

眾所周知，強化學習雖然在圍棋、遊戲等領域大放異彩，但是在推薦系統以及CTR預估上的應用一直有很多難點尚未解決。一方面是因為強化學習與推薦系統結合的探索剛剛開始，目前的方案尚未像傳統機器學習升級深度學習那樣效果顯著，升級強化學習在效果上相對已有的深度學習模型暫時還無法做到有質的飛躍；另外一方面，就是離線模型訓練與線上實驗在線學習環境搭建較為複雜。這就造成了目前在工業界應用強化學習模型性價比並不高。而且尷尬的是，很多論文在升級RL比較效果的時候使用的Baseline都是傳統機器學習演算法而不是最新的深度學習模型，其實從某種程度上來說是很難讓人信服的。

所以，Google這兩篇強化學習應用於YouTube推薦論文的出現給大家帶來了比較振奮人心的希望。首先，論文中宣稱效果對比使用的Baseline就是YouTube推薦線上最新的深度學習模型；其次，兩篇論文從不同的指標維度都帶來了比較明顯的效果增長。而且其中一篇論文的作者Minmin Chen大神在Industry Day上也提到線上實驗效果顯示這個是YouTube單個項目近兩年來最大的reward增長。這雖然不代表著強化學習與推薦系統的結合方案已經很成熟了，至少給大家帶來了一些在工業界積極嘗試的動力。

Top-K Off-Policy Correction for a REINFORCE Recommender System，WSDM 2019

本文的主要亮點是提出了一種Top-K的Off-Policy修正方案將RL中Policy-Gradient類演算法得以應用在動作空間數以百萬計的Youtube在線推薦系統中。

眾所周知[1]，Youtube推薦系統架構主要分為兩層：召回和排序。本文中的演算法應用在召回側。建模思路與RNN召回類似，給定用戶的行為歷史，預測用戶下一次的點擊item。受限於On-Policy方法對系統訓練架構要求複雜，所以本文中轉而採用Off-Policy的訓練策略。也就是說並不是根據用戶的交互進行實時的策略更新，而是根據收集到日誌中用戶反饋進行模型訓練。

這種Off-Policy的訓練方式會給Policy-Gradient類的模型訓練帶來一定的問題，一方面策略梯度是由不同的policy計算出來的；另一方面同一個用戶的行為歷史也收集了其他召回策略的數據。所以文中提出了一種基於importance weighting的Off-Policy修正方案，針對策略梯度的計算進行了一階的近似推導。