Youtube推薦系統最大提升：RL Off policy + 推薦系統

分享一下谷歌的一篇強推薦系統&強化學習相結合的論文，據說獲得了Youtube近兩年單次上線的最高收益：Top-K Off-Policy Correction for a REINFORCE Recommender System

谷歌這篇paper將強化學習應用於推薦系統之中，獲得了很明顯的收益，文中仔細的介紹了在Youtube上的具體實踐方案，以及每個細節帶了什麼樣的收益，解決了哪些常見推薦系統中存在的問題，非常值得一讀。因為知乎排版問題大家也可以去博客中閱讀。

Top-K Off-Policy Correction for a REINFORCE Recommender System on Youtube | 王鳴輝的博客?

wd1900.github.io

另外發個廣告，位元組跳動抖音火山技術團隊開啟2020屆校招提前批，內推可免筆試，失敗也不影響正常秋招流程，需要內推可發我郵箱 [email protected] or [email protected] ,社招同學也歡迎，演算法，大數據，服務端等都要

文章前三分之一是一個粗略的概況，後三分之二比較細節，可以酌情跳著看看。

傳統監督學習的方案在推薦系統中有局限

REINFORCE Recommender: We scale a REINFORCE policygradient-based approach to learn a neural recommendation policy in a extremely large action space.
Off-Policy Candidate Generation: We apply off-policy correction to learn from logged feedback, collected from an ensemble of prior model policies. We incorporate a learned neural model of the behavior policies to correct data biases.
Top-K Off-Policy Correction: We offer a novel top-K offpolicy correction to account for the fact that our recommender outputs multiple items at a time.
Benefits in Live Experiments: We demonstrate in live experiments, which was rarely done in existing RL literature, the value of these approaches to improve user long term satisfaction.