論文題目:Temporal Hierarchical Attention at Category- and Item-Level for

Micro-Video Click-Through Prediction

論文鏈接:link

1 INTRODUCTION

短視頻取得了很大的流行,因此迫切需要良好的推薦系統。

傳統的方法主要為 基於內容的過濾、協同過濾和混雜的方法。基於內容的的過濾要求根據視頻內容計算相關度,然後根據用戶歷史點擊的內容進行推薦。協同過濾學習的用戶和物品的交互數據。CBF和CF都用了用戶的歷史信息。(不同的是CBF主要是對視頻多模態內容的研究,CF去除內容主要對交互進行研究,因此CF不能推薦新出現的物品)。混雜的方法則組合了CF和CBF的優點。另外傳統的推薦演算法假設用戶的興趣的不變的,儘管越來越多的工作開始考慮用戶興趣的變化)。

具體到視頻推薦,近些年已經見證了很大的進展,(Deep neural networks for youtube recommendations RecSys 2016、What videos are similar with you?:Learning a common attributed representation for video recommendation MM 2014、A Unified Personalized Video Recommendation via Dynamic Recurrent Neural Networks MM2017、Contextual video recommendation by multimodal relevance and user feedbackTOIS 2011)儘管仍然很難。短視頻與傳統的線上視頻沒有多元化的數據(如電影的導演、演員等)。

我們的工作是做短視頻推薦,即給一個新的視頻預測用戶點擊的概率。不考慮文本等多元化的信息,只考慮視頻的封面(缺點)。同時由於短視頻每日巨大的產生量,也就是說新視頻沒有歷史的交互,因此CF一類的演算法將不再適用)

近些年來用神經網路特別是RNN來建模用戶的行為是一個正在興起的課題。A Unified Personalized Video Recommendation via Dynamic Recurrent Neural Networks MM 2017、Session-based recommendations with recurrent neural networks ICLR 2016。RNN比馬爾可夫鏈要好,但是對於長鏈有困難。為瞭解決這個問題,ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation用self-attention來解決。

2 RELATED WORK

2.1 Video Recommendation

介紹CBF、CF、和混雜三種類型的方法。

介紹短視頻

2.2 RNN- and Attention-Based Recommendation

介紹RNN的進展

3 METHODS

由於冷啟動問題,我們採取基於內容過濾的方法,也就是根據用戶之前看過的視頻的內容,根據新到來的視頻與其相似性進行推薦。同時與傳統的基於內容推薦不同的是,我們考慮時序性,也就是將用戶看過的視頻看作一個序列。

短視頻擁有多模態的數據,在這裡我們只考慮其封面和類別

3.1 Item Embedding

此部分的目的是將item映射到一個d維空間

每個視頻都有一個視覺特徵(從圖片提取而來),將其映射到f維;同時每個視頻都有一個類別,首先用one-hot編碼表示,其次將其映射到c維。然後將兩個向量拼接(d維),作為視頻的表徵

3.2 Temporal Hierarchical Attention

如果用RNN來建模序列,難以捕捉短期與長期依賴的問題。因此我們用時間注意力機制來解決這個問題

首先將序列切割成 m塊,每塊k個視頻。在每一塊裏,我們使用category level和item level的attention來得到向量l,l來表徵第i塊的信息(局部信息)。然後我們用multi-head self-attention來探索塊之間的聯繫,得的g(代表著第一個到第i塊的全局信息)。然後我們將局部信息與全局信息組合,得到 u,代表著考慮了時序性的第i塊的信息。

Category- and item-level attention:在每一個塊中有k個視頻,且有視覺特徵和類別特徵兩種屬性。分別對每一個視頻賦予attention score,來得到第I塊的信息。

Forward multi-head self-attention:對於每一塊的表徵l,計算他與其他塊的attention,然後mask掉序列後部分對前部分的影響,然後得到新的序列表徵g

3.3 Micro-Video Click-Through Prediction

現在我們得到了用戶的觀看序列表徵 u, 然後來一個新的item,經過3.1的item embedding,得到x,然後x與序列u進行attention,u與attention score相乘求和得到新的u,然後將u與x放入兩層的mlp,然後softmax,然後logloss函數。

4 EXPERIMENTS


推薦閱讀:
相關文章