《Temporal Hierarchical Attention...》論文閱讀

論文題目：Temporal Hierarchical Attention at Category- and Item-Level for

Micro-Video Click-Through Prediction

論文鏈接：link

1 INTRODUCTION

短視頻取得了很大的流行，因此迫切需要良好的推薦系統。

傳統的方法主要為基於內容的過濾、協同過濾和混雜的方法。基於內容的的過濾要求根據視頻內容計算相關度，然後根據用戶歷史點擊的內容進行推薦。協同過濾學習的用戶和物品的交互數據。CBF和CF都用了用戶的歷史信息。（不同的是CBF主要是對視頻多模態內容的研究，CF去除內容主要對交互進行研究，因此CF不能推薦新出現的物品）。混雜的方法則組合了CF和CBF的優點。另外傳統的推薦演算法假設用戶的興趣的不變的，儘管越來越多的工作開始考慮用戶興趣的變化）。

具體到視頻推薦，近些年已經見證了很大的進展，（Deep neural networks for youtube recommendations RecSys 2016、What videos are similar with you?:Learning a common attributed representation for video recommendation MM 2014、A Unified Personalized Video Recommendation via Dynamic Recurrent Neural Networks MM2017、Contextual video recommendation by multimodal relevance and user feedbackTOIS 2011）儘管仍然很難。短視頻與傳統的線上視頻沒有多元化的數據（如電影的導演、演員等）。

我們的工作是做短視頻推薦，即給一個新的視頻預測用戶點擊的概率。不考慮文本等多元化的信息，只考慮視頻的封面（缺點）。同時由於短視頻每日巨大的產生量，也就是說新視頻沒有歷史的交互，因此CF一類的演算法將不再適用）

近些年來用神經網路特別是RNN來建模用戶的行為是一個正在興起的課題。A Unified Personalized Video Recommendation via Dynamic Recurrent Neural Networks MM 2017、Session-based recommendations with recurrent neural networks ICLR 2016。RNN比馬爾可夫鏈要好，但是對於長鏈有困難。為瞭解決這個問題，ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation用self-attention來解決。

2 RELATED WORK

2.1 Video Recommendation

介紹CBF、CF、和混雜三種類型的方法。

介紹短視頻

2.2 RNN- and Attention-Based Recommendation

介紹RNN的進展

3 METHODS

由於冷啟動問題，我們採取基於內容過濾的方法，也就是根據用戶之前看過的視頻的內容，根據新到來的視頻與其相似性進行推薦。同時與傳統的基於內容推薦不同的是，我們考慮時序性，也就是將用戶看過的視頻看作一個序列。

短視頻擁有多模態的數據，在這裡我們只考慮其封面和類別

3.1 Item Embedding

此部分的目的是將item映射到一個d維空間

每個視頻都有一個視覺特徵（從圖片提取而來），將其映射到f維；同時每個視頻都有一個類別，首先用one-hot編碼表示，其次將其映射到c維。然後將兩個向量拼接（d維），作為視頻的表徵

3.2 Temporal Hierarchical Attention

如果用RNN來建模序列，難以捕捉短期與長期依賴的問題。因此我們用時間注意力機制來解決這個問題

首先將序列切割成 m塊，每塊k個視頻。在每一塊裏，我們使用category level和item level的attention來得到向量l，l來表徵第i塊的信息（局部信息）。然後我們用multi-head self-attention來探索塊之間的聯繫，得的g（代表著第一個到第i塊的全局信息）。然後我們將局部信息與全局信息組合，得到 u,代表著考慮了時序性的第i塊的信息。

Category- and item-level attention：在每一個塊中有k個視頻，且有視覺特徵和類別特徵兩種屬性。分別對每一個視頻賦予attention score，來得到第I塊的信息。

Forward multi-head self-attention：對於每一塊的表徵l,計算他與其他塊的attention，然後mask掉序列後部分對前部分的影響，然後得到新的序列表徵g

3.3 Micro-Video Click-Through Prediction

現在我們得到了用戶的觀看序列表徵 u，然後來一個新的item，經過3.1的item embedding，得到x，然後x與序列u進行attention，u與attention score相乘求和得到新的u，然後將u與x放入兩層的mlp，然後softmax，然後logloss函數。

4 EXPERIMENTS