Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba. 2018 論文讀書筆記
在之前的文章中,我們學習了word2vec基本概念,以及如何將類似的方法應用到電商場景中,也就是學習商品對應的embedding向量,可以更好地表達每一個商品的語義信息,從而幫助電商場景下更優的推薦策略。另一方面,我們還學習了基於圖模型的embedding向量,使得上述方法可以不僅限於時間序列化的數據,而適用於更廣泛的圖結構語料數據。
在這篇文章中我們可以看到阿里巴巴的同學們如何利用圖模型的embedding解決電商場景下的embedding問題。一個非常有趣的應用場景可以幫助我們複習之前學習到的word2vec演算法,以及圖模型的基本操作;而這篇文章提到的很多實戰中會遇到的細節問題,是更加值得我們學習的。
在開始之前我們先對之前的知識做一些簡單的回顧。word2vec演算法的目標是將稀疏的詞語的one-hot向量表達為稠密的embedding向量,使得語義相近的詞語之前在embedding空間中距離更近。為瞭解決這個問題,我們假設語料庫中,上下文相鄰的詞語之間的語義互相依賴,因此語料庫中的每一個詞語以及它的上下文之前的其它詞語之間可以互相推測。這樣,一個兩層全連接的模型,即可以用來學習詞語的embedding向量。(更多的細節可以參考之前的文章https://zhuanlan.zhihu.com/p/64430221)