Graph Embedding：深度學習推薦系統的"基本操作"

Embedding 是深度學習
十分重要的「基本操作」，不論是 NLP，搜索排序，還是推薦系統，Embedding 都扮演著重要的角色。本文藉由 Graph Embedding 切入，不用一個公式，帶領大家從 Word2Vec 到 DeepWalk，再到 Node2Vec，你也能成為演算法大神~

之前的博文，給大家介紹了很多圖演算法

，它們看起來很酷炫，卻不知道如何使用？本期我們關注 Graph Embedding，不但可以「實踐」很多圖演算法，更可以快速瞭解 Embedding 在深度學習推薦系統中的使用，從 Word2Vec 到 DeepWalk，從 LINE 到 Node2Vec，希望能收穫滿滿~ 另外，推薦一個知乎專欄：王喆的機器學習筆記，關於 Graph Embedding，專欄用了幾篇文章相對系統地進行了說明，閱讀之後受益很多。

本文不含公式，需要基本的圖演算法基礎，包括 Random Walk、BFS、DFS 等。如果這些名詞對你來說還很陌生，建議閱讀前序博文。

圖演算法：概覽?

mp.weixin.qq.com

Embedding is all you need

允許我做一次標題黨，Embedding 必須是深度學習中的「基本操作」。不論是 NLP（Normal Language Processing，自然語言處理），搜索排序，還是推薦系統，或者 CTR （Click-Through-Rate，點擊通過率）模型，Embedding 都扮演著不可或缺的角色。

什麼是 Embedding？

Embedding 在數學上表示一個映射關係， F: X -> Y，也就是一個函數。函數具有兩個性質：injective 和 structure-preserving。Injective，即我們所說的單射函數，對於每個 Y 只有唯一的 X 對應，反之亦然；structure-preserving，結構保存，比如在 X 所屬的空間上 X1 < X2，那麼映射後在 Y 所屬空間上 Y1 < Y2。

簡單點說，深度學習中，Embedding 特指用一個低維度向量表示一個實體，可以是一個詞（Word2Vec），可以是一個物品（Item2Vec），亦或者網路關係中的節點（Graph Embedding）。

Embedding 所獲得的低維度向量具有一些特殊的性質。如下圖，我們使用 Word2Vec 將單詞映射（word embedding）到新的向量空間，獲得單詞的新的表達（word representation）。我們能從圖中很容易得出：Embedding(Moscow) - Embedding(Russia) ≈ Embedding(Tokyo) - Embedding(Japan)，說明 Embedding 之後向量可以進行計算。並且，Embedding 之後，距離相近的向量對應的實體有相近的含義，比如 Embedding (Russia) 和 Embedding (Japan) 之間的距離就會很接近，但 Embedding (Russia) 和 Embedding (Tokyo) 的距離就會遠一些。