台湾 || 语言: 大陆简体港澳繁體台灣正體

第二期（下）：Graph Clustering和Community Detection（附代碼）

雪花臺灣 2019-05-14 08:30

在上一篇文章中，我們主要介紹了論文《Mobile Targeting Using Customer Trajectory Patterns》的整體思路，並推薦了這篇論文關於檢驗推薦效果的實驗設計。

MonsterGroup：第二期（上）：基於用戶軌跡聚類的POI推薦?

zhuanlan.zhihu.com

現在我們繼續對這篇文章的探討，本次我們聚焦演算法的部分。這篇論文的演算法之所以效果高於其他組別，核心思想就在於：1）從多個角度加權計算了用戶之間的相似度；2）根據兩兩之間的相似度進行了Graph Clustering。最終的效果就是有相同偏好的用戶被聚在了同一組，那麼既然大家興趣類似，你喜歡的自然大概率也是我喜歡的。

接下來我們就介紹一些關於Clustering的知識，尤其會詳細介紹經典的演算法，最後我們再推薦幾篇相關的論文。

一、聚類的兩種類型

對已知的「點」進行聚類，我們首先要判斷這些「點」是建立在什麼數學結構上的，一般來說如果這些點存在「類別」，那麼用兩種結構來描述都是自然的：

歐氏空間：所有點都坐落在歐式空間裏，兩兩之間的距離的定義是自然的，距離越小，「相似度」越高。
圖（Graph）：所有點都是Graph中的點，兩兩之間的「相似度」用edge的權重來度量是自然的，權重越大，「相似度」越高。

在這兩種不同的結構中，度量與相似度的關係正好是反著的，這自然也就衍生出兩種完全不同的聚類方法：Vector Clustering 和 Graph Clustering。

那麼我們在實際應用中，用哪種結構更好呢？有時候還這不好說，比如我們舉個例子。比如對於兩個點，我們從多個維度用數值定義了屬性，得到兩個向量和。那麼就是個很自然的距離， $e^{-|x_1 - x_2 |}$ 就是個很自然的權重。如果按照前一種，那就是Vector Clustering，如果按照後一種，那就是Graph Clustering。

Vector Clustering似乎大家更熟悉些，經典的演算法包括K-Means等等。Graph Clustering雖然也常見，但感覺大家對Markov Clustering Algorithm要相對陌生一些，而我們推薦的這篇論文恰恰選擇的是把用戶建立在了圖上，然後用Markov Clustering進行聚類，因此我們接下來著重介紹Graph Clustering。

二、Markov Clustering Algorithm

我們考慮這樣一個Graph：

原本的類別

原本的類別

相關文章