DBSCAN聚類演算法

很久之前就用kmeans演算法做文本聚類，最近挖掘數據過程中用到了dbscan聚類方法，發現這是兩種差異很大的聚類方法。這裡簡單介紹下dbscan。

1、 DBSCAN概述

Density-based spatial clustering of applications with noise (DBSCAN) 是一種基於密度的聚類演算法。就像名字中提到的一樣，可以有效的剔除雜訊點（離群點）。聚類演算法多種策略演算法，例如Hierarchical methods（例如BIRCH），Partition-based methods（例如kmeans）， Density-based methods（例如dbscan），Grid-based methods（例如STING），Model-based methods（如GMM）。

2、DBSCAN概念

考慮空間總有很多待聚類的點。 dbscan的基本概念是core point，即核心點，是指周圍一定距離類鄰居點達到一定數量的點。假設有數據 $D=(x_{1}, x_{2}....x_{n})$

：epsilon，是判斷core point時所使用的距離
minPts: 判斷core point是所使用的最少鄰居數量
密度直達：如果xi位於xj的?-鄰域中，且xj是核心對象，則稱xi由xj密度直達。
密度可達：對於xi和xj,如果存在樣本樣本序列p1,p2,...,pT,滿足p1=xi,pT=xj, 且pt+1由pt密度直達，則稱xj由xi密度可達。即p1--> pT-1都是core point，並依次密度直達。Pt不一定是core point。
每一個core point及其密度可達的點都可以獨立構成一個cluster；非core point可以屬於一個cluster，此時非core point被稱為該cluster的edge（邊），因為不能通過非core point探索更多的點。