聚類 | KMeans理論與演算法實現

本文寫於2018.12.11，原文地址，技術博客地址

說明：造輪子是為了深入理解演算法原理和參數，實際工作中不用造輪子

01 物以類聚

今天我們學習並實踐KMeans聚類演算法，分成以下幾個部分，跟上節奏燥起來！

KMeans演算法理論和代碼實現
改進，BiKMeans演算法理論和代碼實現
實例，上車點規劃
抉擇，如何挑選最佳的聚類簇數？

02 KMeans理論和演算法實現

聚類是一種無監督學習的方法，所謂「無監督」，就是指參與訓練的樣本沒有標籤。

KMeans聚類演算法過程如下： 1. 對於一組數據集，隨機選取k個點作為質心，將數據集中的點歸為離其最近的質心一簇，此時數據集被劃分為k個簇； 2. 對這k個簇，重新計算各簇的質心(均值)； 3. 根據新的質心，按照step1繼續聚類，然後再根據聚類重新計算各簇質心，直到質心不再改變，分類完成。

說白了，就是不斷地聚類、劃分的過程。

通過KMeans原理，可以看到幾個顯而易見的缺點： 1. 簇數量k由用戶指定，無法預先知道最佳k值 >>解法：分為幾簇，最終由輪廓係數S(i)決定，取輪廓係數最大的分類數(05節劇透) 2. 最終質心可能與初始點選擇有關 >> 因此KMeans的結果可能收斂到局部最小值，而不是全局最小值 >> 解法： - BiKMeans（03節） - KMeans++（KMeans++ 演算法在選擇初始質心時並不是隨機選擇，而是選擇盡量相互分離的質心，即，下一個質心點總是離上一個質心點較遠的點）

代碼實現

def loadDataSet(fileName): dataList=[] dataMat=[] fr=open(fileName) for line in fr.readlines(): curLine=line.strip().split( ) fltLine=list(map(float,curLine)) dataList.append(fltLine) dataMat=mat(dataList) return dataMat

def distEclud(vecA,vecB):
return sqrt(sum(power(vecA-vecB,2))) #歐式距離

#為輸入數據集構造k個隨機中心，中心位置在各特徵最大最小值之間
def randCent(dataSet,k):
n=shape(dataSet)[1]
center=mat(zeros((k,n)))
for j in range(n): #對每個特徵
minJ=min(dataSet[:,j])
rangeJ=float(max(dataSet[:,j])-minJ)
center[:,j]=mat(minJ+rangeJ*random.rand(k,1)) #質心第j維坐標在數據集第j維數據之間
return center

def KMeans(dataSet,k,distMeas=distEclud,createCent=randCent):
m=shape(dataSet)[0]
clusterAssment=mat(zeros((m,2))) #用於記錄各樣本當前歸屬於哪個簇以及到該簇質心的歐式距離平方
center=createCent(dataSet,k)
clusterChanged=True

while clusterChanged:
clusterChanged=False
#對每個樣本，計算樣本到各質心的距離，尋找距離最近的質心，將該樣本歸為該質心所在簇
for i in range(m):
minDist=inf;minIndex=-1
for j in range(k): #對每個質心,計算到i樣本的距離
distJI=distMeas(center[j,:],dataSet[i,:])
if distJI<minDist:
minDist=distJI;minIndex=j #i樣本暫屬於j簇，到j簇質心距離為minDist
if clusterAssment[i,0]!=minIndex:
clusterChanged=True #若任一樣本在本次迭代中改變了簇類，則要進行下一次迭代(即，直到任何樣本都不再改變簇類，聚類停止)
clusterAssment[i,:]=minIndex,minDist**2 #記錄樣本i的簇類情況
#print (center)
#更新質心
for cent in range(k):
ptsInClust=dataSet[nonzero(clusterAssment[:,0].A==cent)[0]] #篩選出屬於當前簇類的點
center[cent,:]=mean(ptsInClust,axis=0) #對該簇類各樣本的各列求均值，作為新質心
return center,clusterAssment

用一組數據來測試一下：

dataMat1=loadDataSet(rD:DMpythondataMLiA_SourceCodemachinelearninginactionCh10 estSet.txt) dataMat2=loadDataSet(rD:DMpythondataMLiA_SourceCodemachinelearninginactionCh10 estSet2.txt) center_testSet1,clusterAssment_testSet1=KMeans(dataMat1,4) center_testSet2,clusterAssment_testSet2=KMeans(dataMat2,3)

plt.figure(figsize=(6,6))
plt.scatter(dataMat1[:,0].T.tolist()[0],dataMat1[:,1].T.tolist()[0],c=pink,s=30)
plt.scatter(center_testSet1.T[0].tolist()[0],center_testSet1.T[1].tolist()[0],c=blue,s=50)