最近在聚類分析學習的過程中,對於K-means聚類到底應該聚為幾類,在此與大家一起來探討一下。首先,我們來看看聚類分析的步驟流程,如下圖:

聚類分析步驟流程

對於我的疑問,我將以前段時間我分享的贛州市二手房市場分析與回歸建模案例中K-means聚類分析的內容來展現,希望大家也能發表自己的觀點,共同探討:

  • 聚類分析要求:我們知道這樣一句話「物以類聚,人以群分」,那我們對於實際工作中遇到的聚類分析工作,我們應該如何劃分類別呢?
  • 根據聚類原則:組內差距最小化,組間差距最大化;

之前我在案例中,對二手房做聚類分析,分為了三類,但在聚類結果解釋的過程中,發現第一類和第三類不是很好解釋,在業務層面來說甚至有些不合理,於是我有了第一個疑問,聚類分析——到底應該聚為幾類?,相信也是很多人在做K-means聚類是共同的疑問。

  • 降維分析——主成分分析

在聚類過程中,我們選擇總價、均價、面積、房間數量和樓高5個連續變數,我們無法在5維空間對個案屬於第幾類進行觀察,同時也為了避免變數共線性的問題,下面我將對5個變數進行降維,利用主成分分析法得到兩個主成分因子,下面我們一起來看看:

2個主成分因子提取的特徵值之後,曲線坡度漸緩,形成平台。

通過主成分分析法,我們得到的兩個主成分因子的累積方差解釋度為84.27%,說明兩個因子對我們選擇的5個連續變數的解釋度達到了84.27%,符合要求。

第一個主成分因子主要提取了總價、面積和房間數量三個變數的特徵值,我們可以將它解釋為space總價因子;

第二個主成分因子主要提取了均價和樓高的特徵值,我們知道樓層高度對房價有影響,我們將它解釋為價格因子。

  • 聚類分析——K-meams聚類

根據經驗,我們K-means聚類通常可以聚為3—8類,之前我做了將二手房聚為3類發現無法對聚類結果做出很好的解釋,下面我們嘗試聚為4類:

1)按照聚類結果,查看各類中房源數量和平均面積,如下表

2)按照聚類結果,比較各類中二手房平均總價,平均價格,平均面積和平均樓高,如下表:

3)按照聚類結果,查看各類中二手房的區域分布:

按照上述步驟分別將二手房源聚為5類、6類,得到如下分組散點圖:

聚為3類

聚3類結果解釋:第1類二手房:高樓型(以3室2廳、4室2廳為主)平均面積117平,均價在13800以上,總價均值在160萬以上,,平均樓高27層,主要分布在章江新區和黃金開發區。

第2類二手房:豪華型(5室2廳、5室3廳戶型為主)、平均面積在300平以上,高房價、均價在14400以上,總價均值在420萬以上,主要以複式樓、聯排、獨棟別墅為主,主要分布在黃金開發區、蓉江新區。

第3類二手房:大戶型(2室2廳、3室2廳、4室2廳為主),平均面積120平以上,房屋單價相對較低,均價在9000上下,總價均值在110萬上下,平均樓高10層,主要分布在老城區、黃金開發區。

聚為4類

聚4類結果解釋:第1類二手房:別墅豪華型,平均總價在570萬以上,平均面積在330平以上,均價在17600以上,主要分布在黃金開發區和蓉江新區,戶型主要5室3廳、6室3廳為主,甚至有大戶型。

第2類二手房:高樓型,平均總價在160萬以上,平均面積117平,均價13900以上,平均樓高27層,主要分布在章江新區和黃金開發區,戶型主要是3室2廳和4室2廳為主。

第3類二手房:大戶型,平均總價在230萬以上,平均面積在230平以上,均價10000,平均樓高9層,主要分布在黃金開發區、老城區和章江新區,戶型主要是5室2廳、5室3廳及4室2廳。

第4類二手房:經濟型,平均總價100萬上下,平均面積116平,均價9000,平均樓高11層,主要分布在老城區、黃金開發區、章江新區和站北區,戶型主要有3室2廳、4室2廳和2室2廳。

問題:第2類和第4類二手房有大量的1室1廳、2室1廳和2室2廳的房源,平均面積均在80平以下,從業務層面來看,這類二手房應該屬於小戶型或者單身公寓。

聚為5類,同樣沒有解決上述遇到的問題
聚為6類
相對來說,聚為6類較為合理,但同樣也存在問題。

那麼,我們到底應該聚為幾類呢???

  • 從技術層面來看,總體離差平方和最大,隨著聚類數量的增加,組內離差平方和會逐漸降低,離差平方和曲線進入平台為宜;
  • 從業務層面來看,聚類結果是否可以作出合理的解釋;
  • 從管理層面來看,聚類與管理層面的切合,是否可以指導業務的開展;
  • 從成本層面來看,聚類類別分的越細,企業管理成本越高。

對於聚類結果,我們可以利用判別分析進行驗證,並進一步研究各個類別之間的差異。

推薦閱讀:

相关文章