分層聚類,又稱層次聚類、系統聚類,顧名思義是指聚類過程是按照一定層次進行的。

數據分析過程中如果需要按變數(標題)聚類,那麼此時就應該使用分層聚類,並且結合聚類樹狀圖進行綜合判定分析。比如當前有8個裁判對於300個選手進行打分,試圖想對8個裁判進行聚類,以挖掘出裁判的打分偏好風格類別情況,此時則需要進行分層聚類。

分層聚類的基本思想是:

在聚類分析的開始,每個樣本(或變數)單獨作為一組,然後按照某種方法度量所有樣本(或變數)之間的親疏程度,把距離相近的先樣本(或變數)先聚成類,距離相遠的後聚成類,如此反覆,直到所有樣本(或變數)聚成一類為止。

分層聚類有幾點需要特別注意:

1:僅針對定量數據進行分層聚類;

2:如果數據的單位有較大差別,可首先對於數據進行標準化處理後,針對標準化數據進行分層聚類;

SPSSAU用戶可點擊 數據處理-生成變數-選擇標準化(S),進行數據標準化處理。

3:由於均為定量數據,因而從原理角度上,分層聚類時應該使用Pearson相關係數去度量距離,相關係數值越大說明越緊密,則說明距離越近,相關係數值越小說明越疏遠,說明距離越遠;SPSSAU默認使用Pearson相關係數表示距離大小;

案例分析

1、背景

當前有8個裁判對300名選手打分,最低分為1分,最高分為10分;希望對8個裁判進行聚類,以識別出裁判的風格類型。總共8個裁判共有8列數據,並且共有300行。由於打分全部均是從1到10分,8列數據的單位均一樣,因此在分析之前不需要進行標準化數據(當然進行標準化處理也沒有問題)。

2、操作步驟

本案例中總共涉及8個標題,SPSSAU操作截圖如下:

SPSSAU會默認聚類為3類並且呈現表格結果,如果希望更多的類別個數,可自行進行設置。

3、SPSSAU輸出結果

SPSSAU會首先輸出聚類項的基本描述情況,接著輸出每項的聚類類別歸屬情況;並且輸出樹狀圖,如下所述:

聚類項描述分析

上表格展示總共8個分析項(即8個裁判數據)的基本情況,包括均值,最大或者最小值,中位數等,以便對於基礎數據有個概括性了解。整體上看,8個裁判的打分基本平均在8分以上。

SPSSAU:智能化分析
聚類類別分布表

總共聚類為3個類別,以及具體分析項的對應關係情況。在上表格中展示出來,上表格可以看出:裁判8單獨作為一類;裁判5,3,7這三個聚為一類;以及裁判1,6,2,4作為一類。

聚類類別與分析項上的對應關係可以在上表格中得到,同時也可以查看聚類樹狀圖得出更多信息。至於聚類類別分別應該叫做什麼名字,這個需要結合對應有關係情況,自己單獨進行命名。

上圖為聚類樹狀圖的展示,聚類樹狀圖是將聚類的具體過程用圖示法手法進行展示;最上面一行的數字僅僅是一個刻度單位,代表相對距離大小;一個結點表示一次聚焦過程。

樹狀圖的解讀上,建議單獨畫一條垂直線,然後對應查看分成幾個類別,以及每個類別與分析項的對應關係。比如下圖中,紅色垂直線最終會拆分成3個類別:第1個類別對應裁判8;第2個類別對應裁判5,3,7;第3個類別對應裁判1,6,2,4。

當然在分析時也可以考慮分成2個類別,此時只需要對應將垂直線移動即可:

上圖展示出僅分為2個類別時的情況;如果聚類成2個類別;此時裁判8單獨作為一個類別;裁判5,4,7,1,6,2,4會單獨聚為一類。

如果是聚為四類;從上圖可看出,明顯的已經不再合適。原因在於垂直線不好區分成四類。也即說明有2個類別本應該在一起更合適(上圖中的裁判1與6/2/4);但是如果分成4類,此時裁判1會單獨成一類。所以畫垂直線無法區分出類別。

因而綜合分析來看,最終聚類為3個類別最為適合。

文字分析

本次研究共涉及8個裁判對於300個選手的打分數據,打分從1到10分;並沒有量綱問題,因而對平數據不需要進行標準化處理(如果有量綱單位問題,最好先進行標準化處理)具體分層聚類時使用Pearson相關係數度量距離大小,同時使用組平均距離法進行分析。

結合樹狀圖進行分析,如果聚類為一個類別,此時其中一個類別僅對應1項,另外一個類別對應7項;如果聚類為四個類別,其中有一項無法很好的區分成一類;最終聚類為三類最為合適,第1個類別對應裁判8;第2個類別對應裁判5,3,7;第3個類別對應裁判1,6,2,4。

參考資料

SPSS在線_SPSSAU_分層聚類

SPSS在線_SPSSAU_生成變數

更多SPSS數據分析相關內容可登錄SPSSAU官網查看並學習。

推薦閱讀:

相关文章