聚類,顧名思義,就是將原本無規律的數據,通過比較數據之間的相似性,找出它們的聯繫,將差別小的數據分為一類,保證不同類別之間的差別較大。聚類研究一般是對研究的樣本人羣進行分析,把人羣劃分為不同類別,再對不同類別人羣的差異進行分析。

聚類分析與因子分析

分析時很多人容易把聚類和因子分析的概念弄混,其實兩者既有聯繫也有區別。

  • 區別:

因子分析:分為探索性因子分析和驗證性因子分析,多用來分析問卷效度、濃縮信息、計算權重或者分析綜合競爭力。比如將20個題濃縮為5個關鍵詞。

聚類分析:分為樣本聚類和變數聚類,通常比較常用樣本聚類,比如有500個人,這500個人可以聚成幾個類別。

  • 聯繫:

在研究中,可以先做因子分析濃縮題項信息,也就是把多個題濃縮成幾個變數,得到因子得分。然後將因子得分進一步聚類分析,得到幾個類別羣體,可用於後續的研究。

思路框架

聚類分析思路框架

具體分析步驟:

1、樣本背景分析。首先對研究數據樣本基本特徵情況(比如性別、年齡、學歷等)進行分析

2、樣本特徵、行為分析。如果有涉及樣本羣體的特徵、行為、或者態度相關項,則可單獨一部分進行分析

3、指標歸類分析。如果研究量表數據並不知道分成幾個維度,比如有20個量表題,應該分成幾個維度並不確定,此時可使用因子分析方法進行。找出應該分成幾個維度,以及題項和維度的對應關係情況。

4、信度和效度分析。接著對量表項進行信度和效度分析( 因子分析已經得出維度與題項對應關係,此時說明已經有效度,有時也可放棄效度分析,從內容完整性上建議放入)

5、聚類分析。完成因子分析後,已經確認得到幾個維度,可將此幾個維度進行聚類,得到幾種類別的羣體,然後結合每類羣體的特徵,給每個聚類類別進行命名。

6、聚類效果驗證。嚴格意義上的聚類分析並非統計檢驗分析方法,而是一種數據描述性方法。從應用角度看,研究人員可以使用以下幾種方法綜合判斷聚類效果:

  • 第一,看聚類後的類別是否可以有效命名,且是否符合現實意義。
  • 第二,判斷分析方法進行判斷,將軟體生成的聚類類別變數作為因變數(Y),將聚類變數作為自變數(X),判別分析聚類變數與類別之間投影關係情況。
  • 第三,文字說明聚類分析方法的詳細過程及科學性。
  • 第四,要看聚類分析後每個類別樣本量是否均勻,如果聚類結果顯示為三個類別,其中一個類別樣本量非常少,說明聚類效果可能較差。

7、得到聚類類別之後,接著需要對比不同類別羣體的差異性;包括比如在「特徵」、「行為」或者「態度」上的差異性。便於結合不同羣體提供不同的建議措施等。如果是研究聚類樣本的個體背景特點差異,聚類類別和樣本背景題項均為分類數據,因而應該使用卡方分析進行對比差異,進一步瞭解不同細分類別人羣在個體背景上的差異情況,便於對類別樣本進行深入分析。

研究者還可以對比不同類別樣本與問卷中其餘題項的差異情況,如果題項為定量數據則需要使用方差分析,如果題項為分類數據則使用卡方分析,如果題項為多選題,也應該使用卡方分析

此類問卷思路的核心特點在於「分類」,即對樣本人羣細分。在此基礎之上,才會有後面的關於不同類別人羣的差異分析。

聚類分析說明

上部分已經對整體框架進行說明,這部分主要對聚類的分析步驟進行進一步說明。其他分析步驟的說明在之前的文章都有介紹,這裡就不再重複。

聚類分析常見的方法有:兩步聚類K-均值聚類系統聚類

兩步聚類可以同時處理定類數據和定量數據,並且可以系統自動尋找最有聚類類別數量。使用與數量大且結構複雜的分析。

K-均值聚類,又叫快速聚類,可以快速處理大量數據,速度快並且處理大量數據是K-均值聚類的優點,但其僅針對定量數據而不能處理分類數據,並且需要主觀設定聚類類別個數,不能自動尋找最優聚類類別數量。

用戶可在SPSSAU【進階方法】-【聚類】中可以使用此聚類方法。

系統聚類,又叫分層聚類,基本思路是將多個樣本各作為一類,計算樣本兩兩之間的距離,合併距離最近的兩類成新的一類,然後再計算距離,再合併,直到只有一類為止。

用戶可在SPSSAU【進階方法】-【分層聚類】中可以使用此聚類方法。

分析步驟上:

第一步:數據處理。如果樣本數據度量單位不統一,比如有的題項是以七級量表,而有的題項為五級題項。此時應該進行數據處理,即數據標準化處理。常見是進行Z值法標準化。

第二步:進行聚類分析。如果是按樣本聚類,則使用SPSSAU的進階方法模塊中的「聚類分析」功能,其會自動識別出應該使用K-means聚類演算法還是K-prototype聚類演算法;如果是按變數(標題)聚類,則使用分層聚類,並且結合聚類樹狀圖進行綜合判定分析。

第三步:聚類效果驗證。聚類效果不同於其它分析方法,其它分析方法可以通過P值進行檢驗。聚類效果需要通過研究經驗,並且結合專業知識進行綜合判斷。良好的聚類分析結果可以有效的識別樣本特徵,因而聚類出的不同類別樣本,應該有著完全差異性特徵。

針對聚類樣本的特徵差異對比,通常是使用方差分析進行對比,如果聚類變數為分類數據,應該使用卡方分析進行對比。通過方差分析或者卡方分析,找出各個類別樣本的具體特徵差異情況,並且結合不同類別樣本的特徵情況進行命名處理。如果可以進行有效命名,則說明聚類效果較好,反之則說明聚類分析結果較差,應該返回第二步重新選擇聚類類別數量,找出更優聚類結果。

第四步:聚類類別命名。完成第三步聚類效果判斷後,已經確認聚類類別數量情況,以及每個類別命名情況。此步驟更為深入分析各個類別的特點,尤其針對於某類別樣本在某聚類變數上的突出特點,最終對聚類類別進行命名,結束聚類分析。

相關資料

SPSS在線_SPSSAU_SPSS聚類分析

SPSS在線_SPSSAU_分層聚類


推薦閱讀:
相關文章