在上一篇文章中,我們向大家介紹瞭如何給SPSS安裝插件,拓展出1:n傾向性評分匹配的功能。詳見:滿滿乾貨!給SPSS插上1:n傾向性評分匹配(PSM)的翅膀

在今天的內容中,我們就繼續給大家介紹一下,如何使用SPSS進行簡單的幾步操作,就能輕鬆搞定高大上的1:n傾向性評分匹配。

一、問題與數據

假設某位心內科醫生在門診連續收集了170名就診患者,其中冠心病(CHD)患者24名,146名對照,並記錄了他們的性別、年齡、BMI、LDL-C等信息,擬探討LDL-C水平與冠心病的關係(此處不對該研究的設計方法進行評價)。數據格式如下:

注意:這裡有2點大坑需要大家值得關註:

(1) 所有的變數名須是英文名稱,不要使用中文,否則會導致後面回歸模型建模失敗;

(2) 所有變數不能有缺失值,包括擬進行匹配和不進行匹配的全部變數,都不允許出現缺失值。

首先該醫生對數據進行了初步分析,將病例組和對照組之間的各個因素進行比較,結果發現兩組各因素間差異均有統計學顯著性。但為了保證兩組人羣之間各混雜因素能夠均衡可比,該醫生擬採用1:n傾向性評分匹配的方法來對兩組人羣進行匹配。

表1. 傾向性評分匹配前兩組間各個因素的比較結果

二、SPSS PS Matching拓展功能操作

1. 選擇analyze → PS Matching

2. 在Propensity Score Matching對話框中

(1) 將分組變數CHD選入Binary Treatment Indicator中,其中1代表病例組,0代表對照組,且變數類型必須定義為尺度變數

(2) 將用於計算傾向性評分的協變數age、BMI、gender選入Covariates,將與處理因素無關的協變數選入Additional Covariates。

注意:一般根據結局變數與混雜變數構建二分類logistic回歸模型,進行逐步回歸,將進入模型的變數選入Covariates,剔除的變數選入Additional Covariates。

(3) 設定Caliper值,為0~1之間,該值設置越大,越接近於1,就越容易找到匹配的對象,但結果就越容易出現不平衡;該值設置越小越接近於0,匹配就越嚴格,但是符合匹配要求的患者就少了,最終導致研究的統計效能降低,很有可能找不到匹配的對象。

本例中暫且設置為0.1,也就是說如果一個病例組研究對象患有冠心病的概率為0.8,那麼與之匹配的對照組研究對象患有冠心病的概率須在0.7-0.9之間。

3. 點擊Plot and Output選項

在Plots下勾選Histogram of standardized differences、Dotplot of standardized mean differences、Line plot of individual differences,分別繪製SD分佈直方圖、單變數SD散點圖、標準化差異變化線圖。

在Output Datasets下勾選Paired dataset by 「matched_id」,在Include下選擇Matched cases,並在Balance Statistics下選擇Detailed – by Exact Matching variables。

4. 點擊Nearest Neighbor選項

在Match Ratio下選擇Match 1: many,並設定匹配數量n,一般n不超過4,否則容易出現過度匹配的現象。本例中以設定1:2為例進行匹配。Matching order下拉框選擇Random。

5. 點擊OK完成操作。

三、結果解讀

1. 樣本匹配結果

結果顯示,SPSS生成了一個新的已完成匹配的數據文件,其中包含病例組21人,對照組39人,我們發現兩組人羣約為1:2,但並非是絕對的1:2匹配,這是因為有些病例未能同時找到有效匹配的對照人羣。

2. 匹配後的均衡性度量

在輸出結果「Relative multivariate imbalance L1」中,L1 measure統計量理論上介於0~1之間,匹配前和匹配後相比,L1 measure統計量越小,提示匹配效果越好。在本例研究中,匹配後的L1 measure統計量為0.643,遠小於匹配前的0.808,提示匹配良好。

3. 顯示匹配後不均衡的變數

在輸出結果「Summary of unbalanced covariates」中,若|d|>0.25,則提示變數存在不均衡性。在本例研究中,結果顯示沒有變數|d|>0.25,提示匹配後所有匹配的變數都達到了平衡。

4. 匹配後均衡性比較

對於匹配後的協變數均衡性比較應該遵守兩個原則:

① 評價方法應該是針對樣本而不是總體

仔細想想,傾向性評分匹配實際上是從一個隨機獲得的有代表性樣本中再「挑」出一部分進行分析,這時候再去通過「挑出來樣本」去推斷最開始的總體,顯然已經不合適啦。

② 評價指標應該與樣本量大小無關

為啥呢?想想看看,我們前面提到的匹配比例可以從1:1設定到1:4(事實上可以任意無限大設置,但是考慮匹配效率,推薦不要超過1:4),如果某個評價指標和樣本量有關,那極有可能會遇到不同樣本量下完全不一樣的比較結果。

綜上,你腦海里第一反應的t檢驗或者卡方檢驗在這裡已經不合適了。當然,還有其他常見的可用於協變數均衡性比較的指標,比如說C統計量等,也是存在很多缺點的(想要進一步瞭解這方面的內容,推薦大家一篇綜述[1])。

有小夥伴要問啦,這個方法也不行,那個也不行,到底用啥方法評價均衡性?別急,方法還是有的。在傾向性評分匹配後的均衡性比較中,推薦大家使用標準差異(Standardized difference)。一般而言,標準差異絕對值小於10%時,可認為組間均衡性較好。具體計算公式如下:

再回到本例中,SPSS在結果中輸出了Detailed Balance表格,展示了各個變數匹配前後的均值、標準差和標準差異等信息,結果顯示CHD組和對照組的年齡、BMI的標準差異絕對值分別為12.2%和3.7%。由於性別為分類變數,匹配後根據上述公式計算其標準差異絕對值為0.83%。

按照上面提到的10%的標準,性別和BMI匹配後在兩組中均衡性較好,但是年齡就差點兒,這也說明傾向性評分匹配也不是萬能的,如果兩組沒有足夠「重疊的部分」(比如說一個不太恰當的例子,某慢病人羣和體檢中心健康人羣進行匹配,前者年齡一般會比後者大不少,想要保證兩組匹配後年齡均衡可比,自然是難度大大的),匹配的結果也不會非常理想。

以上僅是舉例,重在方法操作。再回過頭來,瞅瞅組間LDL-C水平(表2)。結果顯示,匹配後的CHD組LDL-C水平高於對照組,組間差異明顯縮小了不少,但是獲得了一個比較「乾淨」的效應,提示LDL-C可能是CHD發生的一個危險因素。為了進一步確定LDL-C水平對CHD發生風險的效應大小,可以根據我們前期推送的教程《SPSS實例教程 | 1:m匹配病例對照Logistic回歸》,來進行更加深入的分析和探討。

表2. 傾向性評分匹配前後兩組LDL-C比較結果

5. 圖形輸出結果

5.1 SD分佈直方圖

若匹配後的標準差異集中在0附近,可以提示匹配達到了較好的效果。

5.2 標準化差異變化線圖和單變數SD散點圖

這兩個圖的點值與上述Detailed Balance表格中的值是相對應的,均展示了匹配前後,各個協變數標準差異的變化。標準化差異變化線圖顯示,匹配後各個協變數標準差異均明顯降低,單變數SD散點圖顯示匹配後標準差異基本集中在0附近,提示變數達到了均衡,匹配效果良好,可以結合Detailed Balance表格進行輔助判斷。

我們通過兩期的內容向大家詳細介紹了在SPSS中實現1:n傾向性評分匹配的功能,在學習統計學的道路上又get了一項高大上的新技能,如果大家在實操的過程中還遇到什麼問題,歡迎在下方留言討論哈!

參考文獻

1. J Clin Epidemiol. 2015; 68:112-21.

(想要及時獲得更多內容可關注「醫咖會」微信公眾號:傳播研究進展,探討臨牀研究設計與醫學統計學方法;也可查看醫咖會 - 臨牀研究設計和醫學統計交流平臺,獲取60篇統計方法的詳細SPSS教程。)

推薦閱讀:

相關文章