在臨床研究中,生存曲線(又稱Kaplan-Meier曲線)是最常用圖片之一,旨在描述各組患者的生存狀況。一張漂亮的、專業的生存曲線圖不僅可以令編輯、讀者和審稿專家眼前一亮,同時也能為論文增色不少。然而,對於一些新手而言,生存曲線卻顯得十分陌生,不知道為何要繪製生存曲線,也不知道該如何解讀生存曲線的結果。在此,筆者結合自己長期做統計分析和繪製生存曲線的經驗,淺談如何解讀生存曲線。

1,為什麼要繪製生存曲線

可能有讀者要問,為什麼要繪製生存曲線?如果想要比較兩組患者的預後,我直接比較兩組的生存時間不就可以了。比如,我要比較早期肺癌和晚期肺癌的總體生存率,我可以將所有的病人隨訪到死,這個每個病人就有一個生存時間,我直接用t檢驗或者Mann-Whirney U檢驗等直接比較生存時間就行了,還繪製什麼生存曲線。

然而,事情並不是那麼簡單!預後分析往往要考慮很多因素,比如病人失訪了(失去聯繫),最終無法明確病人是否死亡。也有可能病人並不是死於預定的觀察終點,比如研究肺癌預後,設定的觀察終點是肺癌相關死亡事件,但問題在於有的病人中途可能死於車禍或心血管疾病,這類病人自然就沒有觀察終點了。在隨訪中,這些沒有觀察終點的案例叫失訪案例,或者刪失案例。當然,還有一個最重要的問題,就是有的疾病生存時間較長,比如睾丸癌,隨訪二三十年也未必能等到病人全部死亡。在這些情況中,如果僅僅比較生存時間,顯然是不可能,也不合理的。打個極端的比方:某人對10例晚期和10例早期肺癌進行了1年的隨訪,旨在確定早期病人的預後是否好於晚期病人。作者對病人進行隨訪後發現,晚期病人在1年的時間截點上(剛好在1年的時候)全死了,而早期病人在1年的時間截點上還全部存活。如果單純比較生存時間,早期和晚期病人的存活時間都是1年,顯然沒有差異。但是在這裡例子中,早期病人的預後顯然是優於晚期病人的。

也有人說,我不比較生存時間,而是比較1年生存率,5年生存率,這又何嘗不可。這確實是一種預後分析的方法,但是其在方法學上有瑕疵,並不是最佳的預後分析方案。再打一個極端的比方,某研究者對甲乙兩組肺癌病人進行隨訪,比較兩組患者的1年生存率。隨訪1年後,兩組病人均死亡,死亡率是100%,如果單獨比較1年生存率,兩組患者的死亡率顯然是一樣的。但是問題在於:甲組病人全部是在隨訪後3天就死了,而乙組病人全部是在第364天死亡的。其實乙組病人比甲組病人多活了近一年,其預後顯然更好。這個案例其實就是告訴我們,生存分析要考慮每個時間點上病人的生存概率,而不是某一個特定的時間點。

其實說了這麼多廢話,舉了這麼多例子,就是想說明一個問題:隨訪資料是有刪失值的,比較病人的預後不能直接拿隨訪時間說事,生存曲線才是最佳分析方案。

2,如何解讀生存曲線

圖1

上圖(圖1)是筆者隨手從某雜誌上截取的一張生存曲線圖。這項研究的目的之一評價sST2(一個實驗室指標)與呼吸困難人群預後,作者選擇觀察終點為全因死亡率。研究將251例呼吸困難人群劃分為兩個組,sST2增高組(n=126)和降低組(n=125)。用生存曲線描述了兩組病人的生存狀況。生存曲線的橫坐標是觀察時間,縱坐標一般是生存率。曲線上的每一個點代表了在該時間點上病人的生存率。在A點中,由於才開始隨訪(X軸為0),還沒有患者死亡,所以兩組患者的生存率都是100%。但是我們發現,在隨後的隨訪過程中,sST2增高組(sST2>median)的死亡率在任何一個時間均高於sST2降低組(sST2=<median)。以第200天為例,sST2降低組的生存率約為93%(B點),而增高組的生存率則為70%左右(C點)。從這個數據中,我們大致可以判斷sST2降低組的全因死亡風險要低於增高組。但是這僅僅是推測,無法排除兩組患者全因死亡風險的差異是由於隨機抽樣造成的。要證明這個推測,需要在統計學上進行假設檢驗。目前對生存曲線的假設檢驗一般採用logrank檢驗,該檢驗在常用的統計軟體中均可實現,具體的操作過程我會另闢新文進行演示,敬請關注。Logrank檢驗的統計學原理比較複雜,對臨床研究工作者來說,不必完全掌握,只需要了解該檢驗的統計學結論和臨床解釋即可。經logrank檢驗後發現P<0.05,表明兩組患者的生存狀況(準確地說是觀察終點的發生狀況)的差異不能用抽樣誤差來解釋。換而言之,分組因素才是導致兩條曲線生存率出現差異的原因所在。以上圖為例,經過logrank檢驗後發現P<0.05,作者可以理直氣壯地告訴讀者:sST2降低組和增高組的總體生存率是完全不同的,sST2降低組的總體生存率要好於sST2增高組。

當然,生存曲線也可以是3組,4組甚至多組,在圖形繪製和統計分析的操作上與兩組分析如出一轍,在此不再贅述。下面是筆者對生存曲線一些特性的認識,便於大家認識和理解生存曲線。內容雖然簡短,但是均為「乾貨」。

2.1 樣本量越大,生存曲線越平滑,誤差越小。下圖(圖2)是我從另一篇文章中截取的總體樣本量為99的研究,其曲線的平滑程度顯然比不上前述樣本量為251的研究。

圖2

2.2 一般而言,兩條曲線之間的距離越大(分叉越大),說明兩組患者預後(終點事件發生率)的差別越大,也越容易做出統計學差異。其實這個和t檢驗差不多:兩組數據的均數差異越大,越容易有統計學差異。

2.3 隨訪時間越長,越容易做出統計學差異。這個問題其實也很好理解,一個極端的比方就是,在上述sST2例子中,假定隨訪時間為1天,而非400天,兩組患者生存率的差異顯然是沒有統計學意義的。國際上,隨訪時間越長的研究越容易發表在高水平的雜誌上,原因與此有關。

2.4 樣本量越大,越容易做出統計學差異。樣本量越大,誤差(標準誤)越小,當然越有統計學意義。其實這相當於在t檢驗中,兩組數據的標準差越小,當然越容易得到陽性統計學結果。

2.5 生存曲線與X軸有交叉,並不意味著研究對象全部死亡(發生終點事件)。實際上,在生存曲線中,每一個時間點上只要有病人死亡(或者發生終點事件),曲線就會下降一定的幅度。下降的幅度具體有多大,取決於該時間點上病人的死亡例數和後續隨訪時間(該時間截點以後的時間)病人的樣本量。這句話可能有些晦澀和難於理解,舉一個通俗的例子:某研究者隨訪了10例病人,隨訪第一天就有兩個病人去世了,第一天的生存率就是80%,即曲線下降了20%的幅度。到隨訪第二天,4個病人失訪了。由於只是失訪,而不是死亡,所以生存曲線不會下降,而是繼續水平延生。到第三天的時候,還有隨訪資料的病人僅有4個。而恰好就在這一天,兩個病人去世了,曲線下降的幅度就應該是剩餘幅度的50%(四個病人中的兩個)。由於第二天僅僅只有4人失訪,而不是死亡,所以生存曲線在第二天的生存率仍然是80%。到第三天時候,曲線的下降幅度就應該是80%的50%,即下降40%。假定第四天的時候,剩下的兩個病人都死了,所有研究對象在第四天的生存率自然是0%。實際上,這些病人的生存曲線圖就是如下圖(圖3)所示:

圖3

從圖中(圖3)我們可以看出:1)這個生存曲線圖太不平滑了,主要是樣本量太小;2)生存曲線雖然與X軸相交,但是並不是所有的研究對象都死亡了,因為其中有4人屬於失訪病例,即刪失結果。我們經常看到很多生存曲線與X軸並無交點,實際上就是經過長時間的隨訪後,仍有大量病人存活,無法明確這些病人具體的死亡時間(刪失結果)。在上圖中,我們假定第四天的時候,剩下的兩個病人還是存活的,但是研究也結束了(不再對病人進行隨訪),則其對應的生存曲線圖應該為下圖(圖4):

圖4

因此,生存曲線是否與X軸有交叉,主要取決於隨訪時間最長的那位患者是生存還是死亡,若為死亡,則自然與X軸相交。

2.6 理想的生存曲線應該標明刪失值。在上述例子中,我們注意到,生存曲線第二天和第四天上面有一個突出的小點,表示表示該點有刪失病例。實際上,這才是最正規、最具有信息量的生存曲線。遺憾的是,目前刊登在很多雜誌,包括部分國際雜誌上的生存曲線都不按照這個規則繪製,作者總是有意無意地抹去刪失病例的「凸點」。

2.7 在生存曲線的下方,最好能標識下每組的樣本量,分組的依據(比如sST2的平均值)等,因為這些細節可以方便循證醫學家對論文的數據進行提取和合併,這些細節有助於增強自己論文的學術穿透力。

筆者| 胡志德,Journal of Thoracic Disease學術沙龍委員、Section Editor (Systematic Review and Meta-analysis),工作於濟南軍區總醫院實驗診斷科,現為第二軍醫大學臨床檢驗診斷學博士研究生,以第一作者或通訊作者身份發表SCI論文十餘篇,並主持國家青年科學基金一項。


推薦閱讀:
相关文章