手把手教你解讀生存曲線

在臨床研究中，生存曲線（又稱Kaplan-Meier曲線）是最常用圖片之一，旨在描述各組患者的生存狀況。一張漂亮的、專業的生存曲線圖不僅可以令編輯、讀者和審稿專家眼前一亮，同時也能為論文增色不少。然而，對於一些新手而言，生存曲線卻顯得十分陌生，不知道為何要繪製生存曲線，也不知道該如何解讀生存曲線的結果。在此，筆者結合自己長期做統計分析和繪製生存曲線的經驗，淺談如何解讀生存曲線。

1，為什麼要繪製生存曲線

可能有讀者要問，為什麼要繪製生存曲線？如果想要比較兩組患者的預後，我直接比較兩組的生存時間不就可以了。比如，我要比較早期肺癌和晚期肺癌的總體生存率，我可以將所有的病人隨訪到死，這個每個病人就有一個生存時間，我直接用t檢驗或者Mann-Whirney U檢驗等直接比較生存時間就行了，還繪製什麼生存曲線。

然而，事情並不是那麼簡單！預後分析往往要考慮很多因素，比如病人失訪了（失去聯繫），最終無法明確病人是否死亡。也有可能病人並不是死於預定的觀察終點，比如研究肺癌預後，設定的觀察終點是肺癌相關死亡事件，但問題在於有的病人中途可能死於車禍或心血管疾病，這類病人自然就沒有觀察終點了。在隨訪中，這些沒有觀察終點的案例叫失訪案例，或者刪失案例。當然，還有一個最重要的問題，就是有的疾病生存時間較長，比如睾丸癌，隨訪二三十年也未必能等到病人全部死亡。在這些情況中，如果僅僅比較生存時間，顯然是不可能，也不合理的。打個極端的比方：某人對10例晚期和10例早期肺癌進行了1年的隨訪，旨在確定早期病人的預後是否好於晚期病人。作者對病人進行隨訪後發現，晚期病人在1年的時間截點上（剛好在1年的時候）全死了，而早期病人在1年的時間截點上還全部存活。如果單純比較生存時間，早期和晚期病人的存活時間都是1年，顯然沒有差異。但是在這裡例子中，早期病人的預後顯然是優於晚期病人的。

也有人說，我不比較生存時間，而是比較1年生存率，5年生存率，這又何嘗不可。這確實是一種預後分析的方法，但是其在方法學上有瑕疵，並不是最佳的預後分析方案。再打一個極端的比方，某研究者對甲乙兩組肺癌病人進行隨訪，比較兩組患者的1年生存率。隨訪1年後，兩組病人均死亡，死亡率是100%，如果單獨比較1年生存率，兩組患者的死亡率顯然是一樣的。但是問題在於：甲組病人全部是在隨訪後3天就死了，而乙組病人全部是在第364天死亡的。其實乙組病人比甲組病人多活了近一年，其預後顯然更好。這個案例其實就是告訴我們，生存分析要考慮每個時間點上病人的生存概率，而不是某一個特定的時間點。

其實說了這麼多廢話，舉了這麼多例子，就是想說明一個問題：隨訪資料是有刪失值的，比較病人的預後不能直接拿隨訪時間說事，生存曲線才是最佳分析方案。

2，如何解讀生存曲線

圖1

上圖（圖1）是筆者隨手從某雜誌上截取的一張生存曲線圖。這項研究的目的之一評價sST2（一個實驗室指標）與呼吸困難人群預後，作者選擇觀察終點為全因死亡率。研究將251例呼吸困難人群劃分為兩個組，sST2增高組（n=126）和降低組（n=125）。用生存曲線描述了兩組病人的生存狀況。生存曲線的橫坐標是觀察時間，縱坐標一般是生存率。曲線上的每一個點代表了在該時間點上病人的生存率。在A點中，由於才開始隨訪（X軸為0），還沒有患者死亡，所以兩組患者的生存率都是100%。但是我們發現，在隨後的隨訪過程中，sST2增高組（sST2>median）的死亡率在任何一個時間均高於sST2降低組（sST2=<median）。以第200天為例，sST2降低組的生存率約為93%（B點），而增高組的生存率則為70%左右（C點）。從這個數據中，我們大致可以判斷sST2降低組的全因死亡風險要低於增高組。但是這僅僅是推測，無法排除兩組患者全因死亡風險的差異是由於隨機抽樣造成的。要證明這個推測，需要在統計學上進行假設檢驗。目前對生存曲線的假設檢驗一般採用logrank檢驗，該檢驗在常用的統計軟體中均可實現，具體的操作過程我會另闢新文進行演示，敬請關注。Logrank檢驗的統計學原理比較複雜，對臨床研究工作者來說，不必完全掌握，只需要了解該檢驗的統計學結論和臨床解釋即可。經logrank檢驗後發現P<0.05，表明兩組患者的生存狀況（準確地說是觀察終點的發生狀況）的差異不能用抽樣誤差來解釋。換而言之，分組因素才是導致兩條曲線生存率出現差異的原因所在。以上圖為例，經過logrank檢驗後發現P<0.05，作者可以理直氣壯地告訴讀者：sST2降低組和增高組的總體生存率是完全不同的，sST2降低組的總體生存率要好於sST2增高組。

當然，生存曲線也可以是3組，4組甚至多組，在圖形繪製和統計分析的操作上與兩組分析如出一轍，在此不再贅述。下面是筆者對生存曲線一些特性的認識，便於大家認識和理解生存曲線。內容雖然簡短，但是均為「乾貨」。

2.1 樣本量越大，生存曲線越平滑，誤差越小。下圖（圖2）是我從另一篇文章中截取的總體樣本量為99的研究，其曲線的平滑程度顯然比不上前述樣本量為251的研究。

圖2

2.2 一般而言，兩條曲線之間的距離越大（分叉越大），說明兩組患者預後（終點事件發生率）的差別越大，也越容易做出統計學差異。其實這個和t檢驗差不多：兩組數據的均數差異越大，越容易有統計學差異。

2.3 隨訪時間越長，越容易做出統計學差異。這個問題其實也很好理解，一個極端的比方就是，在上述sST2例子中，假定隨訪時間為1天，而非400天，兩組患者生存率的差異顯然是沒有統計學意義的。國際上，隨訪時間越長的研究越容易發表在高水平的雜誌上，原因與此有關。

2.4 樣本量越大，越容易做出統計學差異。樣本量越大，誤差（標準誤）越小，當然越有統計學意義。其實這相當於在t檢驗中，兩組數據的標準差越小，當然越容易得到陽性統計學結果。

2.5 生存曲線與X軸有交叉，並不意味著研究對象全部死亡（發生終點事件）。實際上，在生存曲線中，每一個時間點上只要有病人死亡（或者發生終點事件），曲線就會下降一定的幅度。下降的幅度具體有多大，取決於該時間點上病人的死亡例數和後續隨訪時間（該時間截點以後的時間）病人的樣本量。這句話可能有些晦澀和難於理解，舉一個通俗的例子：某研究者隨訪了10例病人，隨訪第一天就有兩個病人去世了，第一天的生存率就是80%，即曲線下降了20%的幅度。到隨訪第二天，4個病人失訪了。由於只是失訪，而不是死亡，所以生存曲線不會下降，而是繼續水平延生。到第三天的時候，還有隨訪資料的病人僅有4個。而恰好就在這一天，兩個病人去世了，曲線下降的幅度就應該是剩餘幅度的50%（四個病人中的兩個）。由於第二天僅僅只有4人失訪，而不是死亡，所以生存曲線在第二天的生存率仍然是80%。到第三天時候，曲線的下降幅度就應該是80%的50%，即下降40%。假定第四天的時候，剩下的兩個病人都死了，所有研究對象在第四天的生存率自然是0%。實際上，這些病人的生存曲線圖就是如下圖（圖3）所示：

圖3

從圖中（圖3）我們可以看出：1）這個生存曲線圖太不平滑了，主要是樣本量太小；2）生存曲線雖然與X軸相交，但是並不是所有的研究對象都死亡了，因為其中有4人屬於失訪病例，即刪失結果。我們經常看到很多生存曲線與X軸並無交點，實際上就是經過長時間的隨訪後，仍有大量病人存活，無法明確這些病人具體的死亡時間（刪失結果）。在上圖中，我們假定第四天的時候，剩下的兩個病人還是存活的，但是研究也結束了（不再對病人進行隨訪），則其對應的生存曲線圖應該為下圖（圖4）：

圖4

因此，生存曲線是否與X軸有交叉，主要取決於隨訪時間最長的那位患者是生存還是死亡，若為死亡，則自然與X軸相交。

2.6 理想的生存曲線應該標明刪失值。在上述例子中，我們注意到，生存曲線第二天和第四天上面有一個突出的小點，表示表示該點有刪失病例。實際上，這才是最正規、最具有信息量的生存曲線。遺憾的是，目前刊登在很多雜誌，包括部分國際雜誌上的生存曲線都不按照這個規則繪製，作者總是有意無意地抹去刪失病例的「凸點」。

2.7 在生存曲線的下方，最好能標識下每組的樣本量，分組的依據（比如sST2的平均值）等，因為這些細節可以方便循證醫學家對論文的數據進行提取和合併，這些細節有助於增強自己論文的學術穿透力。

筆者| 胡志德，Journal of Thoracic Disease學術沙龍委員、Section Editor (Systematic Review and Meta-analysis)，工作於濟南軍區總醫院實驗診斷科，現為第二軍醫大學臨床檢驗診斷學博士研究生，以第一作者或通訊作者身份發表SCI論文十餘篇，並主持國家青年科學基金一項。