臨牀研究中,發現差異有統計學意義(P<0.05)後,就得出「療效肯定」的結論是值得商榷的。

新英格蘭醫學雜誌刊出的一篇綜述《The Primary Outcome Is Positive — Is That Good Enough?》中[1],作者認為當臨牀試驗的主要結局陽性時,還應當考慮11個問題。(表1)

表1. 主要結局陽性時應當考慮的問題

上一期,我們講了「P<0.05就是強有力的證據嗎?」,今天,我們探討一下「治療的獲益有多大?」

一、「P<0.05」就是療效很好嗎?

新英格蘭醫學雜誌發表的一項3b期藥物臨牀試驗——IMPROVE-IT[2],探討「維多靈(依折麥布+辛伐他汀的複合製劑)」相比於「辛伐他汀」,是否可以改善急性冠脈綜合徵患者的心血管結局。研究的主要結局為複合結局,包括心血管死亡、主要冠脈事件或非致死性心梗。

研究者發現「維多靈」組7年的主要結局發生率為32.7%,「辛伐他汀」組為34.7%。HR=0.94 (95% CI, 0.89 to 0.98, P = 0.016)。(圖1)儘管該研究得到了「P=0.016<0.05」,但需要考慮的是, 「維多靈」治療獲益(將主要結局的發生率降低了2個百分點)是否足夠大,是否能抵消治療花費、併發症的 「成本」?

圖1. IMPROVE-IT試驗的主要結局發生率

因此,儘管該研究的「P<0.05」,但FDA認為「治療的獲益較小」,拒絕了維多靈擴展適應症——降低心血管事件發生率的申請。

二、如何表示「治療的獲益有多大」?

表示「治療的獲益有多大」,可以通過相對指標,如相對危險度(Relative Risk, RR)、比值比(Odds Ratio, OR)、風險比(Hazard Ratio, HR)等;也可以通過絕對尺度,比如絕對危險度(Absolute Risk, AR)、平均值差(Mean Difference, MD)、需治療人數(Number Need to Treat, NNT)等。

關於RR和OR,可以查看「看了這篇文章,總算徹底搞明白了RR值!」以及「看了文中這麼多例子,還怕分不清OR和RR?」。關於RR、AR和NNT的區別,我們下次詳細講。

「治療的獲益有多大」只能通過RR、OR、HR、AR、MD、NNT等指標回答,而不能通過P值來回答,因為P值和「療效差別大」是兩個問題:「P<0.05」表示組間相比,療效的差異有統計學意義(回答了有沒有差別),但並不等於組間的療效差別大(不能回答差別有多大)。

三、為什麼「P<0.05」和「療效差別大」是兩個問題?

P值得計算是根據特定的分佈、計算出特定的統計量,相比較得出的。這裡我們暫且不去考慮,先簡述一下P值決定因素:

P<0.05有兩種可能:①療效差別確實較大;②療效差別小,但樣本量很大;

P≥0.05也有兩種可能:①療效差別確實小;②療效差別較大,但樣本量太小。

可見,僅僅根據P值的大小,我們無法判斷「治療的獲益有多大」。

四、中文期刊怎麼看這兩個問題?

僅舉其中一例:《中華醫學雜誌》發表的一篇「值得臨牀推廣」的研究[3]:研究者通過隨機對照試驗,擬探討「莉芙敏+帕羅西丁」(治療組)相比於「帕羅西丁」(對照組),治療圍絕經期女性抑鬱症的療效和安全性。

研究的主要結局採用漢密爾頓抑鬱量表(HAMD)測量。治療8周後,治療組的有效率為88.3%,對照組的有效率為78.3%,兩組療效的差異有統計學意義(P<0.05)。比較治療後第4、6、8周的HAMD評分,差異有統計學意義(P<0.05)。(原文中表1)

該研究是否能得出「值得臨牀推廣」的結論?首先要考慮療效提高了12.7%,治療後第4、6、8周的HAMD評分的平均值差不超過5分,是否有臨牀意義;除此之外,還應當考慮安全性、成本效益等諸多問題。

參考文獻

1. N Engl J Med. 2016;375:971-9.

2. N Engl J Med 2015;372:2387-97.

3. 中華醫學雜誌. 2013; 93:600-2.


推薦閱讀:
相關文章