提到趨勢性檢驗,我們在前期的內容中,介紹過了Cochran-Armitage趨勢檢驗

,用於檢驗兩個分類變數之間是否存在一定的變化趨勢。但是我們在閱讀文獻時,也常常會看到文章結果展示的表格中,給出了P for trend的檢驗結果,如下表所示。

針對上表內容,首先複習一下我們前期介紹的有關回歸模型中設置啞變數的內容,對於連續性變數,可以考慮將其轉化為啞變數後帶入到回歸模型中,詳見:想將連續變數轉化為啞變數納入回歸模型,咋分組?

在本例中不難理解,研究人員將每一個自變數按照一定的切點分為3組,並以水平最低的一組作為參照,設置了2個啞變數帶入到模型中,分別求出其對應的OR值及P值。同時在表格中每一個變數分組下又列出了一行P for trend的結果,那麼問題來了,這個P for trend代表的是什麼意義呢,它有什麼作用呢?我們在實際的分析中怎樣才能求得P for trend的結果呢?

今天我們將結合幾篇發表的文獻,來向大家介紹一下回歸模型中趨勢性檢驗的魅力。

研究實例一

JAMA Oncology期刊(影響因子:16.56)2017年10月在線發表了一篇文章《Dose-Response Association of CD8+ Tumor-Infiltrating Lymphocytes and Survival Time in High-Grade Serous Ovarian Cancer》,研究人員探討了高級別漿液性卵巢癌患者生存時間與CD8+腫瘤浸潤性淋巴細胞(TIL)水平之間的劑量反應關係,部分結果如下表所示。

我們可以看出,研究人員將CD8+ TIL按照其計數水平分為陰性Negative(計數為0)、低水平Low(1-2 TILs)、中水平Moderate(3-19 TILs)和高水平High(≥20 TILs)共4組,在構建Cox回歸模型時,以Negative組為參照組,其餘3組設定為3個啞變數進入回歸模型

結果顯示,在病理分型為高級別漿液性卵巢癌的患者中,設定CD8+ TIL陰性組患者為參照(HR=1),低水平組、中水平組和高水平TIL組的患者死亡風險比值HR分別為0.86(0.75-0.99)、0.77(0.69-0.87)、0.57(0.49-0.65),提示與CD8+ TIL陰性組患者相比,其餘3組患者的死亡風險分別下降14%、23%、43%。

根據HR值的變化可以看出,從CD8+ TIL陰性組到高水平組,HR值逐漸降低,提示隨著CD8+ TIL水平的升高,患者死亡風險呈現下降的趨勢,那麼這個變化趨勢是否有統計學顯著性呢?

研究人員在結果中同時給出了趨勢性檢驗的結果P Value for Trend=4.2×10-16,提示CD8+ TIL水平每增加一個等級,患者死亡風險呈現出的這種逐漸降低的趨勢具有統計學顯著性。

研究實例二

我們再來看一個研究實例加深一下對P for trend的理解。例如Am J Clin Nutr在2015年發表的一篇文章,《Carbohydrate quality and quantity and risk of type 2 diabetes in US women》,研究人員探討了在美國女性中,各種營養素的攝入量與2型糖尿病發病風險的關聯性。部分結果如下表所示。

研究人員將不同的營養素按照其攝入水平的5分位進行分組,在構建Cox回歸模型時,以水平最低的1組為參照組,其餘4組設定為4個啞變數進入回歸模型。

結果顯示,對於水果纖維的攝入量,5分位分組的中位攝入水平分別為1.45、2.55、3.55、4.69、6.68 g/d,隨著水果纖維攝入水平的升高,研究對象2型糖尿病的發病相對風險RR值分別為1、0.93、0.91、0.82、0.73(Model 1),RR值呈現一個下降的趨勢,發病風險分別降低0、7%、9%、18%、27%。說明隨著水果纖維攝入量的升高,研究對象發生2型糖尿病的風險呈現下降的趨勢,趨勢性檢驗P-trend<0.0001,提示該下降趨勢具有統計學顯著性。

P for Trend的意義解讀

通過以上兩個研究實例,相信大家已經對P for trend有了一定的理解,P for trend是回歸模型中線性趨勢性檢驗的結果,簡單來說,在構建回歸模型時,例如最常用到的多重線性回歸、Logistic回歸以及Cox回歸中,P for trend主要是用來檢驗自變數X的變化(一般是指轉換後的啞變數的變化)與因變數Y的變化之間是否存在一定的線性變化趨勢。

那麼就會有同學問到,對於原始變數本身即為連續型變數時,為什麼不將原始變數直接帶入到模型中進行分析呢?為什麼還要大費周折將其轉化為啞變數,然後再做一遍趨勢性檢驗呢?直接帶入原始變數時所得的P值不是能更好的說明該變數與因變數之間的變化趨勢麼?

誠然,如果只是想把原始的連續型變數作為一個混雜因素進行調整的話,直接將它帶入模型即可;但是,如果作為研究所關注的影響因素的話,那麼從統計學和實際臨牀意義的角度考慮,直接帶入原始的連續型變數往往也存在一些不足:

1. 我們在介紹有關回歸模型中設置啞變數的內容時已經提到,為什麼我們有時需要將連續型變數轉化為啞變數,是因為當自變數以連續型變數的形式引入模型時,其意義解釋為該自變數每增加1個單位,所引起的因變數Y的變化(β),或結局發生風險的變化(OR/HR),但實際上這種變化效應有時是很微弱的,並沒有太大的臨牀意義,因此需要對連續型變數進行適當的轉化。

2. 如果直接將原始的連續型變數帶入到回歸模型中,其前提是已經假定該連續型自變數與因變數之間存在著一定的線性關係。但是,當自變數與因變數之間的相互變化關係不明確時,以連續型變數帶入模型會遺漏一些很重要的信息。

例如上述研究實例二中,研究人員在分析蔬菜纖維攝入量與2型糖尿病發病風險的關聯性時,結果顯示隨著蔬菜攝入量的升高,2型糖尿病發病風險RR值分別為1、1.01、1.04、1.06、0.98,P-trend=0.78(Model 1),提示蔬菜攝入量和2型糖尿病發病風險之間的線性趨勢不具有統計學顯著性,但是從RR值的變化中我們可以推測,兩者之間可能存在「拋物線(倒U字型)」的關係,而此時如果僅僅是帶入原始的連續型變數,就無法從結果中看出這樣的變化關係。

P for Trend的實現

瞭解了回歸模型中趨勢性檢驗P for trend的重要意義,那麼我們在構建模型進行統計分析時,應該如何求得P for trend的檢驗結果呢?其實很簡單,我們還是回到今天介紹的兩個研究實例中,看看大牛們都是怎麼分析的。

一、等級變數轉換

在研究實例一中,研究人員將CD8+ TIL按照其計數水平分為陰性Negative(計數為0)、低水平Low(1-2 TILs)、中水平Moderate(3-19 TILs)和高水平High(≥20 TILs)共4組。

研究人員按照此分組標準,將CD8+ TIL轉為為等級變數,分別賦值為0、1、2、3,隨後將該等級變數再次帶入到回歸模型中,所求得的該等級變數對應的P值即為P for trend的檢驗結果。

這個方法是我們最常用到的方法,但是該方法有一定的侷限性,因為賦值為0、1、2、3的前提,是假定每個分組內相鄰兩組之間的間距是相等的,但是多數情況下無法滿足這一等距的條件,因此我們需要用到第二種方法。

二、組內中位數轉換

在研究實例二中,研究人員在表格的標註中已經明確指出:Test for trend based on variable containing median value for each quintile

在Ann Inter Med期刊(影響因子:17.14)2017年8月份發表的一篇文章《Association of Coffee Consumption With Total and Cause-Specific Mortality Among Nonwhite Populations》中也提到:We performed tests for linear trend by entering the median value of each category of coffee consumption as a continuous variable in the models

即此時不再將原始的連續型變數賦值為0、1、2、3,而是用每組的中位數進行重新賦值,然後將重新賦值的變數以連續型變數的形式帶入到模型中,所求得的該變數的P值即為P for trend的檢驗結果。

通過本期內容的介紹,相信大家已經對P for trend有了一定的瞭解,如果在以後閱讀文獻的過程中再次遇到P for trend時應該就不會感到陌生了吧。是不是有種躍躍欲試的感覺,想要拿自己的數據親自操作一遍呢,還等什麼,Go ahead,Just do it!

參考文獻:

[1] Clin Nutr Res. 2015 Apr;4(2):110-23

[2] JAMA Oncol. 2017 Oct 12:e173290

[3] Am J Clin Nutr. 2015 Dec;102(6):1543-53

[4] Ann Intern Med. 2017 Aug 15;167(4):228-235

(想要及時獲得更多內容可關注「醫咖會」微信公眾號:傳播研究進展,探討臨牀研究設計與醫學統計學方法;也可查看醫咖會 - 臨牀研究設計和醫學統計交流平臺,獲取60篇統計方法的詳細SPSS教程。)


推薦閱讀:
相關文章