來源丨超級數學建模(ID:supermodeling)

近日,最新一期《Nature》雜誌發表了三位統計學家的一封公開信,他們號召科學家放棄追求“統計學意義”,並且停止用統計學中常見的P值作爲判斷標準。

這三位統計學家是分別是瑞士巴塞爾大學的動物學教授Valentin Amrhein,加州大學洛杉磯分校的流行病學的統計學教授Sander Greenland,伊利諾伊州埃文斯頓西北大學的統計學方法學家和營銷學教授Blake McShane。

從左到右依次爲:Valentin Amrhein,Blake McShane,Sander Greenland

這篇公開信名爲《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。

正如標題所言這三位號召科學家放棄追求“統計學意義”,並且停止用統計學中常見的P值作爲判斷標準。

p值是指在一個概率模型中,統計摘要(如兩組樣本均值差)與實際觀測數據相同,或甚至更大這一事件發生的概率。

換言之,是檢驗假設零假設成立或表現更嚴重的可能性。p值若與選定顯著性水平(0.05或0.01)相比更小,則零假設會被否定而不可接受。

然而這並不直接表明原假設正確。p值是一個服從正態分佈的隨機變量,在實際使用中因樣本等各種因素存在不確定性。產生的結果可能會帶來爭議。

一般認爲P≤0.05或者P≤0.01就有顯着性差異,研究就有統計意義。

三位統計學家寫完公開信的草稿之後,還邀請了其他人閱讀,並表示如果人們同意三人的觀點,就簽上自己的名字。

意想不到的是,這篇文章得到了許多人的贊同。在最初的24小時內,就有250人簽了名。

一星期後,共收到800多份簽名,簽名者包括來自50多個國家的統計學家、臨牀和醫學研究人員、生物學家和心理學家,除南極洲沒人以外,所有大洲都有人簽名。

一名倡導者稱,這是“對統計意義輕率測試的外科手術式打擊”,也是“一個爲更好的科學實踐發聲的機會”

難道大學裏好不容易聽懂的統計學,會變成一件沒“意義”的事情嗎?

爲什麼要放棄統計學意義的概念?

幾代人以來,研究人員一直被警告說:統計上不顯着的結果並不能“證明”零假設(即假設各組之間沒有差異,或者某個處理方法對某些測量結果沒有影響)。

因爲統計上,顯着的結果也不能“證明”其他一些假設,觀點容易扭曲了文獻,導致了一些研究之間的衝突。

所以,三位統計學家提出一些建議,讓科學家們不至於成爲這些誤解的犧牲品。

讓我們清楚什麼是必須停止的:我們永遠不應該僅僅因爲P值大於閾值(如0.05)就得出“沒有差異”或“沒有關聯”的結論,或者同樣地,因爲置信區間包含0。

我們也不應該得出這樣的結論:兩項研究存在衝突,因爲其中一項研究的結果具有統計學意義,而另一項則沒有。這些錯誤浪費了研究工作,誤導了政策決策。

例如,在一系列研究消炎藥的服用效果的研究中,因爲這些研究的結果沒有呈現統計的顯著性,一些研究人員就下結論說,服用這些藥物與新發的心房顫動最常見的干擾心跳頻率的症狀)沒有關聯,同時這一結果與那些早期呈現統計顯著的研究相悖。

現在,讓我們看看實際的數據。研究人員描述了他們的統計不顯着的結果,發現風險比爲1.2。

他們還發現95%的置信區間跨越了從微不足道的風險降低3%到非常顯着的風險增加48%(P = 0.091)。研究人員從較早的具有統計學意義的研究中發現,風險比同樣爲1.2。這項研究更加精確,其風險區間在9%到33%之間(P = 0.0003)。

當區間估計包含嚴重的風險增加時,得出結論認爲統計上不顯着的結果顯示“無關聯”是荒謬的;同樣荒謬的是,聲稱這些結果與先前研究中顯示相同觀察效果的結果相反。然而,這些常見的實踐表明,依賴統計意義上的閾值會誤導我們。

這些錯誤以及類似的錯誤普遍存在。對數百篇文章的調查發現,統計上不顯着的結果被解釋爲“沒有差異”或“沒有影響”的約有一半。

2016年,美國統計協會在《美國統計學家》上發表聲明,警告誤用統計意義和P值。

本月,《美國統計學家》雜誌又發表了40多篇關於“21世紀的統計推斷:一個沒有P

編輯們在介紹這期特刊的時候謹慎地說,“不要說’統計意義重大“

是否真的封殺p值

三位統計學家也強調,他們不是在呼籲禁止P值。

不是說P值不能在某些特定的應用程序中用作決策標準,而是他們與過去幾十年的許多其他研究結果一樣,呼籲停止以傳統的二分法使用P值——來決定結果是反駁還是支持一項科學假設。

避免這種“二分法”的一個原因是,所有的統計數據,包括P值和置信區間,都會隨着研究的不同而自然地發生變化,並且往往變化非常大。事實上,單憑隨機變化就能很容易導致P值的巨大差異,遠遠不止落在0.05閾值的任何一側。

例如,即使研究人員可以對一些真實的效果進行兩次完美的複製研究,每次都有80%的機會達到P 0.30也就不足爲奇了。無論P值是大是小,都需要謹慎。

問題不在於統計,而在於人和認知:把結果分成“統計顯着性”和“統計非顯着性”,讓人們認爲以這種方式分配的項目是截然不同的。同樣的問題也可能出現在任何涉及二分法的統計替代方法中,無論是頻域法、貝葉斯法還是其他方法。

不幸的是,科學家和期刊編輯們錯誤地認爲,超過統計意義的臨界值就足以證明一個結果是“真實的”,這導致他們對這類結果給予了特權,從而扭曲了文獻。

統計上有意義的估計值在大小上向上偏倚,而且可能偏差的幅度很大,而統計上不顯着的估計值是向下偏倚的。

因此,任何側重於統計學意義的估計的討論都是有偏見的。

最重要的是,對統計意義的嚴格關注鼓勵研究人員選擇一些數據和方法,這些數據和方法對於某些期望的結果具有統計顯着性(或者僅僅是可發表的),或者對於不期望的結果沒有統計顯着性,例如藥物的潛在副作用,從而使結論無效。

預先登記研究和承諾公佈所有分析的所有結果可以大大減輕這些問題。

然而,即使是預先登記的研究結果也可能因分析計劃中始終未作決定而產生偏差。即使是出於好意,這也會發生。

如果真的放棄統計學意義,我們怎麼辦

2014年,Nature的一篇文章中,就討論了P值並不像許多科學家所假設的那樣可靠。

當時文章引起了業界很大反響,由此引發了後來美國統計協會在2016年警告濫用統計意義和P值。

如果研究人員確實放棄了統計學意義,他們應該做些什麼呢?

三位統計學家認爲:我們必須學會接受不確定性。

一種實用的方法是將置信區間重新命名爲“兼容區間”(compatibility intervals),並以避免過度自信的方式解釋它們。

具體地說,建議作者描述區間內所有值的實際含義,特別是觀察到的效果和極限。

在這樣做時,他們應該記住,考慮到用來計算區間的統計假設,區間極限之間的所有值都與數據合理地兼容。

因此,在區間中挑出一個特定的值(例如null值)沒有任何意義。

而且當談到兼容間隔時,請記住四件事:

首先,給定假設的條件下,僅僅因爲區間給出了與數據最相容的值是不恰當的,因爲這並不意味着它之外的值是不相容的;其他值只是兼容性較差。

實際上,區間之外的值與區間內的值沒有實質性差異。因此聲稱區間顯示了所有可能的值是錯誤的。

其次,根據假設,並非所有內部值都與數據同等兼容。點估計是最兼容的,其附近的值比接近上下限的值更兼容。

這就是爲什麼我們敦促作者討論點估計,即使它們具有較大的P值或較寬的區間,以及討論該區間的上下限。

例如,上述作者可能寫道:與以前的研究一樣,我們的研究結果表明,給予抗炎藥物的患者新發房顫的風險增加了20%。儘管如此,根據我們的假設,風險差異從3%增加20%和從48%增加20%,影響顯然是不一樣的,也與我們的數據合理地相容。解釋點估計,同時承認其不確定性 ,將阻止你做出“無差異”的虛假結論,並避免過度自信的論斷。

第三,與它來自的0.05閾值一樣,用於計算區間的默認95%本身就是一種任意約定。

計算的區間本身有95%的可能性包含真值是錯誤的,再加上模糊的感覺,這是一個置信區間決定的基礎。

根據應用,可以證明不同的置信水平是合理的。並且,如在抗炎藥物實例中,當它們施加的二分法被視爲科學標準時,區間估計可以使統計顯着性的問題永久存在。

最後,也是最重要的一點,保持謙虛:兼容性評估取決於用於計算區間的統計假設的正確性。

實際上,這些假設充其量只有很大的不確定性。儘可能清楚地做出這些假設並測試你可以做的假設,例如繪製數據並擬合替代模型,然後報告所有結果。

同時,三位統計學家呼籲消除統計意義,並將置信區間作爲兼容性區間,這並不是萬靈藥。

儘管它將消除許多不好的實踐,但它很可能引入新的問題。因此,監測文獻中的統計濫用應該是科學界目前的一項優先事項。

但是,當原始研究和複製研究的結果高度一致時,消除分類將有助於阻止過分自信的斷言、“沒有區別”的不合理聲明和關於“複製失敗”的荒謬聲明。

濫用統計意義對科學界和那些依賴科學建議的人造成了很大的危害。P值、區間和其他統計度量都有它們的位置,但現在是統計意義消失的時候了。

這也並不意味着大學的統計學白上了。研究人員可以從教育自己對統計的誤解開始,最重要的是在每項研究中從多個角度考慮不確定性。

從邏輯、背景知識和實驗設計應與P值和類似指標一起考慮,以得出結論並確定其確定性。

持懷疑態度,選擇一個好問題,並嘗試以多種方式回答它。畢竟,接近事實需要很多數字。

《環球科學》2019年4月刊現已上市

相关文章