800名科學家反對P值一刀切

　　插圖：David Parkins

　　原作 Valentin Amrhein、Sander Greenland、Blake McShane

　　請回憶一下你上次在研討會上聽到研究人員宣稱兩組“沒有差異”，因爲其“統計學差異不顯著”是什麼時候？

　　如果你和我們經歷相似，那麼類似的話你可能已經聽過無數次，最近一次可能就是你上次出席研討會的時候。有時候明明一眼就能看出兩組圖表存在差異，但研究者卻堅持稱結果無統計學差異。這並非偶發事件，我們希望聽衆中至少有一小部分會對此感到疑惑。

　　爲何明明未曾系統接受過統計學教育的人都能一眼看出的差異，科研人員卻總是要否認呢？多年來，一直有聲音警告研究人員無顯著統計學差異並不能“證明”零假設（即兩組不存在差異或基於某個特定結果某種處理方法無效），統計學上具有顯著差異也未必能“證明”非零假設。這些錯誤概念讓文獻中充滿了誇大其詞的論斷，這一點顯而易見；而人們容易忽視的是，這些錯誤概念也會導致一些研究間的矛盾結論，而事實上這些矛盾並不存在。

　　在此，我們提出一些建議，希望可以讓科學家避免爲這些錯誤概念所累。

　　並非個例

　　首先要聲明我們反對的是什麼：我們不能僅僅因爲P值大於某個閾值（通常爲0.05），或因爲置信區間涵蓋了0，而得出“無差異”或“無關聯”的結論。我們也不能僅僅因爲一項研究結果具有統計學顯著性而另一項沒有，便判定兩項研究的結果存在衝突。這些誤解不僅會浪費研究資源，有時甚至會誤導決策。

　　舉個例子，研究抗炎藥物的副作用。因爲研究結果不具有統計學顯著性，一組研究人員宣稱這類藥物與新發房顫（最常見的心律失常）“無關”。這與先前一項研究結果矛盾，因爲之前研究的結果具有統計學顯著性。

　　讓我們具體看看兩項研究的實際數據。宣稱不具有統計學顯著性的研究組發現房顫發生的風險比爲1.2（也就是說服用抗炎藥物人羣發生房顫的風險比未服用藥物人羣高20%），95%的置信區間跨度較大，從微不足道的風險降低（-3%）到風險顯著增高（48%）（根據我們的計算，P=0.091）。而先前那項認爲研究結果具有統計學顯著性的研究組計算的風險比恰好也爲1.2，只不過其置信區間較窄，爲9%到33%（根據我們的計算，P=0.0003），研究更加準確。

　　在置信區間包含風險顯著增高的情況下，僅因爲結果不具有統計學顯著性就推論藥物與房顫發生“無關”十分可笑；據此就認爲前後兩項研究矛盾——即便風險比完全一致——同樣非常荒謬。這些常見情況表明我們依賴的統計學顯著性閾值有可能誤導我們（參見“警惕錯誤結論”）。

　　圖片來源：V. Amrheinet al.

　　類似的錯誤非常普遍。根據對數百篇文章進行的調查，超過一半的“不具有統計學顯著性”被解讀爲“無差異”或“無影響”（參見“錯誤解讀”）。

　　2016年，美國統計協會在《美國統計學家》（The American Statistician）上發表了一份聲明，警告不要濫用“統計學顯著性”和P值。當時那輯期刊中還發表了多篇關於這一主題的評論文章。3月，《美國統計學家》推出特輯，試圖進一步推動這方面的改革。特輯主題爲“21世紀的統計推斷：P

　　我們對此深表贊同，並呼籲摒棄整個“統計學顯著性”概念。

　　圖片來源：V. Amrheinet al.

　　我們並非少數。我們邀請其他人閱讀本評論文章初稿時提出，如果他們贊同我們的觀點就請簽下名字，文章發出後的24小時之內我們收到了250個簽名。一週後，這個數字超過了800。

　　所有簽名者都隸屬於學術機構或有證明表明他們過去曾或現在正在從事依賴統計建模的研究工作。他們中有統計學家、臨牀醫學研究人員、生物學家、心理學家等等；他們來自50多個國家，遍佈除南極洲以外的所有大洲。有一位支持者稱這是 “針對盲目使用統計學顯著性分析進行的一次外科手術式打擊”和一次“聲援尋求更好的科研實踐的機會”。

　　我們並不是要求完全禁用P值，也並不否定在特定應用場景下P值可以做作爲決策標準（例如評定某種製造工藝是否符合質控標準）。我們並非提倡毫無限制地得出實驗結論，薄弱證據不可能突然變得可信。和過去幾十年許多人提議的一樣，我們呼籲停止以傳統二分法方式使用P值來判定研究結果是否推翻或支持某一科學假設。

　　摒棄絕對分類

　　真正有問題的是人和人的認知而非統計學本身：將結果分爲“具有統計學顯著性”和“不具有統計學顯著性”讓人覺得兩者是完全不同的。提出的替代統計方法，但凡涉及二分法，都會出現類似的問題，不論是頻率論、貝葉斯還是其他。

　　不幸的是，超過統計學顯著性的閾值就表示結論爲“真”這一錯誤觀念讓科研人員和期刊編輯盲目追求此類結果，進而影響了所發表論文的可靠性。因爲存在偏倚，我們看到了大量具有“統計學顯著性”的結果；而不具有“統計學顯著性”的結果則被顯著低估。因此，任何基於所謂具有“統計學顯著性”結果的結論分析都可能存在偏倚。

　　除此以外，單純強調統計學顯著性會鼓勵科研人員選擇特定的數據和分析方法以便讓符合預期的結果（簡單點說，可發表的結果）具有統計學顯著性，或者讓不符合預期的結果無統計學顯著性，譬如藥物的副作用等，這樣他們就能推翻原定的假設。

　　在研究正式開展前進行登記，要求研究人員公佈所有分析結果能在很大程度上緩解上述問題。但即便實施研究前登記，研究人員仍可通過提交的分析計劃中未明確說明的方法影響研究結果。即便並非研究人員本意，也同樣會發生類似的偏倚。

　　必須再次申明，我們並不主張廢除P值、置信區間或其他統計學指標——只是我們不應該將其奉爲圭臬，其中包括“是否具有統計學顯著性”這類二分法，或根據其他統計指標（例如貝葉斯因子）進行的分類。

　　之所有要避免這種“二分法”，其中一個原因是因爲所有的統計參數，包括P值和置信區間，在不同的研究中很自然地會產生差異，這種差異有時甚至會達到出乎人意料的程度。事實上，隨機變化很容易讓P值發生很大變化，甚至發生“顯著”與“不顯著”的類別變化。

　　例如，即使研究人員可以針對一些真實存在的效果進行兩次完全相同的複製研究，每次研究達到P 0.30也並不會讓人覺得意外。因此無論P值大小，我們都需要謹慎對待。

　　我們必須學會接受不確定性。一種可行的方法是將置信區間更名爲“兼容區間”，並用合適的方法對其進行解讀，避免科研人員對其過度依賴。具體而言，我們建議作者詳細描述區間內所有值的實際含義，尤其是觀察到的總體效果（點估計值）和上下限。這樣做時，研究人員應當時刻記住，在給定用於計算區間的統計假設的情況下，區間範圍內的所有值都是與數據合理兼容的。因此，單獨挑出區間內某個特定值（例如0）進行評判是沒有意義的。

　　坦白講，我們對於在演示文稿、研究論文、綜述和教學材料中反覆看到這種荒謬的“無效”和“無關”論斷已經煩透了。覆蓋0的區間通常還包括許多具有現實意義的非0數值。如果你認爲區間內的所有值均無實際意義，那麼你或許可以說“我們的結果最明顯地表明無重要影響”。

　　談到“兼容區間”時，請記住四件事。首先，在給定假設的情況下，區間覆蓋了與研究數據最兼容的數值，並不意味着區間外的數值一定與研究數據不兼容，只是兼容性不那麼高。事實上，位於區間邊界左右的數值並無明顯差異。因此，認爲區間包括了所有可能的數值這一觀點是錯誤的。

　　其次，在給定假設的情況下，區間內數值與研究數據的兼容性並不完全相同。點估計值的兼容性最高，它附近的數值相比區間上下限附近的數值，兼容性更高。這就是爲什麼我們鼓勵研究人員討論點估計值和區間的上下限——即便P值較大、區間較寬。

　　以之前提到的抗炎藥與新發房顫的研究爲例，作者應當這樣寫：‘與以前的研究一樣，我們的研究結果表明，服用抗炎藥物的患者新發房顫的風險增加了20％。儘管如此，根據我們的假設，風險差從3%的輕度負相關（-3%）到48％的顯著正相關，也與我們的實驗數據合理兼容。“解讀點估計值時承認其不確定性，有助於避免研究人員做出“無差異”這類錯誤論斷或過度自信絕對的論斷。

　　第三，和0.05的P值閾值一樣，95%置信區間中的95%本身也是約定俗成的。其基礎觀點就存在問題，即計算出的區間有95％的可能性包含真值；並且95%這個數字讓人有一種模糊的感覺——根據這個區間可以得出可靠自信的結論。事實上根據應用場景，我們可以調整這個數字。就比如在抗炎藥物那個例子中，當“是否顯著”這一二分類方法被認作科學標準的情況下，區間估計值會進一步強化統計顯著這一概念，進而加重隨之而來的一系列問題。

　　最後一點，也是最重要的一點，要保持謙遜：兼容性評估的前提是用於計算區間的統計假設是正確的。實際上，這些假設本身也具有很大的不確定性。將所有的假設表達清楚，檢驗你能檢驗的假設，比如將數據繪製成圖、擬合可替代模型，然後報告所有結果。

　　不管統計數據如何，你都可以陳述理由支持你的結果，但要分析討論各種可能的解釋，而不僅僅是那些有利於你的。根據實驗結果進行推論時，必須遵循嚴謹的科學原則，這並不僅僅取決於統計學指標。通常情況下，既往證據、研究設計、數據質量、對背後機制的理解等因素比統計指標（如P值或置信區間）更爲重要。

　　關於淘汰統計學顯著性概念，我們最常聽到的反對意見是我們需要它來做出“是”或“否”的決定。但是對於監管、政策和商業相關決策而言，根據成本、收益以及所有潛在後果的可能性進行綜合分析，比單純依賴統計學指標好得不是一星半點。此外，在決定是否要進一步探索某一研究問題時，P值與後續研究的可能結果之間也並無關係。

　　淘汰了統計學顯著性之後的世界會是怎樣的？我們希望論文裏面的方法陳述部分和數據列表變得更加詳細。作者將把重點放在估計值上，並通過明確討論區間上下限等方法，說明估計值的不確定性。科研人員將不再依賴顯著性檢驗。如果需計算P值，也會以合理的精度呈現（例如，P = 0.021或P = 0.13）——無需再用星號或字母強調統計顯著性，也不再對P值進行二分類的劃分（P 0.05）。如何解讀結果或論文是否能夠發表不再以統計指標爲基礎。大家不再執着於研究統計軟件，便有更多時間進行創造性思考。

　　我們呼籲淘汰統計學顯著性，並將置信區間更名爲兼容區間並非一勞永逸。儘管這種方法有助於消除許多不良科學實踐，但它也會帶來新的問題。因此，科學界應當將長期監測文獻中的統計濫用現象作爲一項工作重點。但是，當原始研究和重複研究的結果高度一致的時候，摒棄絕對分類將有助於避免過於絕對的論斷、毫無根據的“無差異”結論，以及“與之前研究結果不符”的荒謬聲明。濫用統計學顯著性對科學界和依賴科學建言的部門造成了很大的危害。P值、置信區間和其他統計指標都有其存在的意義，但現在是時候把它們淘汰了。

　　更多故事，盡在領研網科研生涯頻道。

800名科學家反對P值一刀切

热门新闻

周热门

800名科學家反對P值一刀切

中美瑞德西韋試驗結果迥異掀熱議

瑞德西韋測試疑無效 藥廠反駁未有結論

港大學者預計港感染數字較確診為高

全港學校延長停課兩周

下月九日倘未復課 小六呈分將取消

梁卓偉：全港須高度戒備 倘鬆懈會增出現確診個案機會

美洲國家組織報告指 選舉電腦被大規模操縱

時間序列分析 自協方差/自相關係數/偏自相關係數

偏差與方差， 欠擬合與過擬合

10-概率分布之離散概率和連續概率

聯合概率、條件概率和邊緣概率

EM演算法的個人理解和實驗

淺析機器學習：線性回歸 & 邏輯回歸

期望和方差（expected value and variance）

【AP】點估計(Point estimation)

热门新闻

周热门

瑞德西韋測試疑無效藥廠反駁未有結論

下月九日倘未復課小六呈分將取消

梁卓偉：全港須高度戒備　倘鬆懈會增出現確診個案機會

美洲國家組織報告指選舉電腦被大規模操縱

時間序列分析自協方差/自相關係數/偏自相關係數

偏差與方差，欠擬合與過擬合