貝葉斯定理

貝葉斯(Thomas Bayes, 1701—1761)是英國人,主要職業是牧師,業餘愛好才是數學。他為了證明上帝的存在,發明了概率統計學原理,雖然他的這一美好願望至死也未能實現,卻為統計學的發展做出了巨大的貢獻。

維基百科中對貝葉斯定理來源的描述:所謂的貝葉斯方法源於他生前為解決一個「逆概」問題寫的一篇文章,而這篇文章是在他死後才由他的一位朋友發表出來的。在貝葉斯寫這篇文章之前,人們已經能夠計算「正向概率」,如「假設袋子裡面有N個白球,M個黑球,你伸手進去摸一把,摸出黑球的概率是多大」。而一個自然而然的問題是反過來:」如果我們事先並不知道袋子裡面黑白球的比例,而是閉著眼睛摸出一個(或好幾個)球,觀察這些取出來的球的顏色之後,那麼我們可以就此對袋子裡面的黑白球的比例作出什麼樣的推測」。這個問題,就是所謂的逆概問題。

通俗解釋貝葉斯定理:在運用概率對某一事件進行推斷之前,我們往往已經事先掌握了關於這一事件的概率,這個概率可能是主觀概率或者相對概率,這種初始的概率可以稱為先驗概率。如果在後續的研究中,通過抽樣調查樣本等消息源又獲得了有關該事件的信息,我們就可以根據這些新信息對先驗概率進行修正,使先驗概率變為後驗概率。這個修正概率的定理就稱為貝葉斯定理。

貝葉斯定理是用來描述兩個條件概率之間關係的定理,比如P(A|B)和P(B|A),通常,事件A在事件B發生的條件下的概率{P(A|B)}與事件B在事件A的條件下的概率{P(B|A)}是不一樣的,但是這兩者之間有確定的關係,貝葉斯法則就是這種關係的陳述,

按照乘法法則:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),可以立刻導出P(B|A)=P(A|B)*P(B)/P(A)

貝葉斯法則公式如下:

在貝葉斯法則中,每個名詞都有約定俗成的名稱:P(A)是A的先驗概率或邊緣概率。稱為"先驗"是因為它不考慮任何B方面的因素。P(A|B)是已知B發生後A的條件概率,也由於得自B的取值而被稱作A的後驗概率。P(B)是B的先驗概率或邊緣概率。稱為"先驗"是因為它不考慮任何A方面的因素。P(B|A)是已知A發生後B的條件概率,也由於得自A的取值而被稱作B的後驗概率。貝葉斯定理應用概述:

貝葉斯推斷與其他統計學推斷方法截然不同,它建立在主觀判斷的基礎上,在不完全情報下,也就是說,你可以不需要客觀證據,先估計一個主觀概率對部分未知的狀態進行描述,然後根據實際結果不斷修正,最後再利用期望值和修正概率做出最優決策。

貝葉斯定理應用舉例:吸毒者檢測假設一個對吸毒者的常規檢測結果的敏感度與可靠度均為99%,也就是說,當被檢者吸毒時,每次檢測呈陽性(+)的概率為99%。而被檢者不吸毒時,每次檢測呈陰性(-)的概率為99%。從檢測結果的概率來看,檢測結果是比較準確的,但是貝葉斯定理卻可以揭示一個潛在的問題。假設某公司將對其全體僱員進行一次鴉片吸食情況的檢測,已知0.5%的僱員吸毒。我們想知道,每位檢測呈陽性的僱員,他吸毒的概率有多高?令"A"為僱員吸毒事件,"C"為僱員不吸毒事件,"B"為檢測呈陽性事件。則:P(A)代表僱員吸毒的概率,不考慮其他情況,該值為0.5%。(因為公司預先統計表明該公司的僱員中有0.5%的人吸毒,所以這個值就是A的先驗概率)P(C)代表僱員不吸毒的概率,顯然,該值為99.5%,也就是1-P(A)。P(B|A)代表吸毒者陽性檢出率,這是一個條件概率,由於陽性檢測準確性是99%,因此該值為99%。P(B|C)代表不吸毒者陽性檢出率,也就是出錯檢測的概率,該值為1%,因為不吸毒者其檢測為陰性的概率為99%,因此,其被誤檢測成陽性的概率為1-99%。P(B)代表不考慮其他因素影響的陽性檢出率。P(B) = 吸毒者陽性檢出率(0.5%x99% = 0.495%)+ 不吸毒者陽性檢出率(99.5%x1% = 0.995%)= 1.49%,這是檢測呈陽性的先驗概率。用數學公式描述為:P(B)=P(A)P(B|A) + P(C)P(B|C)。

根據上述描述,我們要計算的是某位員工檢測呈陽性時,這名員工也確實吸毒的條件概率P(A|B)。

從計算結果來看,儘管我們的檢測結果可靠性很高,但是只能得出如下結論:如果某人檢測呈陽性,那麼此人是吸毒的概率只有大約33%,也就是說此人不吸毒的可能性比較大。我們測試的條件(本例中指A,即僱員吸毒)越難發生,發生誤判的可能性越大。

詳解個例子讓大家更好理解:

有一種疾病的發病率是千分之一,醫院有一種化驗技術可以對這種疾病進行診斷,但是有百分之五的誤診率(也即是說儘管有百分之五的人沒有病,但是化驗結果卻顯示為陽性(即假陽性))。現在假設一個人的化驗結果顯示為有病,僅根據這一化驗結果推測,那麼這個人確實患病的概率有多大?這個問題的分析過程如下:先驗概率:P(患病)=0.001P(正常)=0.999

條件概率(新信息):

P(準確率)=1.00;準確率(患病者100%被檢出)。P(誤診率)=0.05;誤診率(正常人有5%被誤檢)。根據上面的數據,我們就能夠推測出一個人化驗為陽性的情況下,這個人確實患病的概率(後驗概率)為:P(患病|陽性)=P(患病)×P(準確率)/[(P(患病)×P(準確率)+P(正常)×P(誤診率)]=0.001×1.00/(0.001×1.00+0.999×0.05)=0.0198 =2%結果讓你大吃一驚吧,在沒有其他癥狀增加患病概率的情況下,單憑化驗結果顯示為陽性來推測的話,其真實患病的概率還不到2%。所以對於年度常規體檢出現的問題,應該進行複檢。

推薦閱讀:

相关文章