贝叶斯定理

贝叶斯(Thomas Bayes, 1701—1761)是英国人,主要职业是牧师,业余爱好才是数学。他为了证明上帝的存在,发明了概率统计学原理,虽然他的这一美好愿望至死也未能实现,却为统计学的发展做出了巨大的贡献。

维基百科中对贝叶斯定理来源的描述:所谓的贝叶斯方法源于他生前为解决一个「逆概」问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算「正向概率」,如「假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大」。而一个自然而然的问题是反过来:」如果我们事先并不知道袋子里面黑白球的比例,而是闭著眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测」。这个问题,就是所谓的逆概问题。

通俗解释贝叶斯定理:在运用概率对某一事件进行推断之前,我们往往已经事先掌握了关于这一事件的概率,这个概率可能是主观概率或者相对概率,这种初始的概率可以称为先验概率。如果在后续的研究中,通过抽样调查样本等消息源又获得了有关该事件的信息,我们就可以根据这些新信息对先验概率进行修正,使先验概率变为后验概率。这个修正概率的定理就称为贝叶斯定理。

贝叶斯定理是用来描述两个条件概率之间关系的定理,比如P(A|B)和P(B|A),通常,事件A在事件B发生的条件下的概率{P(A|B)}与事件B在事件A的条件下的概率{P(B|A)}是不一样的,但是这两者之间有确定的关系,贝叶斯法则就是这种关系的陈述,

按照乘法法则:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),可以立刻导出P(B|A)=P(A|B)*P(B)/P(A)

贝叶斯法则公式如下:

在贝叶斯法则中,每个名词都有约定俗成的名称:P(A)是A的先验概率或边缘概率。称为"先验"是因为它不考虑任何B方面的因素。P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。P(B)是B的先验概率或边缘概率。称为"先验"是因为它不考虑任何A方面的因素。P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。贝叶斯定理应用概述:

贝叶斯推断与其他统计学推断方法截然不同,它建立在主观判断的基础上,在不完全情报下,也就是说,你可以不需要客观证据,先估计一个主观概率对部分未知的状态进行描述,然后根据实际结果不断修正,最后再利用期望值和修正概率做出最优决策。

贝叶斯定理应用举例:吸毒者检测假设一个对吸毒者的常规检测结果的敏感度与可靠度均为99%,也就是说,当被检者吸毒时,每次检测呈阳性(+)的概率为99%。而被检者不吸毒时,每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理却可以揭示一个潜在的问题。假设某公司将对其全体雇员进行一次鸦片吸食情况的检测,已知0.5%的雇员吸毒。我们想知道,每位检测呈阳性的雇员,他吸毒的概率有多高?令"A"为雇员吸毒事件,"C"为雇员不吸毒事件,"B"为检测呈阳性事件。则:P(A)代表雇员吸毒的概率,不考虑其他情况,该值为0.5%。(因为公司预先统计表明该公司的雇员中有0.5%的人吸毒,所以这个值就是A的先验概率)P(C)代表雇员不吸毒的概率,显然,该值为99.5%,也就是1-P(A)。P(B|A)代表吸毒者阳性检出率,这是一个条件概率,由于阳性检测准确性是99%,因此该值为99%。P(B|C)代表不吸毒者阳性检出率,也就是出错检测的概率,该值为1%,因为不吸毒者其检测为阴性的概率为99%,因此,其被误检测成阳性的概率为1-99%。P(B)代表不考虑其他因素影响的阳性检出率。P(B) = 吸毒者阳性检出率(0.5%x99% = 0.495%)+ 不吸毒者阳性检出率(99.5%x1% = 0.995%)= 1.49%,这是检测呈阳性的先验概率。用数学公式描述为:P(B)=P(A)P(B|A) + P(C)P(B|C)。

根据上述描述,我们要计算的是某位员工检测呈阳性时,这名员工也确实吸毒的条件概率P(A|B)。

从计算结果来看,尽管我们的检测结果可靠性很高,但是只能得出如下结论:如果某人检测呈阳性,那么此人是吸毒的概率只有大约33%,也就是说此人不吸毒的可能性比较大。我们测试的条件(本例中指A,即雇员吸毒)越难发生,发生误判的可能性越大。

详解个例子让大家更好理解:

有一种疾病的发病率是千分之一,医院有一种化验技术可以对这种疾病进行诊断,但是有百分之五的误诊率(也即是说尽管有百分之五的人没有病,但是化验结果却显示为阳性(即假阳性))。现在假设一个人的化验结果显示为有病,仅根据这一化验结果推测,那么这个人确实患病的概率有多大?这个问题的分析过程如下:先验概率:P(患病)=0.001P(正常)=0.999

条件概率(新信息):

P(准确率)=1.00;准确率(患病者100%被检出)。P(误诊率)=0.05;误诊率(正常人有5%被误检)。根据上面的数据,我们就能够推测出一个人化验为阳性的情况下,这个人确实患病的概率(后验概率)为:P(患病|阳性)=P(患病)×P(准确率)/[(P(患病)×P(准确率)+P(正常)×P(误诊率)]=0.001×1.00/(0.001×1.00+0.999×0.05)=0.0198 =2%结果让你大吃一惊吧,在没有其他症状增加患病概率的情况下,单凭化验结果显示为阳性来推测的话,其真实患病的概率还不到2%。所以对于年度常规体检出现的问题,应该进行复检。

推荐阅读:

相关文章