這次為大家帶來的是我們專欄基礎系列的文章,主要內容是介紹先驗概率和後驗概率。這是概率論與數理統計中的知識,也是機器學習領域的基礎知識。即使是深度學習飛速發展的今天,概率理論以及貝葉斯方法也應該得到足夠的重視,在後續我們介紹變分自編碼器(VAE)的時候大家可以體會到其實神經網路並不是那麼「黑」,很多網路都是有漂亮並且紮實的理論基礎的,尤其是概率統計基礎。

一、全概率公式&貝葉斯公式

在介紹先驗、後驗概率之前我們先來複習一下全概率公式和貝葉斯公式

全概率公式:設事件 B_{1},B_{2},...B_{n} 構成一個完備事件組,即它們兩兩不相容,和為全集且 P(B_{i})>0 ,則對任一事件 A 有:

P(A)=Sigma_{i=1}^{n}P(B_{i})P(A|B_{i})

可以看出,全概率公式是「由因推果」的思想,當知道某件事的原因後,推斷由某個原因導致這件事發生的概率為多少。

貝葉斯公式:符號定義與全概率公式相同,則:

P(B_{i}|A)=frac{P(B_{i})P(A|B_{i})}{P(A)} =frac{P(B_{i})P(A|B_{i})}{Sigma_{i=1}^{n}P(B_{i})P(A|B_{i})}

可以看出,貝葉斯公式是「由果溯因」的思想,當知道某件事的結果後,由結果推斷這件事是由各個原因導致的概率為多少。

二、先驗概率&後驗概率

先驗概率(prior probability):指根據以往經驗和分析。在實驗或採樣前就可以得到的概率。

後驗概率(posterior probability):指某件事已經發生,想要計算這件事發生的原因是由某個因素引起的概率。

可以看出,先驗概率就是事先可估計的概率分布,而後驗概率類似貝葉斯公式「由果溯因」的思想。下面我們通過PRML(Pattern Recognition and Machine Learning)這本書中的例子來理解一下上面的定義。

假設我們現在有兩個盒子,分別為紅色和藍色。在紅色盒子中放著2個蘋果和6個橙子,在藍色盒子中放著1個橙子和3個蘋果,如下圖所示:

圖中綠色表示蘋果,橙色代表橙子。假設我們每次實驗的時候會隨機從某個盒子里挑出一個水果,隨機變數B(box)表示挑出的是哪個盒子,並且P(B=blue) = 0.6(藍色盒子被選中的概率),P(B=red) = 0.4(紅色盒子被選中的概率)。隨機變數F(fruit)表示挑中的是哪種水果,F的取值為"a (apple)"和"o (orange)"。

現在假設我們已經得知某次實驗中挑出的水果是orange,那麼這個orange是從紅色盒子里挑出的概率是多大呢?依據貝葉斯公式有:

P(B=red|F=o)=frac{P(F=o|B=red)P(B=red)}{P(F=o)}=frac{3}{4}	imesfrac{4}{10}	imesfrac{20}{9}=frac{2}{3}

同時,由概率的加法規則我們可以得到:

P(B=blue|F=o)=1-frac{2}{3}=frac{1}{3}

在上面的計算過程中,我們將 P(B=red) 或者說 P(B) 稱為先驗概率(prior probability),因為我們在得到F是「a」或者「o」之前,就可以得到 P(B) 。同理,將 P(B=red|F=o)P(B=blue|F=o) 稱為後驗概率,因為我們在完整的一次實驗之後也就是得到了F的具體取值之後才能得到這個概率。

三、總結

本次的文章很簡短,只介紹了先驗概率和後驗概率,希望我們在這裡將這個小知識點講清楚了,也希望大家在以後遇到這兩個名詞時如果產生了混淆可以通過回憶這個簡單的例子來弄清楚。後面我們在介紹生成模型和判別模型的區別以及其他基於貝葉斯思想的演算法時還會再使用這個知識點。

如果本文有任何原理或編輯上的錯誤希望大家不吝告知,謝謝。

——Double_D編輯


推薦閱讀:
查看原文 >>
相关文章