本文分兩個部分:貝葉斯是啥?樸素貝葉斯又是啥?

第一個問題,貝葉斯是啥?

貝葉斯是一個人的名字,反映了一種考慮問題的思想;

一般人的思維是先找到原因,再分析結果;

貝葉斯則相反,就是也不知道期間發生了什麼,只看到了結果,但可以通過結果來分析各種原因的可能性;

還是舉例子吧,舉例子之前先聲明了兩個符號:「P」和「|」

「P」表示一件事情發生的概率,比如下雨的概率表示成P(下雨)

「|」表示在一件事情發生的情況下,另一件事情發生的概率,比如看到下雨了,那麼出門帶傘的概率表示成P(帶傘|下雨)


假設你很醜;

但是你發現你的女神最近總是對你微笑;

而且你聽說女神最近有了心上人;

這能否說明女神愛上你的了呢?

首先進行如下四個假設:

一、因為你很醜,所以女神愛上你的概率大概只有0.01吧,表示成「P(愛上你)=0.01」;

二、假設女神愛上你,那麼女神對你笑的概率大概有0.95,表示成「P(對你笑|愛上你)=0.95」;

三、因為女生最近有了心上人,所以女神不是愛上你,就是愛上別人,所以愛上別人的概率就是1-0.01=0.99,表示成「P(愛上別人)=0.99」

四、那麼女神對你笑這件事就包含兩種可能:

1、女神愛上你

這種情況下,女神對你笑的概率=P(愛上你)*P(對你笑|愛上你)=0.01*0.95

2、女神愛上別人

假設女神在這種情況下對你笑的概率為0.01,表示成「P(對你笑|愛上別人)=0.01」

那麼,女神對你笑的概率= P(愛上別人)*P(對你笑|愛上別人)=0.99*0.01

將這兩種情況加起來,所以女神對你笑的概率表示成:

P(對你笑)=

P(愛上你)*P(對你笑|愛上你)+ P(愛上別人)*P(對你笑|愛上別人)=0.01*0.95+0.99*0.01

貝葉斯老爺子認為,在女神對你笑的情況下,女神愛上你的概率為:

P(愛上你|對你笑)= P(愛上你)*P(對你笑|愛上你)/ P(對你笑)

=0.01*0.95/(0.01*0.95+0.99*0.01)=0.4897

看起來還不錯,愛上你的概率從原來的0.01上升到0.4897,但可能性還是不到一半,說明兄弟先不要高興的太早,還要繼續觀察才是。

第二個問題,啥叫「樸素貝葉斯」?

就是很傻很天真的貝葉斯!怎麼理解呢?繼續舉例子

為了進一步確認女神喜歡的類型,你列舉了9個明星的名字讓女神確認喜歡哪些人,你再分析這9明星的特徵,抽取出兩個屬性(長相和才華)填寫到如下表格中:

假設你是<長相丑,才華高>的類型,因為編號2、3都是<長相丑,才華高>,但結果有喜歡和不喜歡,直接看錶格似乎看不出來結論;

那就利用我們剛學的貝葉斯公式,我們得知:

1、女神喜歡你的概率是:

P(喜歡|長相丑,才華高)=P(喜歡)*P(長相丑,才華高|喜歡)/P(長相丑,才華高)

2、女神不喜歡你的概率:

P(不喜歡|長相丑,才華高)=P(不喜歡)*P(長相丑,才華高|不喜歡)/P(長相丑,才華高)

所以判斷哪女神喜歡還是不喜歡你的哪一種可能性更大一些,就是判斷上面兩個等式右邊哪個更大一些;

又因為等式右邊的分母部分都一樣,所以最終就是判斷:

P(喜歡)*P(長相丑,才華高|喜歡)和P(不喜歡)*P(長相丑,才華高|不喜歡)哪個更大一些;

問題就出在P(長相丑,才華高|喜歡)怎麼計算?因為此時「喜歡」前面不是一個屬性,而是兩個屬性;

樸素貝葉斯做了一個假設:

P(長相丑,才華高|喜歡)= P(長相丑|喜歡)*P(才華高|喜歡)

這種假設其實是不對的,因為這個等式成立的前提是「長相丑」和「才華高」是沒有任何關係的,實際上還是有一些關係的,比如「人丑就要多讀書嘛」;

但是這個假設大大方便了我們的計算量,而且實際使用中效果也還不錯,所以基於這個假設命名為樸素貝葉斯(其實我覺得應該叫偷懶貝葉斯)

下面我就可以大大方方的計算了

首先根據表格得出:

P(喜歡)=3/9,P(不喜歡)=6/9,P(才華低|喜歡)=0,P(才華高|喜歡)=3/3,

P(長相丑|喜歡)=1/3,P(長相普通|喜歡)=1/3, P(長相帥|喜歡)=1/3,

P(才華低|不喜歡)=5/6,P(才華高|不喜歡)=1/6,P(長相丑|喜歡)=2/6,

P(長相普通|喜歡)= 2/6,P(長相帥|喜歡)= 2/6,

最後,計算女神垂青的概率:

1、P(喜歡)*P(長相丑,才華高|喜歡) =

P(喜歡)*P(長相丑|喜歡)P(才華高|喜歡)=3/9*1/3*3/3=1/9

2、P(不喜歡)*P(長相丑,才華高|不喜歡) =

P(不喜歡)*P(長相丑|不喜歡)P(才華高|不喜歡)=6/9*2/6*1/6=1/27

因為1/9>1/27,所以恭喜你,更接近女神一步了

樸素貝葉斯是一種很強硬的假設(本來藕斷絲連的關係硬生生隔斷),所以用在文本分析的應用領域比較多;貝葉斯分析則是機器學習很重要的一個分支,尤其要體會其「由果溯因」的思想

推薦閱讀:

相关文章