有一個定理,看上去很傻很天真的,卻在學術和生活中意外的很強大很好用。你看不見它,它卻無處不在,幾乎所有需要作出概率預測的地方,它都陰魂不散,它還是機器學習的核心方法之一,它就是貝葉斯定理。

再解釋貝葉斯定理前,先代表廣大宅男/宅女提一個問題:

我發給女神/男神的微信,只有一半會收到回復,她/他是喜歡我還是討厭我?我們有發展的可能嗎……

然後我們來慢慢解答。

貝葉斯定理的由來

話說 18 世紀 70 年代,有個一個牧師叫 Thomas Bayes,為解決一個「逆向概率」問題寫了一篇文章。嘗試解答在沒有太多可靠證據的情況下,怎樣做出更符合數學邏輯的推測。

所謂「逆向概率」是相對「正向概率」而言。正向概率的問題很容易理解,如「假設袋子裡面有 N 個白球,M 個黑球,你伸手進去摸一把,摸出黑球的概率是多大」。但是實際場景中,這個問題往往相反:「如果事先並不知道袋子裡面黑白球的比例,而是閉著眼睛摸出一些球,觀察這些取出來的球的顏色,我們可以對袋子裡面黑白球的比例作出什麼樣的推測」。

貝葉斯推斷與其他統計學推斷方法截然不同。它建立在主觀判斷的基礎上,也就是說,你可以不需要客觀證據,先估計一個值,然後根據實際結果不斷修正

貝葉斯生前並沒有發表他的文章,他的「朋友」 Richard Price 在他死後去他的住處揩油,發現了這篇文章,並發表出來。

1812 年,法國人 Pierre Simona 將貝葉斯的理論進一步發展為條件概率,幫助人們在概率相關的決策過程中,通過新獲得的觀察結果來更正對概率的判斷

貝葉斯定理(Bayes』 theorem)告知我們如何利用新證據修改已有的看法。在事件 B 出現的前提下,事件 A 出現的概率,等於 A 和 B 都出現的概率,除以 B 出現的概率。用公式表示就是:

幾個相關概念:

  • 先驗概率:在考慮觀測數據前,能表達不確定量 p 的概率分佈
  • 後驗概率:在考慮和給出相關證據或數據後所得到的條件概率
  • 條件概率:事件 A 在另外一個事件 B 已經發生條件下的發生概率,表示為 P(A|B)
  • 可能性函數/似然函數:一種關於統計模型中參數的函數,用於在已知某些觀測所得到的結果時,對有關事物的性質的參數進行估計

這就是貝葉斯定理的含義:我們先預估一個「先驗概率」,然後加入實驗結果,看這個實驗到底是增強還是削弱了「先驗概率」,由此得到更接近事實的「後驗概率」。

「AM I SICK?」貝葉斯定理的經典用法

假設,有一種叫做「葉貝死」的病,人羣中得病概率是萬分之一,即 0.0001。然後,有一種測試可以檢測你是否患有「葉貝死」病,準確率為 99.9%。你做了一次測試,結果被告知得病了!

然後你的世界坍塌了,把這個不幸的消息告訴家人,開始準備遺囑,甚至皈依了一個莫名其妙的宗教,好走完最後的日子……

這個時候,你的智商不知道被誰通知上線,讓我們再找回檢測報告,看看遺漏了些什麼。

逃出生天之圖解版

我們知道,每當 1 萬人中會有 1 個人患病,這也意味著另外 9999 個人沒病。

再來看看檢測的準確率。如果真正患病的人去做檢查,那麼 99.9% 的概率會被診斷出來。如果實際上沒有患病的人,會有 0.1% 的概率會被誤診斷。於是這 1 萬人中,9989 人相安無事,總共有 11 人被診斷為「葉貝死」,但只有 1 人真正患病。

所以,你雖然被告知患病,但實際上真正患病的概率是:1/11 ,約 9%。

逃出生天之公式版

把題目正經描述一下:

已知「葉貝死」的發病率是 0.0001,即 10000 人中會有1個人得病。現有一種測試可以檢驗患者是否得病,的準確率是 0.999,即在患者確實得病的情況下,它有 99.9% 的可能呈現陽性。它的誤報率是 0.1%,即在沒有得病的情況下,它有 0.1% 的可能呈現陽性。

現在張三的檢驗結果為陽性,請問他確實得病的可能性有多大?

用貝葉斯定理進行計算,步驟是這樣的:

S 表示患病事件,N表示未患病事件,Y表示檢驗結果為陽性事件。

我們想要計算的是,在檢驗結果為陽性的條件下,張三確實「葉貝死」的概率:

從題目中找到公式右邊的三個變數:

將表格中的值代入上面公式可得

結果為:9%

女/男神到底愛不愛我

正襟危坐這麼久,終於可以回到正題胡說八道了。

我發給女神/男神的微信,只有一半會收到回復,她/他是喜歡我還是討厭我?我們有發展的可能嗎……

世界上不知道有多少癡漢,每天在癡癡地等著某個微信好友頭像出現新消息提示。每發出一條消息,心中就有一羣問題如羊駝般呼嘯而過:

生活在這些問題中,實在是太可怕了。

自黑黨的癡漢們,做癡漢也要做得有極客範。用貝葉斯定理來幫助我們 YY 吧!把羊駝們哄回羊圈,沐浴齋戒,攤開紙筆,寫下通往未知和答案的神奇公式:

  • P(喜歡一個人|回微信):回復微信的情況下喜歡一個人的概率
  • P(回微信|喜歡一個人):喜歡一個人時會回復微信的概率
  • P(喜歡一個人):女/男神喜歡一個人的概率
  • P(回微信):女/男神正常情況下回復微信的概率

假設你通過八卦、潛伏、收買人心、純粹臆想等花式調研,獲得了以下情報:

那麼計算的結果是:

結論1:女神真難追啊!

結論2:少年你想多了,這概率比 P2P 的投資回報率還低,還是乖乖回家提升自己吧!

結論3:愚蠢的人類,用微信就想推斷女/男神的心?有本事約去旅行看看?

註:這部分純屬胡說八道,請勿當真!如路遇女/男神,還請勇敢壁咚

你貝葉斯了嗎?

貝葉斯定理,其實體現了一種概率觀,它利用過往信息來逐漸逼近事件發生概率,這是一種啟發式的統計學思考方式。

具有貝葉斯思維的人,並不試圖刻畫事件本身,而只是從觀察者信息補全的角度出發,先從以往經驗中總結一個大致結果,再基於這個結果判斷下次出現這類事件的概率,每次的結果會不斷修正之前的判斷,如此往複。這個過程反應的是我們知識狀態的情況,而並非試圖描述客觀世界中事件發生的概率。

人類基因裏可以給予我們的直覺只能指導我們如何覓食,躲避天敵,在危險的世界活下來。而一旦涉及到科學範疇,那些原始的直覺就不起作用了。想用更理性的思維分析周遭,就要摒棄固有的直覺,不斷通過理解與學習建立新的直覺。

今天,你貝葉斯了嗎?

推薦閱讀:

相關文章