今天,你貝葉斯了嗎?
有一個定理,看上去很傻很天真的,卻在學術和生活中意外的很強大很好用。你看不見它,它卻無處不在,幾乎所有需要作出概率預測的地方,它都陰魂不散,它還是機器學習的核心方法之一,它就是貝葉斯定理。
再解釋貝葉斯定理前,先代表廣大宅男/宅女提一個問題:
我發給女神/男神的微信,只有一半會收到回復,她/他是喜歡我還是討厭我?我們有發展的可能嗎……
然後我們來慢慢解答。
貝葉斯定理的由來
話說 18 世紀 70 年代,有個一個牧師叫 Thomas Bayes,為解決一個「逆向概率」問題寫了一篇文章。嘗試解答在沒有太多可靠證據的情況下,怎樣做出更符合數學邏輯的推測。
所謂「逆向概率」是相對「正向概率」而言。正向概率的問題很容易理解,如「假設袋子裡面有 N 個白球,M 個黑球,你伸手進去摸一把,摸出黑球的概率是多大」。但是實際場景中,這個問題往往相反:「如果事先並不知道袋子裡面黑白球的比例,而是閉著眼睛摸出一些球,觀察這些取出來的球的顏色,我們可以對袋子裡面黑白球的比例作出什麼樣的推測」。
貝葉斯推斷與其他統計學推斷方法截然不同。它建立在主觀判斷的基礎上,也就是說,你可以不需要客觀證據,先估計一個值,然後根據實際結果不斷修正。
貝葉斯生前並沒有發表他的文章,他的「朋友」 Richard Price 在他死後去他的住處揩油,發現了這篇文章,並發表出來。
1812 年,法國人 Pierre Simona 將貝葉斯的理論進一步發展為條件概率,幫助人們在概率相關的決策過程中,通過新獲得的觀察結果來更正對概率的判斷。
貝葉斯定理(Bayes』 theorem)告知我們如何利用新證據修改已有的看法。在事件 B 出現的前提下,事件 A 出現的概率,等於 A 和 B 都出現的概率,除以 B 出現的概率。用公式表示就是:
幾個相關概念:
- 先驗概率:在考慮觀測數據前,能表達不確定量 p 的概率分佈
- 後驗概率:在考慮和給出相關證據或數據後所得到的條件概率
- 條件概率:事件 A 在另外一個事件 B 已經發生條件下的發生概率,表示為 P(A|B)
- 可能性函數/似然函數:一種關於統計模型中參數的函數,用於在已知某些觀測所得到的結果時,對有關事物的性質的參數進行估計
這就是貝葉斯定理的含義:我們先預估一個「先驗概率」,然後加入實驗結果,看這個實驗到底是增強還是削弱了「先驗概率」,由此得到更接近事實的「後驗概率」。
「AM I SICK?」貝葉斯定理的經典用法
假設,有一種叫做「葉貝死」的病,人羣中得病概率是萬分之一,即 0.0001。然後,有一種測試可以檢測你是否患有「葉貝死」病,準確率為 99.9%。你做了一次測試,結果被告知得病了!
然後你的世界坍塌了,把這個不幸的消息告訴家人,開始準備遺囑,甚至皈依了一個莫名其妙的宗教,好走完最後的日子……
這個時候,你的智商不知道被誰通知上線,讓我們再找回檢測報告,看看遺漏了些什麼。
逃出生天之圖解版
我們知道,每當 1 萬人中會有 1 個人患病,這也意味著另外 9999 個人沒病。
再來看看檢測的準確率。如果真正患病的人去做檢查,那麼 99.9% 的概率會被診斷出來。如果實際上沒有患病的人,會有 0.1% 的概率會被誤診斷。於是這 1 萬人中,9989 人相安無事,總共有 11 人被診斷為「葉貝死」,但只有 1 人真正患病。
所以,你雖然被告知患病,但實際上真正患病的概率是:1/11 ,約 9%。
逃出生天之公式版
把題目正經描述一下:
已知「葉貝死」的發病率是 0.0001,即 10000 人中會有1個人得病。現有一種測試可以檢驗患者是否得病,的準確率是 0.999,即在患者確實得病的情況下,它有 99.9% 的可能呈現陽性。它的誤報率是 0.1%,即在沒有得病的情況下,它有 0.1% 的可能呈現陽性。
現在張三的檢驗結果為陽性,請問他確實得病的可能性有多大?
用貝葉斯定理進行計算,步驟是這樣的:
令 S
表示患病事件,N
表示未患病事件,Y
表示檢驗結果為陽性事件。
我們想要計算的是,在檢驗結果為陽性的條件下,張三確實「葉貝死」的概率:
從題目中找到公式右邊的三個變數:
將表格中的值代入上面公式可得
結果為:9%
女/男神到底愛不愛我
正襟危坐這麼久,終於可以回到正題胡說八道了。
我發給女神/男神的微信,只有一半會收到回復,她/他是喜歡我還是討厭我?我們有發展的可能嗎……
世界上不知道有多少癡漢,每天在癡癡地等著某個微信好友頭像出現新消息提示。每發出一條消息,心中就有一羣問題如羊駝般呼嘯而過:
生活在這些問題中,實在是太可怕了。
自黑黨的癡漢們,做癡漢也要做得有極客範。用貝葉斯定理來幫助我們 YY 吧!把羊駝們哄回羊圈,沐浴齋戒,攤開紙筆,寫下通往未知和答案的神奇公式:
- P(喜歡一個人|回微信):回復微信的情況下喜歡一個人的概率
- P(回微信|喜歡一個人):喜歡一個人時會回復微信的概率
- P(喜歡一個人):女/男神喜歡一個人的概率
- P(回微信):女/男神正常情況下回復微信的概率
假設你通過八卦、潛伏、收買人心、純粹臆想等花式調研,獲得了以下情報:
那麼計算的結果是:
結論1:女神真難追啊!
結論2:少年你想多了,這概率比 P2P 的投資回報率還低,還是乖乖回家提升自己吧!
結論3:愚蠢的人類,用微信就想推斷女/男神的心?有本事約去旅行看看?
註:這部分純屬胡說八道,請勿當真!如路遇女/男神,還請勇敢壁咚
你貝葉斯了嗎?
貝葉斯定理,其實體現了一種概率觀,它利用過往信息來逐漸逼近事件發生概率,這是一種啟發式的統計學思考方式。
具有貝葉斯思維的人,並不試圖刻畫事件本身,而只是從觀察者信息補全的角度出發,先從以往經驗中總結一個大致結果,再基於這個結果判斷下次出現這類事件的概率,每次的結果會不斷修正之前的判斷,如此往複。這個過程反應的是我們知識狀態的情況,而並非試圖描述客觀世界中事件發生的概率。
人類基因裏可以給予我們的直覺只能指導我們如何覓食,躲避天敵,在危險的世界活下來。而一旦涉及到科學範疇,那些原始的直覺就不起作用了。想用更理性的思維分析周遭,就要摒棄固有的直覺,不斷通過理解與學習建立新的直覺。
今天,你貝葉斯了嗎?
推薦閱讀: