這個問題摘自《隨機漫步的傻瓜》一書,本人並未受過系統的統計學計算,知識水平停留在高中數學階段,實在是不得其解,望解答。

書中有這樣一個例子:一種疾病,全國人口罹患它的概率為千分之一,但是在檢驗這種疾病時會有百分之五的概率產生誤報,現在隨機檢測一羣人之後,發現有個病患的檢測結果呈現陽性,那麼這位病患染上這種疾病的概率有多少?書中作者解體思路:假設有一千人被檢測,那麼預料將有一位罹患這種疾病。剩下999位健康的人當中,根據百分之五的誤報率,將有將近50人被檢測出陽性,那麼答案是,被隨機檢測的人當中,檢測呈現陽性的且確實染病的概率為1/51,將近2%。

我的思路是:首先考慮可能被檢測出是陽性的概率:真正的患者(千分之一)被檢測出陽性的概率(百分之九十五)的概率是0.095%,健康人(千分之九百九十九)被檢測出是陽性(百分之五)的概率為4.995%,那麼任何一人被檢測出是陽性的概率為5.09%,最後用0.95%/5.09%約等於1.866%,這個和書中作者的數據不同。

請詳解作者這樣解的原因和本人的錯誤之處,十分感謝!


原書中「5% 的誤報」指的是假陽性的誤報,原書並沒有提到假陰性的誤報率是多少。

所以在原書的解答中,默認假陰性的誤報率為 0%,即 100% 的真病人都能檢測為陽性。

而在題主的解答中,題主默認了:「假陽性率 = 假陰性率 = 5%」的這一事實,即有 5% 的真病人會被檢測為陰性,所以與原書計算結果有差異。

按照題主的思路,原書的條件來解答,真病人的陽性概率應為 0.1% ,最後應該是 0.1% / 5.09% = 1.96% ,和原書的 1/51 是相等的。
貝葉斯公式,百度搜一下就理解了
True Positive (真正, TP)被模型預測為正的正樣本;False Positive (假正, FP)被模型預測為正的負樣本;

False Positive Rate (假正率, FPR)

FPR = FP /(FP + TN) 被預測為正的負樣本結果數 /負樣本實際數
你在兩處使用了近似。一處是近似50人,一處是0.1%當中也有5%誤報被你近似掉了,兩個5%近似,疊加起來就是你數據上的10%多一點點的誤差。
題主為什麼要用0.95除以50.9而不是1除?


原書的解釋清晰明確。另:書中的說法和你的描述有差異。
推薦閱讀:
相關文章