頻率學派和貝葉斯學派
【頻率學派】
高中數學對概率的定義:在大量重複進行同一實驗事件A發生的頻率總是接近某一個常數,並在它附近進行擺動,這時將這個常數叫事件A的概率,記作P(A)。
這是古典頻率學派對概率的定義,定義包含了二個要點:(1) 事件A發生的概率是常數。
(2) 事件A發生的概率是重複多次進行同一實驗得到的。頻率學派的侷限性:
頻率學派評估可重複實驗事件發生的概率具有一定的現實意義。但是假如評估本世紀末北極圈的冰川消失的概率,按照頻率學派的思想,首先需要創造無數個平行世界,然後計算北極圈冰川消失的平行世界的頻率,記該頻率為冰川消失的概率。目前,創造無數個平行世界的技術還不成熟,因此頻率學派在評估不可重複實驗事件發生的概率具有很大的限制性。【貝葉斯學派】
貝葉斯學派對概率的定義:貝葉斯學派評估事件A發生的概率帶有主觀性,且事件A發生的概率是當前觀測數據集D下的概率,即條件概率P(A|D),當觀測數據集更新為D1時,則事件A發生的概率為P(A|D1),不同的數據集預測A事件發生的概率不同。貝葉斯學派評估事件A發生的概率會引用先驗概率和後驗概率兩個概念,貝葉斯定理是搭建先驗概率和後驗概率的橋樑。
定義包含了三個要點:
(1) 事件A發生的概率是變化的,並非常數。
(2) 事件A發生的概率是特定數據集下的條件概率。(3) 事件A發生的概率是後驗概率,且事件A發生的先驗概率已給定。
貝葉斯學派的難點在於如何設置合理反映事件A發生的先驗概率,不同的先驗概率得到的結果不一樣。
概率論基本知識回顧
條件概率:設A,B是兩個事件,且P(A)>0,稱:
為在事件A發生的條件下事件B發生的概率。
乘法定理:設P(A)>0,稱
P(AB)=P(B|A)P(A)
事件A,B同時發生的概率等於事件A發生的概率與事件A發生的條件下事件B發生的概率的乘積。
求和定理:設P(A)>0,稱
為事件A發生概率的邊緣化。
全概率公式:事件B所發生的所有可能結果B1,B2,...,Bn,事件A發生的概率P(A),則
貝葉斯定理:
P(A,B) = P(B,A)
其中,P(A|B)為已知在事件B下A發生的概率,稱為後驗概率;等式右邊分子部分P(A)為事件A發生的概率,稱為先驗概率。貝葉斯定理是先驗概率和後驗概率轉換的橋樑。
頻率學派和貝葉斯學派在評估模型參數的異同
相同點:最大似然函數在頻率學派和貝葉斯學派都具有重要的作用,最大似然函數的思想是存在即合理,認為已觀測數據的概率分佈是最大概率,最大概率對應的模型就是我們需要找的模型。
不同點:頻率學派認為模型是一成不變的,即模型參數是個常數;貝葉斯學派認為模型是一直在變的,當獲取新的信息後,模型也相應的在改變,即模型參數是個變數,用概率去描述模型參數的不確定性。【例】小明在做拋硬幣試驗,已觀測數據集D為五次正面向上,求正面向上的概率w
頻率學派的解法:
似然函數:
最大似然函數:
硬幣正面向上的概率為1,模型明顯存在問題,稱為過擬合。
貝葉斯學派解法:
假設硬幣正面向上的先驗概率p(w),根據貝葉斯定理得:
w即是正面向上的概率
貝葉斯定理在先驗概率和後驗概率的應用舉例
【例】一個紅盒子有六個橘子和二個蘋果,一個藍色盒子有一個橘子三個蘋果,選擇紅蘋果的概率為0.4,選擇藍盒子的概率為0.6,隨機從盒子抽取一次水果,(1) 求水果為橘子的概率;(2) 當抽取的水果為橘子時,求隨機選擇盒子為紅色的概率;
解:
假設選擇盒子的事件記為B,B有兩種可能的結果,選擇紅盒子記為r,選擇藍盒子記為b;假設抽取水果的概率記為F,F有兩種可能的結果,抽取橘子記為o,抽取蘋果記為a;(1) 由全概率公式得:
因此,隨機抽取水果為橘子的概率為0.45。
(2) 問題轉化為求解P(B=r|F=o)
由貝葉斯公式得:
由(2)可知,選擇紅色盒子概率為0.4,該概率為先驗概率;當觀測數據為橘子時,選擇紅色盒子的概率變成0.67,該概率為後驗概率。再次證明瞭貝葉斯估計模型的概率是隨著觀測數據的變化而變化的。
總結
本文介紹了頻率學派和貝葉斯學派的概率定義,頻率學派認為模型是一成不變的,貝葉斯學派認為模型是隨著數據的更新不斷更新的,頻率學派和貝葉斯學派都可以使用最大似然函數來估計模型。
推薦閱讀: