繼《線性代數》和《單變數微積分》後,「馬同學圖解」系列又迎來新的成員 ---- 《概率論與數理統計》,覆蓋浙江大學《概率與數理統計》前八章(考研範圍),下面是本課程的第二篇文章,歡迎大家試讀和購買(微信公眾號:馬同學高等數學,菜單「圖解」中購買)。

1 爭論

概率論需要回答的第一個問題就是,什麼是概率?

剛接觸這門學科的同學可能覺得難以置信,這個問題仍然存在著廣泛的爭論:

而且這個問題更像是一個哲學問題,而不是數學問題,確實也有不少哲學家參與討論。

對於概率的定義有幾個主流的派別:

  • 頻率派
  • 古典派
  • 主觀派

瞭解這些派別對於理解概率論很有幫助,下面來簡單介紹一下。

2 頻率派

首先來瞭解下頻率派,頻率派的理論基礎是對過去事實的歸納總結。

2.1 什麼是頻率?

學概率從拋硬幣開始纔是正確姿勢。我們知道硬幣是有正反兩面:

硬幣拋出之後:

得到的結果是隨機的,那麼得到正面的概率是多少呢?這裡的「概率」又指的是什麼?

我們扔100次硬幣試試:

可以看到,得到48次正面,52次反面,用正面次數除以總的次數:

P_{100}(正面)=frac{48}{100}=0.48

P_{100}(正面) 」稱為扔100次硬幣時,正面出現的color{Salmon}{頻率}

2.2 頻率與概率

2.2.1 頻率穩定性

同樣的,扔n 次硬幣時如果出現了n_H 次正面,那麼:

P_{n}(正面)=frac{n_H}{n}

P_{n}(正面) 」為此時正面出現的頻率。歷史上很多數學家都做過扔n 次硬幣的實驗:

 egin{array}{c|c|c|c}     hline     quadquad&quad nquad&quad n_Hquad&quad P_n(正面)quad\     hline \     quad 德摩根 quad&quad 2048 quad&quad 1061 quad&quad 0.5181 quad\      quad 蒲豐 quad&quad 4040 quad&quad 2048 quad&quad 0.5069 quad\      quad 皮爾遜 quad&quad 24000 quad&quad 12012 quad&quad 0.5005 quad\     \hline end{array}

從試驗結果可見,隨著n 的增大,頻率越來越趨近於0.5。可見,雖然單次扔硬幣的結果是隨機的,但多次重複後頻率趨於穩定,這種穩定性也稱為color{Salmon}{頻率穩定性} ,反應了扔硬幣存在某種必然性。

2.2.2 定義

頻率派認為如果頻率存在穩定性,即當n	oinfty 時下面極限存在,就得到了color{Salmon}{概率} (用Probability的首字母P來表示):

P(正面)=lim_{n	oinfty}P_{n}(正面)

可以自己嘗試扔一下,點一下按鈕就會模擬扔100次硬幣,看看是不是扔的次數越多,越趨於0.5(計算機模擬的,內部使用的是偽隨機,難免會有一些偏差):

此處有互動內容,點擊此處前往操作。

3 頻率派的缺點

通過頻率來定義概率的方法比較符合直覺,但缺陷也很明顯:

  • 首先,需要n 足夠大,但是「足夠大」這個詞很含糊
  • 其次,需要在相同條件下反覆扔硬幣,但是「相同條件」這個詞也很含糊,也很難保證,比如扔了10000次後,硬幣上沾滿汗水,那又怎麼辦?
  • 再次,永遠也不可能扔無限次硬幣,所以得到的概率始終是一個近似值
  • 最後,有些時候根本不具備反覆實驗的條件,比如火山噴發的概率應該怎麼計算?

4 古典派

接下來介紹古典派,古典派的理論基礎是不充分理由原則。

4.1 不充分理由原則

在概率論草創階段,雅各布·伯努利(1654-1705):

就提出,如果因為無知,使得我們沒有辦法判斷哪一個結果會比另外一個結果更容易出現,那麼應該給予它們相同的概率。比如:

  • 硬幣:由於不清楚硬幣哪一面更容易出現,那麼應該給予正面、反面相同的概率,即為frac{1}{2}
  • 骰子:我們不清楚骰子哪一面更容易出現,那麼應該給予每一面相同的概率,即為frac{1}{6}

此稱為color{Salmon}{不充分理由原則} (Insufficient Reason Principle)。

4.2 古典概率

以不充分理由原則為基礎,經由拉普拉斯(皮埃爾-西蒙·拉普拉斯侯爵,1749-1827):

之手,確立了color{Salmon}{古典概率} 的定義,即:

未知的概率都為等概率

在這之後,古典概率在整個19世紀也被人們廣泛接受,我們高中學習的概率,基本都是古典概率。

比如,有一家原木加工廠,它會把木頭切成不同的木方,木方的截面都是正方形,邊長會在1sim 3尺之間隨機浮動:

那麼根據古典概率,正方形邊長在1sim 2尺之間的概率為多少?

根據古典概率的不充分理由原則,我們沒有辦法判斷哪一種邊長更容易出現,那麼就應該給予它們相同的概率,也就是說1sim 3之間每一種長度都是等可能的。

1sim 2包含了一半的可能長度:

所以,正方形邊長在1sim 2尺之間的概率為frac{1}{2}

5 古典派的缺點

古典派的缺陷也是非常明顯的:

(1),古典派的概率定義,「未知的概率都是等概率」,有循環定義的嫌疑。

(2),不充分理由原則沒辦法處理非等概率的情況,假如被告知硬幣兩面是非等概率的,但是不知道是哪一面,那麼應該怎麼辦?(拉普拉斯提出還是應該按照等概率來處理)

(3),還容易產生矛盾,比如剛才練習題中提到的原木加工廠,它會把木頭切成不同的木方,木方的截面都是正方形,邊長會在1sim 3尺之間隨機浮動:

那麼根據不充分理由原則,正方形邊長在1sim 2尺之間的概率為frac{1}{2}

剛才的問題還可以轉為面積來解答,1sim 3尺邊長的正方形面積為1sim 9平方尺,1sim 2尺邊長的正方形面積為1sim 4平方尺:

同樣,根據不充分理由原則,1sim 9平方尺之間的正方面面積是等可能的,那麼正方形面積在1sim 4平方尺之間的概率為frac{3}{8}

選擇對「長度」還是對「面積」運用不充分理由原則,同一個問題會得到了不同的概率:

上述問題是color{Salmon}{伯特蘭悖論} (Bertrands paradox)簡化版,由伯特蘭在1899年出版的《概率論》中提出:

伯特蘭悖論先說在這裡,之後會有專門介紹古典派概率的章節,到時再來解決這個悖論。

6 主觀派

最後介紹下主觀派,主觀派認為概率是color{Salmon}{信念強度} (degree of belief)。

比如說,我個人相信20年後人類從網路時代進入人工智慧時代的概率為70%:

上面說的概率也就是主觀概率,是個人對這個命題的信念強度,換句話說我覺得還是很有可能實現的。

雖說是主觀概率,其實也有客觀的部分,比如剛才對人工智慧的判斷,就是基於AI的基礎設置發展、計算速度的提高等事實。

主觀概率更貼近人的思考方式,比如我們在作科學研究時,會先給出一個猜想,這就是給出了一個主觀概率。

所以在人工智慧時代,因為要模仿人的行為,主觀概率越來越受到重視:

當然主觀派缺陷也很明顯,這也是被大家接受困難的原因:

  • 說到科學,大家都認為應該是客觀的,但是偏偏主觀概率不客觀,充滿了個人偏見
  • 因為主觀,大家很難對某個主觀概率達成共識

7 小結

三個流派大概有以下的區別:

 egin{array}{c|c}     hline     quadquad&quadcolor{orange}{頻率派}quad&quadcolor{blue}{古典派}quad&quadcolor{ForestGreen}{主觀派}quad\     hline \     quad 理論基礎 quad&quad 過往事實的歸納總結quad&quad不充分理由原則quad&quad知識和直覺quad\     quad 概率定義 quad&quad頻率穩定性quad&quad等概率quad&quad信念強度quad\     \hline end{array}

這三個流派並非涇渭分明、互不相容,反而在發展中犬牙交錯。比如要判斷火山的噴發概率,就需要總結過往數據(頻率派),再加入主觀知識(主觀派)。

為什麼概率的定義不明確?可能因為概率本身研究的就是「不明確」。


推薦閱讀:
相關文章