數學估計方法大概分為額兩大類,一類是通過描述統計去估計,另一類是通過推斷統計去估計,其中前一類估計的思想是通過對數據進行一個概括從而對待估計對象有大體的認知,後一類主要思想是通過觀測值來推測真實分布。

封面:電影《借東西的小人阿莉埃蒂》


1.描述估計

描述估計是我們日常見到最多的估計方法,它是一種對於數據的概括。當我們獲得大量樣本時,簡單羅列這些數據是沒有用的,我們無法從這樣一大堆數據中獲取數據的信息,所以我們需要通過一些特徵量來對數據進行描述,例如平均值、方差等等。

例如當我們要預測某個同學高考的成績,雖然他有很多的其他的特徵比如家境,父母教育狀況等等,但是我們最直接想到的方法還是通過它的模擬考試成績的均值來預測。

不過事實上描述性統計同也有很多的小技巧,通常情況下使用均值是不穩定的,例如小明參加了六次期末考試,其中五次都考了90分,有一次發燒了考了0分,那麼通過他的成績均值75分做預測顯然是不合理的,這時我們應該考慮改用中位數或者四分位數。有時我們還要考慮到時間對於數據的影響,例如小明高一的時候是個學渣,每次考只能考70分,高三每次都考90分,那我們也不能給小明預測80分,合理的講,我們應該通過時間去設置權重,例如70*0.2+90*0.8等等。

很多真實情況下描述性統計的效果甚至是要比推斷統計的效果好很多的,我們在很多數據挖掘比賽上TOP10的解決方案中經常看到「規則型模型」也證實了這一點。

2.最小方差無偏估計

推測估計中主要有兩種估計形式,一種是參數估計一種是非參數估計,其中參數估計只能處理遵從某種分布的問題,其特點是假設的分布條件準確,估計的精度就非常高,而更常見非參數估計可以處理分布沒有具體函數的問題。

最小方差無偏估計的策略是,在所有參數中排除那些不好的參數,留下最好的參數。

對於遵循正態分布的獨立同分布隨機變數 X_{1},X_{2},X_{3}...X_{n} ,首先我們要保證參數是一個無偏估計,即估計量的數學期望等於被估計參數的真實值,因此我們保留那些參數使E[	heta_{hat}(X)]=	heta 成立的無偏估計(仔細想想感覺這個東西是由中心極限定理得到的),為了得到這個無偏估計,方法是在這些無偏估計中,選擇能夠令方差 frac{1}{n}sum_{i=1}^{n}{({X_{i}}(	heta_{hat})-mu)^2} 最小的的參數。

雖然這個公式看起來很像最小二乘,但是他們的思想是完全是不一樣的,最小二乘是一種有偏估計方法。

其中無偏是為了讓估計滿足無偏性,即不同的樣本估計出來的參數的平均(期望)要麼比真實參數小,要麼比它大,而不是一直比它大或者小,最小方差是為了滿足有效性,即估計值儘可能靠近真實值。

這個估計應該是比較少見的了,因為作為一種排除的方式必須要獲得完備的參數空間才能夠找到最優參數,現實中基本不存在計算方法,只能靠驗證。但是它的好處在於假設分布成立下它的有效性是高於其他估計的。

3.極大似然估計

極大似然估計的策略與下一次將要講的最小二乘一樣,在於尋找一個雖然不是最好的,但是還可以接受的參數。極大似然中的似然一詞是對likelihood的翻譯,是可能性的意思,也就是尋找最大的可能性。但是最小二乘和極大似然雖然都是估計方法,但是他們實現的思想還是不太一樣的。

極大似然估計即對於獨立同分布隨機變數 X_{1},X_{2},X_{3}...X_{n} ,它們的觀測值是 x_{1},x_{2},x_{3}...x_{n} ,能夠使下式最大化的參數 	heta 就是我們要找的參數,下式被稱為似然函數,我的理解就是使樣本的分布正好是真實分布的可能性更大:

P(X_{1} = x_{1},X_{2} = x_{2},...X_{n} = x_{n})

因為獨立同分布,所以我們可以改寫成下面的式子(聯合概率):

P(X_{1} = x_{1}),P(X_{2} = x_{2})...,P(X_{n} = x_{n})

同時取log:

log(P(X_{1} = x_{1}))+log(P(X_{2} = x_{2}))...+log(P(X_{n} = x_{n}))

然後我們把P(X=x)換成相應的帶參數	heta的分布函數,假如我們假設樣本符合正態分布,式子就變成了:

log(frac{1}{sqrt{2pisigma^2}}exp(-frac{(x_{1}-mu)^2}{2sigma^2}))+......log(frac{1}{sqrt{2pisigma^2}}exp(-frac{(x_{2}-mu)^2}{2sigma^2}))

上面的式子可以通過log和exp運算化簡,然後通過優化方法找到能夠讓上面函數最小的 mu,	heta 就可以了。

4.貝葉斯估計

極大似然估計可以表述為在某個參數下使得樣本數據等於真實數據的可能性最大,其中我們認為參數是確定的,就像我們之前理解的有個所有宇宙中的準則,而數據就是在我們這個平行宇宙中我們得以窺探的一小部分,我們得到的數據是不一定的,我們要通過這些變化的數據預估參數。

而在貝葉斯學派看來正好反過來,他們認為數據是固定的,眼見為實,而參數是根據數據而變化的,不同的數據下參數不同,所以他們是在求參數在不同數據下是什麼樣的,也就是求的參數的一個分布。

我們要求得一個參數,這個參數是在該數據集下的參數的可能性最大,根據貝葉斯定理,就是求下面這個最大:

P(	heta|D) = frac{P(D|	heta)*P(	heta)}{P(D)}

根據全概率公式:

p(D)=int_{	heta}p(D|	heta)p(	heta)d	heta

根據獨立性:

p(D|	heta)=prod_{i=1}^{n}p(x_i|	heta)

把這些式子聯立在一起,然後就會變成一個與極大似然差不多的帶參數的函數,然後就可以求得在某個數據集下最大的 P(	heta|D) ,而我們想要的參數就是:

E(	heta|D) = int_{	heta}^{}	heta P(	heta|D)d	heta

其中的 	heta 就是先驗概率,需要我們提前設置好。

貝葉斯估計的好處是我們可以根據我們的理解設置先驗參數,例如我們在估計二項分布的參數,而數據就是拋硬幣,那麼我們知道p就是0.5左右,即使十次都是正。其中也有很麻煩的事情,就是我們的參數是隨機分布的,我們需要考慮到每一個可能的參數情況然後積分。

不過也有別的解決方法。


推薦閱讀:
相关文章