高斯大家都知道,德國的著名數學家,被冠名「數學王子」,重要到什麼程度?德國把他還印到了鈔票上,欄主也是很希望能有一張這樣的鈔票啊~

德國第四套紙幣10馬克

在如圖的紙幣上,有一條鐘形曲線,這就是大名鼎鼎的「高斯分佈曲線」。高斯分佈,也稱正態分佈,簡而言之就是「正常狀態的下的分佈」,正常狀態下都是這個分佈?這麼牛逼麼?是的。正態分佈是有大數定理理論支持,可以說是在足夠多的元素的疊加影響下,最終取值會呈現一個這樣的鐘形分佈。

Y=x_1+x_2+...,Ysim N(x_0,sigma^2)

不要小看這個正態分佈,它具有很特殊的性質,如下進行高斯分佈(以下均稱高斯分佈)的相加、相乘處理:

相加

x_1sim N(m_1,sigma_1^2);x_2sim N(m_2,sigma_2^2);x_1+x_2sim N(m_3,sigma_3^2)

m_3=E(x_1+x_2)=E(x_1)+E(x_2)=m_1+m_2

sigma_3^2=Var(x_1+x_2)=Var(x_1)+Var(x_2)+Cov(x_1,x_2) 除非 x_1x_2 和同一元素有關,否則兩個高斯分佈是不相關的,因此可得

sigma_3^2=Var(x_1+x_2)=Var(x_1)+Var(x_2)+Cov(x_1,x_2)=sigma_1^2+sigma_2^2

相乘

注意,我在上面說了,如果2個元素不是和共同元素有關,那麼他們是不相關的,也就沒有相乘的問題,因此以下討論均對於和共同元素相關的分佈。

N(x;m_1,sigma_1^2)*N(x;m_2,sigma_2^2)sim N(x;m_3,sigma_3^2)

其中 frac{1}{sigma_3^2}=frac{1}{sigma_1^2}+frac{1}{sigma_2^2} , frac{m_3}{sigma_3^2}=frac{m_1}{sigma_1^2}+frac{m_2}{sigma_2^2}

記這個,我自己總結一個技巧,並聯電路大家初中都學過吧,對於方差的牢記技巧就是和並聯電路對應:

看到沒,這個是不是和方差的本質一模一樣!

再往深處思考一點,正如並聯的電路越多總電阻越小(而且小於任一分路電阻),所乘的高斯分佈越多,方差也越小,仔細琢磨,是不是很有意思,如果和貝葉斯的思想結合起來就是:高斯迭代中,將上一次結果作為先驗並不斷乘新的信息,隨著迭代次數增多方差逐漸減小,每次更新的期望介於先驗和新信息期望之間,看到沒這就是一種「回歸」的思想啊,每次期望都會更新於新舊信息之間,方差越來越低。

應用

結合一個線性回歸的應用來說, y=h*x+w 這樣的式子隨處可見吧,比如簡單的通信模型就是這樣,(x,y)是發送接收 xsim N(x;m_1,sigma_1^2)wsim N(0,sigma_2^2) 是雜訊,h是線性模型係數。

對於接收信號由上面雜訊分佈和模型可得, ysim N(y;hx,sigma_2^2)

在貝葉斯的角度考慮(其實就是一個聯合分佈):

先驗概率 p(x)sim N(x;m_1,sigma_1^2) ;

條件概率 p(y/x)sim N(y;hx,sigma_2^2) ;

聯合分佈 p(x,y)=p(x)p(y/x) ;

最後得到關於y的分佈 p(y)=int_{x}p(x,y)dx=int_{x}p(x)p(y/x)dx

int N(x;m_1,sigma_1^2)N(y;hx,sigma_2^2)dx=N(y;hm_1,h^2sigma_1^2+sigma_2^2)

當然配方的方法很容易推導上面的式子,但是從式子的角度也可以解釋,由上已知關於y是一個高斯分佈,現狀需要的是求出期望和方差,由式子 y=h*x+w 可知:

E(y)=E(hx)+E(w)=hE(x)+0=hm_1

Var(y)=Var(hx)+Var(w)+Cov(hx,w)=h^2Var(x)+sigma_2^2+0=h^2sigma_1^2+sigma_2^2

附加

其實在對高斯分佈以及貝葉斯迭代是使用中,「因子圖」和「消息傳遞演算法」是一個很好的工具,欄主碩士做的就是基於此在估計問題中的研究。多說一句,因子圖和消息傳遞演算法的精髓確實就是像上面一樣,尋找高斯形式的聯合分佈,然後積分掉不感興趣因子。

另外, xsim N(x;m_1,sigma_1^2)m_1sim N(m_1;x,sigma_1^2) 等價,主要還是平方項的對稱性,在具體計算中會有技巧的使用。

就先說這麼多吧,以後用到貝葉斯在機器學習中的優化再說,打算看看下面這本書再總結。


推薦閱讀:
相關文章