1.問題的提出

假設 {x_1,x_2,cdots,x_n} 為樣本數據, x_isim sum^K_{i=1}pi_iN(mu_i,sigma^2_i) , sum^K_{i=1}pi_i=1,pi_igeq0,i=1,2,cdots,K,K 已知。即數據的分布為混合正態分布。我們可以利用EM演算法對 (pi,mu,sigma) 進行估計,見Bishop的《PRML:模式識別與機器學習》其中 pi=(pi_1,pi_2,cdots,pi_K)^T, mu=(mu_1,mu_2,cdots,mu_K)^T, sigma^2=(sigma^2_1,sigma^2_2,cdots,sigma^2_K)^T 。EM演算法假定 K 是已知的,那麼很自然地問,若 K 未知,如何對參數 (K,pi,mu,sigma) 進行估計?這就必須引入新的概率模型對問題進行描述,該模型就是 Dirichlet 過程.

2.Dirichlet 分布的定義

Dirichlet 過程是Dirichlet的分布的無窮維的推廣。我們首先介紹Dirichelet分布。Dirichlet分布是Beta分布的推廣。令 S_N={xin R^N:0leq x_i leq 1,sum^N_{i=1}x_i=1} ,Dirichelet分布 Dir(alpha) 的密度函數為 p(x|alpha)=frac{1}{B(alpha)}prod^N_{i=1}x^{alpha_i-1}_iI(xin S) ,其中 alpha=(alpha_1,alpha_2,cdots,alpha_N)^T,alpha_i>0,i=1,2,cdots,N, B(alpha)=frac{prod^N_{i=1}Gamma(alpha_i)}{Gamma(alpha_0)} ,其中 alpha_0=sum^N_{i=1}alpha_i

性質1:如果 Xsim Dir(alpha), 那麼 E(X_i)=frac{alpha_k}{alpha_0},Var(X_i)=frac{alpha_k(alpha_0-alpha_k)}{alpha^2_0(alpha_0+1)}.

3.有限的貝葉斯混合分布生成過程

(1) pi|alphasim Dir(frac{alpha}{K},frac{alpha}{K},cdots,frac{alpha}{K})

(2) 	heta^*_k|Hsim H

(3) z_i|pisim Mult(pi)

(4) x_i|z_i,{	heta^*_k}sim F(	heta^*_{z_i})

4. Dirichlet 過程的定義及其性質

Dirichlet過程為概率測度的隨機過程。Dirichlet 過程是Dirichlet 分布的無窮維的推廣。

(Omega,mathcal{F},P) 為一概率空間, (Theta,mathcal{H}) 為一測度空間,H(Theta,mathcal{H})上的概率測度, alpha>0 .稱 (Theta,mathcal{H})上的隨機概率測度 G為參數 (alpha,H) 的Dirichlet 過程如果對任意 Theta 的有限劃分 A_1,A_2,cdots,A_nin mathcal{H}

(G(A_1),G(A_2),cdots,G(A_n))sim Dir(alpha(H(A_1)),alpha(H(A_2)),cdots,alpha(H(A_n)))

Gsim DP(alpha,H) .

性質(1). 令 	heta_1,	heta_2,cdots,	heta_nsim G 為樣本, Gsim DP(alpha,H) ,那麼 G|	heta_1,	heta_2,cdots,	heta_nsim DP(alpha+n,frac{alpha}{alpha+n}H+frac{n}{alpha+n}frac{sum^n_{i=1}delta_{	heta_i}}{n}) .

性質(2). 令 	heta_1,	heta_2,cdots,	heta_nsim G 為樣本, Gsim DP(alpha,H) ,那麼

	heta_{n+1}|	heta_1,	heta_2,cdots,	heta_nsim frac{alpha}{alpha+n}H+frac{sum^n_{i=1}delta_{	heta_i}}{alpha+n} .

5. Dirichlet 過程的存在性及構造

下面我們利用折棍子方法給出Dirichlet 過程的構造(Stick-breaking Construction)。折棍子演算法如下

(1) eta_ksim Beta(1,alpha),k=1,2,cdots

(2) pi_k=eta_kprod^k_{i=1}(1-eta_i),k=1,2,cdots

(3) 	heta^*_ksim H,k=1,2,cdots

(4) G=sum^{infty}_{i=1}pi_kdelta_{	heta^*_k}

定理 Gsim DP(alpha,H) .

5. 應用

DP過程主要應用三個領域:模型的貝葉斯驗證, 密度估計以及混合模型的聚類。

(1)模型的貝葉斯驗證

如何對檢驗一個模型對給定樣本數據擬合的效果呢?通常做法是利用貝葉斯公式計算感興趣分布下的樣本數據邊際概率,然後計算其它分布下的樣本數據邊際概率。與其它分布相比,如果感興趣的模型下的數據邊際概率最高,那麼就說明該分布對樣本數據擬合較好。該方式核心的問題就是對比較分布的選擇。一般地我們希望比較分布的集合儘可能的大,並且具有先驗分布。DP過程是一個很好的選擇,通常的做法是選該興趣的分布為基礎分布 H ,DP過程 G 為比較分布的集合,如果 H 分布比 G 分布對數據擬合的更好,則我們就認為選擇 H 分布是合理的。

(2)密度估計

{x_1,x_2,cdots,x_n} 為數據樣本,Gsim DP(alpha,H), f(x|	heta) 為密度函數。因為 G 是離散的,我們採用密度函數 p(x)=int f(x|	heta)G(	heta)d	heta 作為樣本的密度函數.

(3)混合模型的聚類

Dirichlet過程最重要的應用就是利用混合模型對數據進行聚類。令 {x_1,x_2,cdots,x_n} 為數據樣本, {	heta_1,	heta_2,cdots,	heta_n} 為相應的隱參數。假設	heta_isim G,i=1,2,cdots,n 獨立同分布,且 x_isim F(	heta_i) ,具體生成模型如下: x_i|	heta_isim F(	heta_i),	heta_i|Gsim G,G|alpha, Hsim DP(alpha,H) .由於 G 是離散的,因此有多個 	heta_i 取同一個值,這樣具有相同參數	heta_ix_j 為同一個類。

6. 展望

Dirichlet過程和貝葉斯非參在機器學習和統計中是一個非常活躍的領域。目前主要有以下四個方向:

(1)DP模型的有效統計推斷問題。常見方法有MCMC抽樣,變分方法。

(2)DP模型的擴展。

(3)收斂和相合性等理論問題。

(4)模型的應用:聚類,認知,回歸和分類等


推薦閱讀:
相关文章