Dirichlet 過程

1.問題的提出

假設 ${x_1,x_2,cdots,x_n}$ 為樣本數據， $x_isim sum^K_{i=1}pi_iN(mu_i,sigma^2_i)$ , $sum^K_{i=1}pi_i=1,$ 且已知。即數據的分佈為混合正態分佈。我們可以利用EM演算法對進行估計，見Bishop的《PRML：模式識別與機器學習》其中。EM演算法假定是已知的，那麼很自然地問，若未知，如何對參數進行估計？這就必須引入新的概率模型對問題進行描述，該模型就是過程.

2. 分佈的定義

Dirichlet 過程是Dirichlet的分佈的無窮維的推廣。我們首先介紹Dirichelet分佈。Dirichlet分佈是Beta分佈的推廣。令 $S_N={xin R^N:0leq x_i leq 1,sum^N_{i=1}x_i=1}$ ,Dirichelet分佈的密度函數為 $p(x|alpha)=frac{1}{B(alpha)}prod^N_{i=1}x^{alpha_i-1}_iI(xin S)$ ,其中 $B(alpha)=frac{prod^N_{i=1}Gamma(alpha_i)}{Gamma(alpha_0)}$ ,其中 $alpha_0=sum^N_{i=1}alpha_i$ 。

性質1：如果那麼 $E(X_i)=frac{alpha_k}{alpha_0},Var(X_i)=frac{alpha_k(alpha_0-alpha_k)}{alpha^2_0(alpha_0+1)}.$

3.有限的貝葉斯混合分佈生成過程

（1） $pi|alphasim Dir(frac{alpha}{K},frac{alpha}{K},cdots,frac{alpha}{K})$

（2）

（3）

（4） $x_i|z_i,{ heta^*_k}sim F( heta^*_{z_i})$

4. 過程的定義及其性質

Dirichlet過程為概率測度的隨機過程。Dirichlet 過程是Dirichlet 分佈的無窮維的推廣。

令為一概率空間，為一測度空間，為上的概率測度， .稱上的隨機概率測度為參數的Dirichlet 過程如果對任意的有限劃分 $A_1,A_2,cdots,A_nin mathcal{H}$ 有

記 .

性質(1). 令為樣本， ,那麼 $G| heta_1, heta_2,cdots, heta_nsim DP(alpha+n,frac{alpha}{alpha+n}H+frac{n}{alpha+n}frac{sum^n_{i=1}delta_{ heta_i}}{n})$ .

性質(2). 令為樣本， ,那麼

$heta_{n+1}| heta_1, heta_2,cdots, heta_nsim frac{alpha}{alpha+n}H+frac{sum^n_{i=1}delta_{ heta_i}}{alpha+n}$ .

5. 過程的存在性及構造

下面我們利用折棍子方法給出過程的構造(Stick-breaking Construction)。折棍子演算法如下

(1)

(2) $pi_k=eta_kprod^k_{i=1}(1-eta_i),k=1,2,cdots$

(3)

(4) $G=sum^{infty}_{i=1}pi_kdelta_{ heta^*_k}$

定理 .

5. 應用

DP過程主要應用三個領域：模型的貝葉斯驗證, 密度估計以及混合模型的聚類。

（1）模型的貝葉斯驗證

如何對檢驗一個模型對給定樣本數據擬合的效果呢？通常做法是利用貝葉斯公式計算感興趣分佈下的樣本數據邊際概率，然後計算其它分佈下的樣本數據邊際概率。與其它分佈相比，如果感興趣的模型下的數據邊際概率最高，那麼就說明該分佈對樣本數據擬合較好。該方式核心的問題就是對比較分佈的選擇。一般地我們希望比較分佈的集合儘可能的大，並且具有先驗分佈。DP過程是一個很好的選擇，通常的做法是選該興趣的分佈為基礎分佈，DP過程為比較分佈的集合，如果分佈比分佈對數據擬合的更好，則我們就認為選擇分佈是合理的。

（2）密度估計

令 ${x_1,x_2,cdots,x_n}$ 為數據樣本，為密度函數。因為是離散的，我們採用密度函數作為樣本的密度函數.

（3）混合模型的聚類

Dirichlet過程最重要的應用就是利用混合模型對數據進行聚類。令 ${x_1,x_2,cdots,x_n}$ 為數據樣本, ${ heta_1, heta_2,cdots, heta_n}$ 為相應的隱參數。假設獨立同分布，且 ,具體生成模型如下： .由於是離散的，因此有多個取同一個值，這樣具有相同參數的為同一個類。