Dirichlet 過程

1.問題的提出

假設為樣本數據， , 且已知。即數據的分布為混合正態分布。我們可以利用EM演算法對進行估計，見Bishop的《PRML：模式識別與機器學習》其中。EM演算法假定是已知的，那麼很自然地問，若未知，如何對參數進行估計？這就必須引入新的概率模型對問題進行描述，該模型就是過程.

2. 分布的定義

Dirichlet 過程是Dirichlet的分布的無窮維的推廣。我們首先介紹Dirichelet分布。Dirichlet分布是Beta分布的推廣。令 ,Dirichelet分布的密度函數為 ,其中 ,其中。

性質1：如果那麼

3.有限的貝葉斯混合分布生成過程

（1）

（2）

（3）

（4）

4. 過程的定義及其性質

Dirichlet過程為概率測度的隨機過程。Dirichlet 過程是Dirichlet 分布的無窮維的推廣。

令為一概率空間，為一測度空間，為上的概率測度， .稱上的隨機概率測度為參數的Dirichlet 過程如果對任意的有限劃分有

記 .

性質(1). 令為樣本， ,那麼 .

性質(2). 令為樣本， ,那麼

5. 過程的存在性及構造

下面我們利用折棍子方法給出過程的構造(Stick-breaking Construction)。折棍子演算法如下

(1)

(2)

(3)

(4)

定理 .

5. 應用

DP過程主要應用三個領域：模型的貝葉斯驗證, 密度估計以及混合模型的聚類。

（1）模型的貝葉斯驗證

如何對檢驗一個模型對給定樣本數據擬合的效果呢？通常做法是利用貝葉斯公式計算感興趣分布下的樣本數據邊際概率，然後計算其它分布下的樣本數據邊際概率。與其它分布相比，如果感興趣的模型下的數據邊際概率最高，那麼就說明該分布對樣本數據擬合較好。該方式核心的問題就是對比較分布的選擇。一般地我們希望比較分布的集合儘可能的大，並且具有先驗分布。DP過程是一個很好的選擇，通常的做法是選該興趣的分布為基礎分布，DP過程為比較分布的集合，如果分布比分布對數據擬合的更好，則我們就認為選擇分布是合理的。

（2）密度估計

令為數據樣本，為密度函數。因為是離散的，我們採用密度函數作為樣本的密度函數.

（3）混合模型的聚類

Dirichlet過程最重要的應用就是利用混合模型對數據進行聚類。令為數據樣本, 為相應的隱參數。假設獨立同分布，且 ,具體生成模型如下： .由於是離散的，因此有多個取同一個值，這樣具有相同參數的為同一個類。

6. 展望

Dirichlet過程和貝葉斯非參在機器學習和統計中是一個非常活躍的領域。目前主要有以下四個方向：

（1）DP模型的有效統計推斷問題。常見方法有MCMC抽樣，變分方法。

（2）DP模型的擴展。

（3）收斂和相合性等理論問題。

（4）模型的應用：聚類，認知，回歸和分類等