雪花台湾

Dirichlet 過程

1.問題的提出

假設 為樣本數據, , 已知。即數據的分布為混合正態分布。我們可以利用EM演算法對 進行估計,見Bishop的《PRML:模式識別與機器學習》其中 。EM演算法假定 是已知的,那麼很自然地問,若 未知,如何對參數 進行估計?這就必須引入新的概率模型對問題進行描述,該模型就是 過程.

2. 分布的定義

Dirichlet 過程是Dirichlet的分布的無窮維的推廣。我們首先介紹Dirichelet分布。Dirichlet分布是Beta分布的推廣。令 ,Dirichelet分布 的密度函數為 ,其中 ,其中

性質1:如果 那麼

3.有限的貝葉斯混合分布生成過程

(1)

(2)

(3)

(4)

4. 過程的定義及其性質

Dirichlet過程為概率測度的隨機過程。Dirichlet 過程是Dirichlet 分布的無窮維的推廣。

為一概率空間, 為一測度空間,上的概率測度, .稱 上的隨機概率測度 為參數 的Dirichlet 過程如果對任意 的有限劃分

.

性質(1). 令 為樣本, ,那麼 .

性質(2). 令 為樣本, ,那麼

.

5. 過程的存在性及構造

下面我們利用折棍子方法給出 過程的構造(Stick-breaking Construction)。折棍子演算法如下

(1)

(2)

(3)

(4)

定理 .

5. 應用

DP過程主要應用三個領域:模型的貝葉斯驗證, 密度估計以及混合模型的聚類。

(1)模型的貝葉斯驗證

如何對檢驗一個模型對給定樣本數據擬合的效果呢?通常做法是利用貝葉斯公式計算感興趣分布下的樣本數據邊際概率,然後計算其它分布下的樣本數據邊際概率。與其它分布相比,如果感興趣的模型下的數據邊際概率最高,那麼就說明該分布對樣本數據擬合較好。該方式核心的問題就是對比較分布的選擇。一般地我們希望比較分布的集合儘可能的大,並且具有先驗分布。DP過程是一個很好的選擇,通常的做法是選該興趣的分布為基礎分布 ,DP過程 為比較分布的集合,如果 分布比 分布對數據擬合的更好,則我們就認為選擇 分布是合理的。

(2)密度估計

為數據樣本, 為密度函數。因為 是離散的,我們採用密度函數 作為樣本的密度函數.

(3)混合模型的聚類

Dirichlet過程最重要的應用就是利用混合模型對數據進行聚類。令 為數據樣本, 為相應的隱參數。假設 獨立同分布,且 ,具體生成模型如下: .由於 是離散的,因此有多個 取同一個值,這樣具有相同參數 為同一個類。

6. 展望

Dirichlet過程和貝葉斯非參在機器學習和統計中是一個非常活躍的領域。目前主要有以下四個方向:

(1)DP模型的有效統計推斷問題。常見方法有MCMC抽樣,變分方法。

(2)DP模型的擴展。

(3)收斂和相合性等理論問題。

(4)模型的應用:聚類,認知,回歸和分類等


推薦閱讀:
相关文章