Dirichlet 過程
1.問題的提出
假設 為樣本數據, , 且 已知。即數據的分布為混合正態分布。我們可以利用EM演算法對 進行估計,見Bishop的《PRML:模式識別與機器學習》其中 。EM演算法假定 是已知的,那麼很自然地問,若 未知,如何對參數 進行估計?這就必須引入新的概率模型對問題進行描述,該模型就是 過程.
2. 分布的定義
Dirichlet 過程是Dirichlet的分布的無窮維的推廣。我們首先介紹Dirichelet分布。Dirichlet分布是Beta分布的推廣。令 ,Dirichelet分布 的密度函數為 ,其中 ,其中 。
性質1:如果 那麼
3.有限的貝葉斯混合分布生成過程
(1)
(2)
(3)
(4)
4. 過程的定義及其性質
Dirichlet過程為概率測度的隨機過程。Dirichlet 過程是Dirichlet 分布的無窮維的推廣。
令 為一概率空間, 為一測度空間, 為 上的概率測度, .稱 上的隨機概率測度 為參數 的Dirichlet 過程如果對任意 的有限劃分 有
記 .
性質(1). 令 為樣本, ,那麼 .
性質(2). 令 為樣本, ,那麼
.
5. 過程的存在性及構造
下面我們利用折棍子方法給出 過程的構造(Stick-breaking Construction)。折棍子演算法如下
(1)
(2)
(3)
(4)
定理 .
5. 應用
DP過程主要應用三個領域:模型的貝葉斯驗證, 密度估計以及混合模型的聚類。
(1)模型的貝葉斯驗證
如何對檢驗一個模型對給定樣本數據擬合的效果呢?通常做法是利用貝葉斯公式計算感興趣分布下的樣本數據邊際概率,然後計算其它分布下的樣本數據邊際概率。與其它分布相比,如果感興趣的模型下的數據邊際概率最高,那麼就說明該分布對樣本數據擬合較好。該方式核心的問題就是對比較分布的選擇。一般地我們希望比較分布的集合儘可能的大,並且具有先驗分布。DP過程是一個很好的選擇,通常的做法是選該興趣的分布為基礎分布 ,DP過程 為比較分布的集合,如果 分布比 分布對數據擬合的更好,則我們就認為選擇 分布是合理的。
(2)密度估計
令 為數據樣本, 為密度函數。因為 是離散的,我們採用密度函數 作為樣本的密度函數.
(3)混合模型的聚類
Dirichlet過程最重要的應用就是利用混合模型對數據進行聚類。令 為數據樣本, 為相應的隱參數。假設 獨立同分布,且 ,具體生成模型如下: .由於 是離散的,因此有多個 取同一個值,這樣具有相同參數的 為同一個類。
6. 展望
Dirichlet過程和貝葉斯非參在機器學習和統計中是一個非常活躍的領域。目前主要有以下四個方向:
(1)DP模型的有效統計推斷問題。常見方法有MCMC抽樣,變分方法。
(2)DP模型的擴展。
(3)收斂和相合性等理論問題。
(4)模型的應用:聚類,認知,回歸和分類等
推薦閱讀: