Dirichlet 過程
1.問題的提出
假設 為樣本數據,
,
且
已知。即數據的分佈為混合正態分佈。我們可以利用EM演算法對
進行估計,見Bishop的《PRML:模式識別與機器學習》其中
。EM演算法假定
是已知的,那麼很自然地問,若
未知,如何對參數
進行估計?這就必須引入新的概率模型對問題進行描述,該模型就是
過程.
2. 分佈的定義
Dirichlet 過程是Dirichlet的分佈的無窮維的推廣。我們首先介紹Dirichelet分佈。Dirichlet分佈是Beta分佈的推廣。令 ,Dirichelet分佈
的密度函數為
,其中
,其中
。
性質1:如果 那麼
3.有限的貝葉斯混合分佈生成過程
(1)
(2)
(3)
(4)
4. 過程的定義及其性質
Dirichlet過程為概率測度的隨機過程。Dirichlet 過程是Dirichlet 分佈的無窮維的推廣。
令 為一概率空間,
為一測度空間,
為
上的概率測度,
.稱
上的隨機概率測度
為參數
的Dirichlet 過程如果對任意
的有限劃分
有
記 .
性質(1). 令 為樣本,
,那麼
.
性質(2). 令 為樣本,
,那麼
.
5. 過程的存在性及構造
下面我們利用折棍子方法給出 過程的構造(Stick-breaking Construction)。折棍子演算法如下
(1)
(2)
(3)
(4)
定理 .
5. 應用
DP過程主要應用三個領域:模型的貝葉斯驗證, 密度估計以及混合模型的聚類。
(1)模型的貝葉斯驗證
如何對檢驗一個模型對給定樣本數據擬合的效果呢?通常做法是利用貝葉斯公式計算感興趣分佈下的樣本數據邊際概率,然後計算其它分佈下的樣本數據邊際概率。與其它分佈相比,如果感興趣的模型下的數據邊際概率最高,那麼就說明該分佈對樣本數據擬合較好。該方式核心的問題就是對比較分佈的選擇。一般地我們希望比較分佈的集合儘可能的大,並且具有先驗分佈。DP過程是一個很好的選擇,通常的做法是選該興趣的分佈為基礎分佈 ,DP過程
為比較分佈的集合,如果
分佈比
分佈對數據擬合的更好,則我們就認為選擇
分佈是合理的。
(2)密度估計
令 為數據樣本,
為密度函數。因為
是離散的,我們採用密度函數
作為樣本的密度函數.
(3)混合模型的聚類
Dirichlet過程最重要的應用就是利用混合模型對數據進行聚類。令 為數據樣本,
為相應的隱參數。假設
獨立同分布,且
,具體生成模型如下:
.由於
是離散的,因此有多個
取同一個值,這樣具有相同參數
的
為同一個類。
6. 展望
Dirichlet過程和貝葉斯非參在機器學習和統計中是一個非常活躍的領域。目前主要有以下四個方向:
(1)DP模型的有效統計推斷問題。常見方法有MCMC抽樣,變分方法。
(2)DP模型的擴展。
(3)收斂和相合性等理論問題。
(4)模型的應用:聚類,認知,回歸和分類等
推薦閱讀: