2.4 指數分布簇

本章介紹的所有概率分布都屬於一個龐大的家族,那就是指數分布簇,它的成員有很多共有的重要性質,因此討論一下它很有必要。我們設 m x 為一個或一組隨機變數,給定參數集 meta ,則指數分布簇中的分布具有如下形式:

p(m x|m eta) = h(m x)g(m eta)exp{meta^Tm u(m x)}

這裡 meta 稱為分布的自然參數, m u(m x) 是一個列向量,其每個分量都是 m x 的函數(因此h(x)在這個形式里沒有存在的必要,因為它可以寫在指數上),而 g(m eta) 則是與 m x 無關的為了確保分布歸一化的常數項。

舉例:伯努利分布屬於指數分布簇

p(x|mu) = Bern(x|mu) = mu^x(1-mu)^{1-x} = (1-mu)exp{ln(frac{mu}{1-mu})x}


2.4.1 最大似然估計和充足統計量

對於指數分布簇的形式,給定觀測後求其似然函數,兩側對 meta 取梯度並令其為零(這是求最大似然估計的通用步驟),我們得到

-
ablaln g(meta_{ML}) = frac{1}{N}sum_{n=1}^Nm u(m x_n)

這是一個求解參數最大似然估計的標準過程,而且我們也順理成章地得到了適用於序列方法的充足統計量 Sigma_nm u(m x_n) 。因此,所有指數分布簇中的分布都是可以有良好形式序列方法的分布。


2.4.2 共軛先驗

指數分布簇也有通用形式的共軛先驗。我們受的啟發是使得參數先驗和後驗的形式相同,因此它的形式是

p(meta|mchi,
u)=f(mchi,
u)g(meta)^
uexp{
umeta^Tmchi}

其中 f(mchi,
u) 的作用是歸一化。驗證得其後驗分布是

p(meta|m X,mchi,
u)propto g(meta)^{
u+N}exp{meta^T(sum_{n=1}^Nm u(m x_n)+
umchi)}

因此我們可以將 
u 解讀為「偽觀測」數量,而 mchi 便是充足統計量了。


2.4.3 無信息先驗

有些時候,我們對參數的先驗分布具有一些知識,但是也有時候我們對參數的先驗分布一無所知。此時我們希望尋找一種先驗分布的形式,稱為無信息先驗,即「讓數據為自己代言」。

如果參數是離散的只有K種可能,那麼我們可以給每種可能賦予1/K的等概率。但是如果參數的取值是連續的,這樣做就會遇到兩種困難。

  1. 先驗分布無法歸一化。這種先驗稱為「不合適的」,但是我們強行使用這種先驗得到的後驗往往是可以被歸一化的(因此這一點不難解決)。
  2. 隨機變數被非線性變換後的密度能否被接受。通過概率論的知識我們知道,對於是常數的密度函數,在對變數做非線性變換後其密度很可能不是常數了

為了解決第二點,我們提出兩種無信息的先驗。以高斯分布為例子:

  1. 其均值應該在變數的平移尺度上具有不變性,即它的先驗分布密度函數應該具有如下性質:

p(mu-c)=p(mu)

2. 其方差應該在變數的縮放尺度上具有不變性,即它的先驗分布密度函數應該具有如下性質:

p(sigma) = p(frac{1}{c}sigma)frac{1}{c} quad 	herefore p(sigma)propto1/sigma


2.5 非參數方法

在本章中我們之前介紹的方法可以稱作參數方法,因為他們受一小部分由數據集決定的參數控制。參數方法的一個重要問題在於所選的模型可能對於生成數據的模型是一個很差的近似,並最終導致預測效果很差。舉例,如果生成數據的模型是多峰的,那麼我們用單峰的模型不可能得到好的近似。

因此我們提出非參數方法,它們對數據集不需要作出什麼假設。這裡我們只討論簡單的頻率主義非參數方法,但是貝葉斯主義的非參數方法其實也很值得研究。

最直觀的非參數方法當屬直方圖了,將一個隨機變數的取值區間分成很多個小塊,比如在一個長度為 Delta_i 的小塊中有 n_i 個觀測,而整體有N個觀測,很自然地將這一塊的概率定義為 p_i=frac{n_i}{NDelta_i} 。這樣的分法明顯具有歸一化的性質,即 int p(x)dx=1 。直方圖法可以被很容易的序列化,概率一旦計算完成也可以將數據集丟棄,因此在實際應用中,它一般用作快速地在一兩個維度上將數據可視化。它之所以不適合用作密度估計,是因為:

  1. 在區間的邊界密度函數不連續
  2. 容易受維數災難影響,高維環境下數據會稀疏

但是直方圖法給我們兩個啟發:

  1. 為了估計某一點密度,我們應該著重考慮離該點距離較近的觀測情況
  2. 分的區間不能太密(數據稀疏)也不能太松(表達能力受限)

2.5.1 核密度估計

設要估計的點x附近有K個觀測,總體有N個觀測,而這K個觀測是在以x為球心的體積為V的球中,那麼我們估計在點x的密度為:

p(m x) = frac{K}{NV}

如果我們固定K,就得到K臨近演算法;如果我們固定V,就得到核方法。可以證明隨著N的增大這一概率將逐漸趨近於真實概率。這裡核函數可以是在定義域非負並且其在定義域上的積分為1的任何函數。一個常見的例子是高斯核函數:

p(m x) = frac{1}{N}sum_{n=1}^Nfrac{1}{(2pi h^2)^{D/2}}exp{-frac{||m x-m x_n||^2}{2h^2}}

用核密度估計的好處是在訓練過程中不需要任何計算,只要把所有數據點存起來就可以了,但是這也是它的一個主要缺點,因為估計密度的時空複雜度和數據集線性相關。


2.5.2 K近鄰方法

其實和核密度估計使用的公式一樣,因此這裡我們展示用K近鄰方法分類。設觀測集總共有K類分別是 C_1,...,C_k 它們的個數分別是 N_1,...,N_k ,滿足 sum_k N_k=N 。當我們分類一個新的點 m x 時,我們作一個以它為球心的球,使其正好包含K個點,設這個球的體積為V,K個點中每類的點分別有 K_k 個。由之前介紹的公式我們有

p(m x) = frac{K}{NV}

相似的,考慮屬於某一類的情況有

p(m x|C_k) = frac{K_k}{N_kV}

而各類的先驗概率是

p(C_k) = frac{N_k}{N}

因此我們可以用貝葉斯定理計算出後驗概率

p(C_k|m x) = frac{p(m x|C_k)p(C_k)}{p(m x)} = frac{K_k}{K}

如果要使錯誤率最小,我們選取使 K_k/K 最大的類即可。可以證明,當N趨於無窮的時候,K=1分類的錯誤率也不會超過最優分類器(即使用真實概率密度)錯誤率的兩倍。

可以看到,非參數方法的主要問題是需要儲存整個訓練集。在後面的章節中,我們會介紹適應能力極強的密度模型,但其複雜度可以與訓練集無關。


推薦閱讀:
相关文章