chapter 2是標籤傳播演算法,然後通過高斯隨機場和調和函數來再次闡釋標籤傳播。標籤傳播的解釋有很多角度,比如隨機行走(random walk)、電壓電流網路(Electric Networks)、也可以是圖的最小割的soft version。其中作者的Combining Active Learning and Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions論文獲得了ICML10年經典論文獎。


Chapter 2:標籤傳播 Label Propagation

我們把問題看成在圖上標籤傳播的形式,根據節點的相近性一個節點的標籤傳播到它的鄰居節點。在這個過程中我們固定已標記數據的標籤。因此已標記數據就像源頭一樣流出通過未標記數據的標籤。

2.1 問題設定

設已標記數據為 {(x_1,y_1)...(x_l,y_l)} , yin{1...C} ,未標記數據為 {x_{l+1}...x_{l+u}} ,通常 lll u 。設 n=l+uL、U 分別表示已標記和未標記數據。假定類別數量 C 已知,所有的類都在已標記數據中。

直觀上我們希望相近的數據點有相同的標籤。我們創造一個圖,圖中節點代表數據點(包括已標記和未標記)。節點 i,j 之間的邊代表他們的相似程度。我們假設圖是全連接的,權重為 w_{ij}=mbox{exp}Big(-frac{|x_i-x_j|^2}{alpha^2}Big) , alpha 為控制帶寬的超參數。

2.2 演算法流程

我們通過邊來傳播標籤,更大的邊允許標籤更容易通過。定義一個 n	imes n 概率轉移矩陣 P : P_{ij}=P(i
ightarrow j)=frac{w_{ij}}{sum_{k=1}^{n}w_{ik}}(2.2)

其中 P_{ij} 是從節點 ij 的概率。定義一個 l	imes C 標籤矩陣 Y_L ,第 i 行是 y_i(iin L:Y_{ic}=delta(y_i,c)) 的一個指示向量。我們計算節點的"軟"標籤 ff 是一個 n	imes C 的矩陣,行可以理解為標籤之間的概率分佈。 f 的初始化不重要,整個標籤傳播演算法過程如下:

  1. 傳播:Propagate fleftarrow Pf
  2. 固定已標記數據:Clamp the labeled data f_L=Y_L
  3. 重複步驟1直到 f 收斂。

在第一步中所有節點將它們的標籤傳向它們的鄰居。第二步非常關鍵:我們想從已標記數據那裡獲得固定持久的標籤源,因此不是讓初始的標籤逐漸減弱消失,而是用 Y_L 固定它們。有了這個從已標記節點的不變「動力(push)」,類邊界就會繼續推進通過高密度區域並在低密度間隔處停止。如果用這種結構用來做分類任務,那麼這個演算法可以利用未標記數據來學習。

2.3 收斂性

這種演算法最後會收斂到一個簡單的解。令 f=inom{f_L}{f_U} 。由於將 f_L 固定為了 Y_L ,我們只對 f_U 感興趣。我們把P切分為已標記和未標記的子矩陣來表示:

egin{bmatrix} P_{LL}&P_{LU}\P_{UL}&P_{UU} end{bmatrix}(2.3)

演算法中可以表示為:

f_Uleftarrow P_{UU}f_U+P_{UL}Y_L(2.4) 即:

f_U=lim_{n
ightarrow infty}(P_{UU})^nf_U^0+Big(sum_{i=1}^n(P_{UU})^{i-1}Big)P_{UL}Y_{L}(2.5)

其中:f_U^0f_U 的初始值, (P_{UU})^nf_U^0
ightarrow0 。因為 P 是行規範化的, P_{UU}P 的子矩陣,因此有:

existsgamma<1,sum_{j=1}^u(P_{UU})_{ij}legamma,forall i=1...u (2.6)

從而:

egin{alignat}{1}sum_j(P_{UU})^n_{ij}&=sum_jsum_k(P_{UU})^{(n-1)}_{ik}(P_{UU})_{kj}(2.7)\&=sum_k(P_{UU})^{(n-1)}_{ik}sum_j(P_{UU})_{kj}(2.8)\&lesum_k(P_{UU})^{(n-1)}_{ik}gamma(2.9) \&legamma^n(2.10) end{alignat}

因此 (P_{UU})^n 收斂到0意味著 (P_{UU})^nf_U^0
ightarrow0 。因此初始值 f_U^0 不重要。

顯然有: f_U=(I-P_{UU})^{-1}P_{UL}Y_{L}(2.11) 是一個固定不動的點。因此我麼的迭代演算法的解是這個不動點,無需迭代的傳播就能直接求得標籤傳播問題的解。

需要注意當 (I-P_{UU})^{-1} 可逆的時候解是有效的。這個條件滿足的話,直觀上圖中的每個連接組件都至少有一個已標記點。

2.4示例

我們在兩個數據集上展現標籤傳播的性質。圖2.1(a)中數據有三個類,每個是橫窄帶狀分佈。數據點為均勻的從帶中採樣而得。開始有三個標記點和178個未標記點。在1NN(1-nearest-neighbor)演算法中,忽略了未標記數據因此得到了2.1(b)結果。標籤傳播演算法得到的結果為2.1(c),標籤沿著橫向帶狀傳播。

圖2.1

圖2.2是三維螺旋結構的數據集,有兩個類。圖中有2個已標記數據點和184個未標記數據點。同樣1NN的結果不如標籤傳播。

圖2.2


Chapter 3 高斯隨機場和調和函數(Gaussian Random Fields and Harmonic Functions)

在這一章我們將基於概率框架的標籤傳播形式化。不失一般性,假定二分類 yin{0,1} , 我們假設給定 n	imes n 權重矩陣 WW 中的項都是對稱非負的,但 W 不一定是半正定的。

4.1 高斯隨機場(Gaussian Random Fields)

我們的方法是在圖上定義一個連續隨機場。首先定義一個實值函數: f:Lcup U
ightarrow mathbb Rf 可以是負的也可以大於1。直觀上我們認為相似的未標記點具有相似的標籤,從這點考慮可以選擇二次能量函數:

E(f)=frac{1}{2}sum_{i,j}w_{ij}(f(i)-f(j))^2(4.1)

顯然 E 可以通過常數函數最小化。但對於已經觀測到的點我們設 f(i)=y_i,iin L 。通過高斯隨機場我們假設函數 f 的概率分佈為

p(f)=frac{1}{Z}e^{-eta E(f)}(4.2) eta 是「溫度顛倒」參數,

Z=int_{f_L=Y_L}mathrm{exp}(-eta E(f))df(4.3) 是配分函數,作用是為了歸一化。

我們感興趣的是推斷問題 p(f_i|Y_L),iin U 或者均值 int_{-infty}^{infty}f_ip(f_i|Y_L)df_i

分佈 p(f) 非常像離散狀態的標準馬爾科夫隨機場。實際上區別就是具有實值關係。但這個關係可以大大簡化推斷問題。因為二次能量函數, p(f)和p(f_U|Y_L) 都是多維高斯分佈。這就是為什麼把 p 稱為高斯隨機場。邊緣分佈 p(f_i|Y_L) 是單變數高斯分佈,具有閉式解。

4.2拉普拉斯運算元(The Graph Laplacian)

現在我們介紹一個重要的量:combinatorial Laplacian Delta 。設 D 是度矩陣定義請參考這裡其中 D_{ii}=sum_jW_{ij} 是節點 i 的度。拉普拉斯運算元定義為:

Deltaequiv D-W(4.4)

利用拉普拉斯運算元可將能量函數簡寫,可以證明:

E(f)=frac{1}{2}sum_{i,j}w_{ij}(f(i)-f(j))^2=f^TDelta f(4.5)

高斯隨機場可以寫為:

p(f)=frac{1}{Z}e^{-eta f^TDelta f}(4.6)

Delta 在一個多維高斯分佈中扮演精度矩陣的角色。如果 W 是對稱非負的話,就總是半正定的。

4.3調和函數(Harmonic Functions)

不難看出最小化能量函數 f=mathrm{argmin}_{f_L=Y_L}E(f) 是harmonic,也就是說在未標記數據點 U 上滿足 Delta f=0 ,在已標記數據點上等於 Y_L 。我們用 h 來代表這個調和函數。

調和性質意味著在每個未標記數據點 i 的值 h(i) 是它在圖中的鄰居的平均值:

h(i)=frac{1}{D_{ii}}sum_{jsim i}w_{ij}h(j),(iin U)(4.7)

由於調和函數最大原理( 如果調和函數不是一個常數,那麼它的最大最小值只能在邊界上),故 h 是獨一無二的並且滿足 0le h(i)le1(iin U) ,注意對 iin Lh(i)=0,1 .

為了計算調和解,我們把矩陣 W 分解為四塊:

W=egin{bmatrix}W_{LL}&W_{LU}\W_{UL}&W_{UU}end{bmatrix}(4.8)

Delta h=0 和約束 h_L=Y_L 可得調和解:

egin{split}h_U=&(D_UU-W_UU)^{-1}W_{UL}Y_L(4.9)\=&-(Delta_{UU})^{-1}Delta_{UL}Y_L(4.10)\=&(I-P_{UU})^{-1}P_{UL}Y_L(4.11)end{split}

最後一項和等式(2.11)一樣,其中 P=D^{-1}W 是圖上的傳播矩陣。chapter2裡面的標籤傳播演算法實際上計算的是調和函數。

調和函數最小化能量是(4.2)的眾數,因為(4.2)定義了一個單峯各向同性的高斯分佈,眾數也是均值。


Chapter 5 Active Learning

5.1 結合半監督學習和主動學習(Combing Semi-Supervised and Active Learning)

高斯隨機場和調和函數框架允許將半監督啊學習和主動學習結合起來。每次從未標記數據中貪婪選擇點查詢,按照最小化調和能量最小函數的風險為準則。這個風險是貝葉斯分類器泛化誤差的估計,可以通過矩陣的方法計算。基於調和函數 h 我們定義貝葉斯分類器的真實風險 mathcal R(h) 為:

mathcal R(h)=sum_{i=1}^{n}sum_{y_i=0,1}[mathrm{sgn}(h_i)
eq y_i]p^*(y_i)

mathrm{sgn}(h_i) 是貝葉斯決策規則,閾值為0.5,大於0.5為1否則為1. p^*(y_i) 是未知的真實標籤在結點 i 的分佈,因此 mathcal R(h) 是可計算的。假設我們可以用高斯隨機場的均值來估計未知分佈 p^*(y_i) : p^*(y_i=1)approx h_i

直觀上,在圖上一次random walk為1的概率是 h_i ,我們的假設是我們可以近似這個分佈,使用在每個結點使用一個有偏硬幣,正面朝上的概率為 h_i 。有了這個假設可以計算估計風險:

egin{split}hat{mathcal R}(h)=&sum_{i=1}^n[mathrm{sgn}(h_i)
eq0](1-h_i)+[mathrm{sgn}(h_i)
eq1]h_i\=&sum_{i=1}^nmathrm{min}(h_i,1-h_i))end{split}(5.1)

如果查詢一個未標記結點 k ,就會得到一個結果 y_k(0,1) 。把這個點加入訓練集中重新訓練,高斯隨機場和均值函數也會改變。設新的調和函數為 h^{+(x_k,y_k)} 。估計風險也會變為:

hat {mathcal{R}}(h^{+(x_k,y_k)})=sum_{i=1}^nmathrm{min}(h_i^{+(x_k,y_k)},1-h_i^{+(x_k,y_k)})

因為我們不知道 y_k 的真實標記,我們再一次假設 p^*(y_i=1)approx h_i 。查詢過結點 k 之後的期望估計風險為:

hat{mathcal R}(h^{+x_k})=(1-x_k)hat{mathcal{R}}(h^{+(x_k,0)})+h_khat {mathcal R}(h^{+(x_k,1)})

這裡我們使用的選擇防範是最小化期望估計風險的貪婪選擇:

k=mathrm{argmin}_{k}hat{mathcal R}(h^{+x^{k}})(5.2)

在這個過程中,我們在把 (x_k,y_k) 加入到當前已標記訓練集中後需要計算調和函數 h^{+(x_k,y_k)} 。這是一個重複訓練問題並且通常需要密集計算。但對於高斯隨機場和調和函數存在一個有效的方法。已知調和函數的解為:

h_U=-Delta_{UU}^{-1}Delta_{UL}Y_L

如果我們固定結點 k 的值 y_k 解會是什麼?這和給定值 y_k 計算所有未標記數據條件分佈相同。在高斯場中,未標記數據的條件是多維高斯分佈 mathcal N(h_U,Delta_{UU}^{-1}) 。一旦固定 y_k ,條件均值為(參考原論文的附錄A):

h_U^{+(x_k,y_k)}=h_U+(y_k-h_k)frac{(Delta_{UU}^{-1}).k}{(Delta_{UU}^{-1})kk}

(Delta_{UU}^{-1}).k 是未標記數據的Laplacian逆矩陣的第k列, (Delta_{UU}^{-1})kk 是其第k個對角元素。當計算調和函數 h 的時候這兩項已經計算過了。

主動學習演算法流程如下圖:

圖:5.1

圖2:最小化熵選擇的最不確定的點為a.我們提出的方法選擇的點偽B,是更佳的選擇.

推薦閱讀:

查看原文 >>
相關文章