基於圖的半監督學習

chapter 2是標籤傳播演算法，然後通過高斯隨機場和調和函數來再次闡釋標籤傳播。標籤傳播的解釋有很多角度，比如隨機行走（random walk）、電壓電流網路(Electric Networks)、也可以是圖的最小割的soft version。其中作者的Combining Active Learning and Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions論文獲得了ICML10年經典論文獎。

Chapter 2：標籤傳播 Label Propagation

我們把問題看成在圖上標籤傳播的形式，根據節點的相近性一個節點的標籤傳播到它的鄰居節點。在這個過程中我們固定已標記數據的標籤。因此已標記數據就像源頭一樣流出通過未標記數據的標籤。

2.1 問題設定

設已標記數據為 ${(x_1,y_1)...(x_l,y_l)}$ , ，未標記數據為 ${x_{l+1}...x_{l+u}}$ ，通常。設。分別表示已標記和未標記數據。假定類別數量已知，所有的類都在已標記數據中。

直觀上我們希望相近的數據點有相同的標籤。我們創造一個圖，圖中節點代表數據點（包括已標記和未標記）。節點之間的邊代表他們的相似程度。我們假設圖是全連接的，權重為 $w_{ij}=mbox{exp}Big(-frac{|x_i-x_j|^2}{alpha^2}Big)$ , 為控制帶寬的超參數。

2.2 演算法流程

我們通過邊來傳播標籤，更大的邊允許標籤更容易通過。定義一個概率轉移矩陣 : $P_{ij}=P(i ightarrow j)=frac{w_{ij}}{sum_{k=1}^{n}w_{ik}}（2.2）$

其中 $P_{ij}$ 是從節點到的概率。定義一個標籤矩陣，第行是 $y_i(iin L:Y_{ic}=delta(y_i,c))$ 的一個指示向量。我們計算節點的"軟"標籤。是一個的矩陣，行可以理解為標籤之間的概率分佈。的初始化不重要，整個標籤傳播演算法過程如下：

傳播：Propagate
固定已標記數據：Clamp the labeled data
重複步驟1直到收斂。

在第一步中所有節點將它們的標籤傳向它們的鄰居。第二步非常關鍵：我們想從已標記數據那裡獲得固定持久的標籤源，因此不是讓初始的標籤逐漸減弱消失，而是用固定它們。有了這個從已標記節點的不變「動力（push）」，類邊界就會繼續推進通過高密度區域並在低密度間隔處停止。如果用這種結構用來做分類任務，那麼這個演算法可以利用未標記數據來學習。

2.3 收斂性

這種演算法最後會收斂到一個簡單的解。令 $f=inom{f_L}{f_U}$ 。由於將固定為了，我們只對感興趣。我們把P切分為已標記和未標記的子矩陣來表示：

$egin{bmatrix} P_{LL}&P_{LU}\P_{UL}&P_{UU} end{bmatrix}（2.3）$

演算法中可以表示為：

$f_Uleftarrow P_{UU}f_U+P_{UL}Y_L（2.4）$ 即：

$f_U=lim_{n ightarrow infty}(P_{UU})^nf_U^0+Big(sum_{i=1}^n(P_{UU})^{i-1}Big)P_{UL}Y_{L}（2.5）$

其中：是的初始值， $(P_{UU})^nf_U^0 ightarrow0$ 。因為是行規範化的， $P_{UU}$ 是的子矩陣，因此有：

$existsgamma<1,sum_{j=1}^u(P_{UU})_{ij}legamma,forall i=1...u （2.6）$

從而：

$egin{alignat}{1}sum_j(P_{UU})^n_{ij}&=sum_jsum_k(P_{UU})^{(n-1)}_{ik}(P_{UU})_{kj}（2.7）\&=sum_k(P_{UU})^{(n-1)}_{ik}sum_j(P_{UU})_{kj}（2.8）\&lesum_k(P_{UU})^{(n-1)}_{ik}gamma（2.9） \&legamma^n（2.10） end{alignat}$

因此 $(P_{UU})^n$ 收斂到0意味著 $(P_{UU})^nf_U^0 ightarrow0$ 。因此初始值不重要。

顯然有： $f_U=(I-P_{UU})^{-1}P_{UL}Y_{L}（2.11）$ 是一個固定不動的點。因此我麼的迭代演算法的解是這個不動點，無需迭代的傳播就能直接求得標籤傳播問題的解。

需要注意當 $(I-P_{UU})^{-1}$ 可逆的時候解是有效的。這個條件滿足的話，直觀上圖中的每個連接組件都至少有一個已標記點。

2.4示例

我們在兩個數據集上展現標籤傳播的性質。圖2.1(a)中數據有三個類，每個是橫窄帶狀分佈。數據點為均勻的從帶中採樣而得。開始有三個標記點和178個未標記點。在1NN（1-nearest-neighbor）演算法中，忽略了未標記數據因此得到了2.1(b)結果。標籤傳播演算法得到的結果為2.1(c),標籤沿著橫向帶狀傳播。

圖2.1

圖2.2是三維螺旋結構的數據集，有兩個類。圖中有2個已標記數據點和184個未標記數據點。同樣1NN的結果不如標籤傳播。

圖2.2

Chapter 3 高斯隨機場和調和函數（Gaussian Random Fields and Harmonic Functions）

在這一章我們將基於概率框架的標籤傳播形式化。不失一般性，假定二分類 , 我們假設給定權重矩陣，中的項都是對稱非負的，但不一定是半正定的。

4.1 高斯隨機場（Gaussian Random Fields）

我們的方法是在圖上定義一個連續隨機場。首先定義一個實值函數：。可以是負的也可以大於1。直觀上我們認為相似的未標記點具有相似的標籤，從這點考慮可以選擇二次能量函數：

$E(f)=frac{1}{2}sum_{i,j}w_{ij}(f(i)-f(j))^2（4.1）$

顯然可以通過常數函數最小化。但對於已經觀測到的點我們設。通過高斯隨機場我們假設函數的概率分佈為

$p(f)=frac{1}{Z}e^{-eta E(f)}（4.2）$ 是「溫度顛倒」參數，

$Z=int_{f_L=Y_L}mathrm{exp}(-eta E(f))df（4.3）$ 是配分函數，作用是為了歸一化。

我們感興趣的是推斷問題或者均值 $int_{-infty}^{infty}f_ip(f_i|Y_L)df_i$ 。

分佈非常像離散狀態的標準馬爾科夫隨機場。實際上區別就是具有實值關係。但這個關係可以大大簡化推斷問題。因為二次能量函數，都是多維高斯分佈。這就是為什麼把稱為高斯隨機場。邊緣分佈是單變數高斯分佈，具有閉式解。

4.2拉普拉斯運算元（The Graph Laplacian）

現在我們介紹一個重要的量：combinatorial Laplacian 。設是度矩陣定義請參考這裡其中 $D_{ii}=sum_jW_{ij}$ 是節點的度。拉普拉斯運算元定義為：

利用拉普拉斯運算元可將能量函數簡寫，可以證明：

$E(f)=frac{1}{2}sum_{i,j}w_{ij}(f(i)-f(j))^2=f^TDelta f（4.5）$

高斯隨機場可以寫為：

$p(f)=frac{1}{Z}e^{-eta f^TDelta f}（4.6）$

在一個多維高斯分佈中扮演精度矩陣的角色。如果是對稱非負的話，就總是半正定的。

4.3調和函數（Harmonic Functions）

不難看出最小化能量函數 $f=mathrm{argmin}_{f_L=Y_L}E(f)$ 是harmonic，也就是說在未標記數據點上滿足，在已標記數據點上等於。我們用來代表這個調和函數。

調和性質意味著在每個未標記數據點的值是它在圖中的鄰居的平均值：

$h(i)=frac{1}{D_{ii}}sum_{jsim i}w_{ij}h(j),(iin U)（4.7）$

由於調和函數最大原理（如果調和函數不是一個常數，那麼它的最大最小值只能在邊界上），故是獨一無二的並且滿足 ,注意對有 .

為了計算調和解，我們把矩陣分解為四塊：

$W=egin{bmatrix}W_{LL}&W_{LU}\W_{UL}&W_{UU}end{bmatrix}（4.8）$

由和約束可得調和解：

$egin{split}h_U=&(D_UU-W_UU)^{-1}W_{UL}Y_L（4.9）\=&-(Delta_{UU})^{-1}Delta_{UL}Y_L（4.10）\=&(I-P_{UU})^{-1}P_{UL}Y_L（4.11）end{split}$

最後一項和等式（2.11）一樣，其中 $P=D^{-1}W$ 是圖上的傳播矩陣。chapter2裡面的標籤傳播演算法實際上計算的是調和函數。

調和函數最小化能量是（4.2）的眾數，因為（4.2）定義了一個單峯各向同性的高斯分佈，眾數也是均值。

Chapter 5 Active Learning

5.1 結合半監督學習和主動學習（Combing Semi-Supervised and Active Learning）

高斯隨機場和調和函數框架允許將半監督啊學習和主動學習結合起來。每次從未標記數據中貪婪選擇點查詢，按照最小化調和能量最小函數的風險為準則。這個風險是貝葉斯分類器泛化誤差的估計，可以通過矩陣的方法計算。基於調和函數我們定義貝葉斯分類器的真實風險為：

$mathcal R(h)=sum_{i=1}^{n}sum_{y_i=0,1}[mathrm{sgn}(h_i) eq y_i]p^*(y_i)$

$mathrm{sgn}(h_i)$ 是貝葉斯決策規則，閾值為0.5，大於0.5為1否則為1. 是未知的真實標籤在結點的分佈，因此是可計算的。假設我們可以用高斯隨機場的均值來估計未知分佈 :

直觀上，在圖上一次random walk為1的概率是 ,我們的假設是我們可以近似這個分佈，使用在每個結點使用一個有偏硬幣，正面朝上的概率為。有了這個假設可以計算估計風險：

$egin{split}hat{mathcal R}(h)=&sum_{i=1}^n[mathrm{sgn}(h_i) eq0](1-h_i)+[mathrm{sgn}(h_i) eq1]h_i\=&sum_{i=1}^nmathrm{min}(h_i,1-h_i))end{split}（5.1）$