介紹
如下圖所示,這是一個二分類問題,紅色藍色分別表示兩個類,顯然這個決策邊界是非線性的
模式分類的常見的方法就是使用高斯核 .核 定義了一個在二維平面上的再生核希爾伯特空間,用 表示。
假設給定比較少的已標記數據對 ,數量為 對每個 有 。那麼為了學得一個好的分類器,可能需要求解以下維問題:
公式的含義顯而易見,不細說。根據表示理論解的形式可以寫為:
是平方損失時相當於RLS,是hinge loss時相當於SVM。
如圖1b所示考慮當只有兩個已標記數據點的時候,學到的函數是兩個高斯的線性組合,如圖2所示兩個中心即是這兩個數據點。
因為高斯核是各向同性的,因此它是兩個對稱球狀。最節決策平面是一條線,如圖2c所示。
很明顯高斯的對稱球狀不是合適的核函數選擇,因為決策平面和實際的類數據分布不一致。我們提出這樣一個問題:
能否定義一個核函數 :這個核函數能夠適應數據的幾何分布?
這樣的核函數必須滿足兩個性質:
我們的希望是獲得這樣一個問題:
它的解 應該符合我們的要求。
注意這裡的 仍然是兩個核函數的線性組合,中心是兩個數據點。這個解必須產生一個直觀上符合圖1a的決策面來分開兩個圓。Mercer Kernel的先天形式顯然不符合。
這裡為了滿足要求,我們需要把原始空間做變換獲得一個新的RKHS 。根據流行正則化的思想,可利用未標記數據來估計數據的潛在的邊緣分布的幾何形狀。新的 可以通過未標記數據顯示的計算。在新的RKHS中只有已標記數據,可以對半監督推斷使用全監督核方法。
先來討論一下RKHS的基本性質。設 表示一個歐式空間或流行的一個緊域(compact domain)。
如果點的計算函數有界,也就是對任何 ,存在一個 使得
,那麼一個完備的希爾伯特空間 ( ,內積為 )是再生核希爾伯特空間。
可以使用Risesz表示定理為點的計算函數來構建一個對稱的半正定核 :
我們將會闡釋一個非常普適的過程:「彎曲」範數 給出一個新的RKHS ,其核我們表示為 .
設 是一個有半正定內積(二次形式)的線性空間,設 是一個有界線性運算元。我們定義 是來自 的函數的空間,然而內積修改為:
命題2.1: 是一個再生核希爾伯特空間。
證明:顯然 是完備的,因為改進範數(modified norm)中的柯西列也是原始範數(original norm)中的柯西列,所以收斂到 中的某個元。同樣的原因顯然點的計算有界 暗含: .
我們感興趣的是當 和 依賴於數據的時候。注意到命題2.1非常普適,對許多S和 的選擇都成立,這通常並不容易把核 和 聯繫起來。但如後面所說,對一個類從『point-cloud norms』的角度這種聯繫可以顯示錶示。
給定數據點 ,設 為計算映射: .令 . 上的(半)範數通過一個對稱半正定矩陣 給定:
我們將會推導出 的精確形式. 對 採用正交分解有:
其中 表示在所有數據點消失的函數。很明顯對任何 , ,因此對空間中的任何函數 有
因此對任意 有:
因此,對任何 ,我們有 或者 。換句話說,
另一方面,對任意 和 ,從 上的內積定義我們看到
. 因此, .
所以有: .
這兩個spans相同,我們得出:
其中係數 取決於 。
為了確定 ,我們我們考慮一個在 處計算 的線性方程組:
其中 , 是向量,其組成為
這個公式為下面的方程組提供了係數 :
其中 是矩陣 , 像前面一樣表示向量 .
最終我們獲得 的顯示形式:
可以看到矩陣 是對稱的。當 可逆時它等於 ,也明顯對稱。當 異常可以對其添加一個小的項然後使用連續性理論。
現在問題的關鍵就是選擇 使得依賴數據的改進核 能和我們關於數據的直覺相一致。這些直覺可能由先驗知識提供,或者在半監督學習中由未標記數據的邊緣分布來描述。
這裡我們使用關於point cloud 的Laplacian【1,2】。這個選擇滿足一個關於邊緣分布幾何結構經驗估計的光滑性假設。
設 , 是一個整數, 是圖的拉普拉斯矩陣。定義為:
, , 是一個對角矩陣 。
圖的拉普拉斯矩陣體用了顧上的光滑性懲罰: .
通常我們用最近鄰來構建這個矩陣。鄰居關係可以隨著我們對數據的理解不同而改變。細節參考【3,4】
參考文獻
推薦閱讀: