介绍
如下图所示,这是一个二分类问题,红色蓝色分别表示两个类,显然这个决策边界是非线性的
模式分类的常见的方法就是使用高斯核 .核 定义了一个在二维平面上的再生核希尔伯特空间,用 表示。
假设给定比较少的已标记数据对 ,数量为 对每个 有 。那么为了学得一个好的分类器,可能需要求解以下维问题:
公式的含义显而易见,不细说。根据表示理论解的形式可以写为:
是平方损失时相当于RLS,是hinge loss时相当于SVM。
如图1b所示考虑当只有两个已标记数据点的时候,学到的函数是两个高斯的线性组合,如图2所示两个中心即是这两个数据点。
因为高斯核是各向同性的,因此它是两个对称球状。最节决策平面是一条线,如图2c所示。
很明显高斯的对称球状不是合适的核函数选择,因为决策平面和实际的类数据分布不一致。我们提出这样一个问题:
能否定义一个核函数 :这个核函数能够适应数据的几何分布?
这样的核函数必须满足两个性质:
我们的希望是获得这样一个问题:
它的解 应该符合我们的要求。
注意这里的 仍然是两个核函数的线性组合,中心是两个数据点。这个解必须产生一个直观上符合图1a的决策面来分开两个圆。Mercer Kernel的先天形式显然不符合。
这里为了满足要求,我们需要把原始空间做变换获得一个新的RKHS 。根据流行正则化的思想,可利用未标记数据来估计数据的潜在的边缘分布的几何形状。新的 可以通过未标记数据显示的计算。在新的RKHS中只有已标记数据,可以对半监督推断使用全监督核方法。
先来讨论一下RKHS的基本性质。设 表示一个欧式空间或流行的一个紧域(compact domain)。
如果点的计算函数有界,也就是对任何 ,存在一个 使得
,那么一个完备的希尔伯特空间 ( ,内积为 )是再生核希尔伯特空间。
可以使用Risesz表示定理为点的计算函数来构建一个对称的半正定核 :
我们将会阐释一个非常普适的过程:「弯曲」范数 给出一个新的RKHS ,其核我们表示为 .
设 是一个有半正定内积(二次形式)的线性空间,设 是一个有界线性运算元。我们定义 是来自 的函数的空间,然而内积修改为:
命题2.1: 是一个再生核希尔伯特空间。
证明:显然 是完备的,因为改进范数(modified norm)中的柯西列也是原始范数(original norm)中的柯西列,所以收敛到 中的某个元。同样的原因显然点的计算有界 暗含: .
我们感兴趣的是当 和 依赖于数据的时候。注意到命题2.1非常普适,对许多S和 的选择都成立,这通常并不容易把核 和 联系起来。但如后面所说,对一个类从『point-cloud norms』的角度这种联系可以显示表示。
给定数据点 ,设 为计算映射: .令 . 上的(半)范数通过一个对称半正定矩阵 给定:
我们将会推导出 的精确形式. 对 采用正交分解有:
其中 表示在所有数据点消失的函数。很明显对任何 , ,因此对空间中的任何函数 有
因此对任意 有:
因此,对任何 ,我们有 或者 。换句话说,
另一方面,对任意 和 ,从 上的内积定义我们看到
. 因此, .
所以有: .
这两个spans相同,我们得出:
其中系数 取决于 。
为了确定 ,我们我们考虑一个在 处计算 的线性方程组:
其中 , 是向量,其组成为
这个公式为下面的方程组提供了系数 :
其中 是矩阵 , 像前面一样表示向量 .
最终我们获得 的显示形式:
可以看到矩阵 是对称的。当 可逆时它等于 ,也明显对称。当 异常可以对其添加一个小的项然后使用连续性理论。
现在问题的关键就是选择 使得依赖数据的改进核 能和我们关于数据的直觉相一致。这些直觉可能由先验知识提供,或者在半监督学习中由未标记数据的边缘分布来描述。
这里我们使用关于point cloud 的Laplacian【1,2】。这个选择满足一个关于边缘分布几何结构经验估计的光滑性假设。
设 , 是一个整数, 是图的拉普拉斯矩阵。定义为:
, , 是一个对角矩阵 。
图的拉普拉斯矩阵体用了顾上的光滑性惩罚: .
通常我们用最近邻来构建这个矩阵。邻居关系可以随著我们对数据的理解不同而改变。细节参考【3,4】
参考文献
推荐阅读: