PRML学习笔记（十二）第十二章连续潜在变数

PRML 和 ESL 的学习基本上是学十得一。稳扎稳打再来一次

连续潜在变数

12.1 主成分分析

主成分分析，或者称为PCA，是一种被广泛使用的技术，应用领域包括维度降低。有损数据压缩、特征抽取、数据可视化。它也被成为 Karhunen-Loeve 变换。有两种经常使用的PCA的定义，他们会给出同样的演算法。PCA可以被定义为数据在低维线性空间上的正交投影，这个线性空间被称为主子空间，使得投影数据的方差被最大化。等价地，它也可以被定义为使得平均投影代价最小的线性投影。平均投影代价是指数据点和它们投影之间的平均平方距离。

12.1.1 最大方差形式

假设有一组观测数据集 $x_{n}$ ，维度为D，目标是将数据投影到维度为M(M<D)的空间中，同时最大化投影数据的方差。

考虑在一维空间上的投影，我们可以使用D维向量 $u_{1}$ 定义这个空间的方向。为了方便，我们假定选择一个单位向量，这样，每个数据点 $x_{n}$ 被投影到一个标量值 $u_{1}^{T}x_{n}$ 上。投影数据的均值是 $u_{1}^{T}ar{x}$ ，投影数据的方差为：

$frac{1}{N}sum_{n=1}^{N}{u_{1}^{T}x_{n} - u_{1}^{T}ar{x}}^{2} = u_{1}^{T}Su_{1}$

我们现在关于 $u_{1}$ 最大化投影方差 $u_{1}^{T}Su_{1}$ 。采用拉格朗日乘数法，以u的归一化条件为限制，我们看到驻点满足：

$Su_{1} = lambda_{1}u_{1}$

这表明 $u_{1}$ 一定是S的一个特征向量。如果我们左乘 $u_{1}^{T}$ ，使用 $u_{1}^{T}u_{1}=1$ ，我们看到方差为：

$u_{1}^{T}Su_{1} = lambda_{1}$

因此当我们将 $u_{1}$ 设置为与最大的特征值 $lambda_{1}$ 的特征向量相等时，方差会达到最大值，这个特征向量被称为第一主成分。对于其他主成分，我们可以考虑那些与现有方向正交的所有可能方向中，将新的方向选择为最大化投影方差的方向。以此类推得到协方差矩阵S的M个特征向量 $u_{1},dots,u_{M}$ ，对应于M个最大特征值 $lambda_{1},dots,lambda_{M}$ 。

12.1.2 最小误差形式

现在考虑基于误差最小化的投影方法。为此我们引入D维基向量的一个完整的单位正交集合 $u_{i}$ ，其中，且满足：

$u_{i}^{T}u_{j} = delta_{ij}$

由于基是完整的，因此数据点可以表示为基向量的线性组合，因此：

$x_{n} = sum_{i=1}^{D}(x_{n}^{T}u_{i})u_{i}$

然而，我们的目标是使用限定数量M个变数的一种表示方法来近似数据点，这对应于在低维子空间上的投影，若采用M个基向量来表示M为子空间，那么我们可以用下式来近似每个数据点：

$ilde{x}{n} = sum_{i=1}^{M}z_{ni}u_{i} + sum_{i=M+1}^{D}b_{i}u_{i}$

其中 ${z_{ni}}$ 依赖于特定的数据点，而 $b_{i}$ 是常数，对于所有的数据点都相同。为了最小化失真，我们采用原始数据点和与它近似点 $ilde{x}_{n}$ 之间的平方距离，在数据集上取平均，即最小化下式：

$J = frac{1}{N}sum_{n=1}^{N}||x_{n} - ilde{x}_{n} ||^{2}$

消去上式中的 $z_{ni}$ 和 $b_{i}$ ，则得到纯粹关于 $u_{i}$ 的J的表达式：

$J = sum_{i=M+1}^{D}u_{i}^{T}Su_{i}$

对于任意的D和M<D，最小化J的解一般都可以通过将 $u_{i}$ 选择为协方差矩阵的特征向量的方式的得到，即：

$Su_{i} = lambda_{i}u_{i}$

这样，J就变成：

$J = sum_{i=M+1}^{D}lambda_{i}$

这就是与主子空间正交的特征值的加和，于是，我们可以通过将这些特征向量选择成D-M个最小的特征值对应的特征向量，来得到J的最小值，因此定义了主子空间的特征向量是对应于M个最大特征值的特征向量。

12.2 概率PCA

PCA也可以被视为概率潜在变数模型的最大似然解，PCA的这种形式被称为概率PCA，它与因子分析密切相关。

概率PCA是线性高斯框架的一个简单的例子，其中所有的边缘概率分布和条件概率分布都是高斯分布。首先显示引入潜在变数z，对应于主成分子空间。接下来我们定义潜在变数上的一个高斯先验分布p(z)以及高斯条件概率分布：

$p(x | z) = mathcal{N}(x | Wz + mu, sigma^{2}I)$

其中x的均值是z的一个一般线性函数，由的矩阵W和D维向量控制。W的列张成了数据空间的一个线性子空间，对应于主子空间。p(z)被定义为零均值单位协方差的高斯是因为更一般的高斯分布会产生一个等价的概率模型。

假如从生成式的观点看待概率PCA模型的话，观测值的一个采样值可以这样获得：首先为潜在变数选择一个值，然后以这个潜在变数的值为条件，对观测变数采样。具体来说，D维观测变数x由M维潜在变数z的一个线性变换附加一个高斯「杂讯」定义，即：

其中是一个D维零均值高斯分布的杂讯变数。可以看出，这个框架基于的是从潜在空间到数据空间的一个映射，从数据空间到潜在空间的逆映射可以通过使用贝叶斯定理的方式得到。

我们希望使用最大似然的方式确定 $W, mu, sigma^{2}$ 的值。概率PCA模型可以表示为一个有向图，如下图所示，则对应的对数似然函数为：

$ln p(X | mu, W, sigma^{2}) = sum_{n=1}^{N}ln p(x_{n} | W, mu, sigma^{2}) = -frac{ND}{2}ln(2pi) - frac{N}{2}ln|C| - frac{1}{2}sum_{n=1}^{N}(x_{n}-mu)^{T}C^{-1}(x_{n}-mu)$