快速推导 VAE 变分自编码器，多种写法，和重要细节 Variational Autoencoder

这里用代表生成模型，代表编码模型。

首先： $egin{align} mathop{argmin}_ heta mathsf{KL}(p parallel p_ heta) &= mathop{argmin}_ heta int p(x) log frac{p(x)}{p_ heta(x)} , dx \&= mathop{argmin}_ heta Big[ int p(x) log p(x) , dx - int p(x) log p_ heta(x) , dx Big] \&= mathop{argmin}_ heta Big[H(p(x)) - int p(x) log p_ heta(x) , dx Big] \&= mathop{argmax}_ heta int p(x) log p_ heta(x) , dx \&= mathop{argmax}_ heta mathbb{E}_{x sim p(x)}log p_ heta(x) end{align}$

写成 MLE，比 KL 散度少一个常数，形式更简单。没必要时刻写出 KL 散度。

让我们 1 秒钟推导出 VAE。

思想是，匹配和，就可以同时匹配和的边缘分布。

MLE 如下：

$mathop{argmax}_ heta mathbb{E}_{(x,z) sim p(x,z)}log p_ heta(x,z)$

显然等价于：

$mathop{argmax}_ heta mathbb{E}_{x sim p(x)} Big[ mathbb{E}_{z sim p(z|x)} Big[ log p_ heta(x|z) + log p_ heta(z) Big] Big]$

恭喜，推导出了 VAE。

此外，这个 MLE 显然也等价于：

$mathop{argmin}_ heta mathsf{KL}(p(x,z) parallel p_ heta(x,z))$

加 10 秒钟，把它变成更常见的样子。

展开：

$mathop{argmax}_ heta mathbb{E}_{x sim p(x)} Big[ mathbb{E}_{z sim p(z|x)} log p_ heta(x|z) + mathbb{E}_{z sim p(z|x)} log p_ heta(z) Big]$

改变符号，显然等价于：

$mathop{argmin}_ heta mathbb{E}_{x sim p(x)} Big[ mathbb{E}_{z sim p(z|x)} - log p_ heta(x|z) + mathsf{KL}ig( p(z|x) parallel p_ heta(z)ig) Big]$

再加上先验：

并令是固定 stdev 的 Gaussian 以造出 MSE：

$- log p_ heta(x|z) = frac{1}{2 sigma^2} cdot |G_ heta(z)-x|^2 + log(sqrt{2pi sigma^2})$

忽略常数，就和实际用的一模一样了。

注意：由此可见，VAE 一点儿也不模糊，真正的 VAE 有很多噪音（由于这里的概率模型是每点独立，因此噪音也是每点独立的噪音）。许多论文显示的模糊图像，是"平均图像"。

注意：我们完全可以用更复杂的先验，例如用 PixelXNN 生成图像，这样就完全没有"模糊"。

注意：似乎没人实验可变 stdev 的 Gaussian。所以我做了一些实验，见本文末尾。

最终结果（）：

$mathop{argmin}_{ heta,, mu_i,, sigma_i} mathbb{E}_{x sim p(x)} Big[ mathbb{E}_{z_i sim N(mu_i,sigma_i^2)} vert G_ heta({z_i}) - x vert^2 + eta cdot frac{1}{2} sum_i ig(mu_i^2 + sigma_i^2 - log sigma_i^2 -1 ig) Big]$

其中每个来自独立的采样。

定义，并加入重参数化 trick：

$mathop{argmin}_{ heta,, mu_i,, t_i} mathbb{E}_{x sim p(x)} Big[ mathbb{E}_{epsilon_i sim N(0,1)} vert G_ heta({mu_i + epsilon_i cdot exp(t_i/2)}) - x vert^2 + eta cdot frac{1}{2} sum_i ig(mu_i^2 + exp(t_i) - t_i -1 ig) Big]$

于是可求 LOSS 对的导数，进行 SGD。

补充传统的推导过程。如前所述，用代表生成模型，代表编码模型。

我们的目标是边缘分布的 MLE：

$mathop{argmax}_ heta mathbb{E}_{x sim p(x)}log p_ heta(x)$

注意到这里有 ELBO：

$egin{align} log p_ heta(x) &= log int p_ heta(x,z) ,dz \&= log int q_phi(z|x) frac{p_ heta(x,z)}{q_phi(z|x)} ,dz \&= log E_{ z sim q_phi(z|x)} frac{p_ heta(x,z)}{q_phi(z|x)} \&geq E_{ z sim q_phi(z|x)} log frac{p_ heta(x,z)}{q_phi(z|x)} \&= E_{ z sim q_phi(z|x)} log frac{p_ heta(x|z) , p_ heta(z)}{q_phi(z|x)} \&= E_{ z sim q_phi(z|x)} log p_ heta(x|z) - E_{ z sim q_phi(z|x)} log frac{q_phi(z|x)}{p_ heta(z)} \&=E_{ z sim q_phi(z|x)} log p_ heta(x|z) - mathsf{KL}(q_phi(z|x) parallel p_ heta(z)) end{align}$

因此目标等价于：

$mathop{argmax}_{ heta, , phi} mathbb{E}_{x sim p(x)} Big[ E_{ z sim q_phi(z|x)} log p_ heta(x|z) - mathsf{KL}(q_phi(z|x) parallel p_ heta(z)) Big]$

即：

$mathop{argmin}_{ heta,, phi} mathbb{E}_{x sim p(x)} Big[E_{ z sim q_phi(z|x)} - log p_ heta(x|z) + mathsf{KL}(q_phi(z|x) parallel p_ heta(z)) Big]$

这与我们之前的推导相同，只是多了一个去逼近之前的。

这里还有一种写法，注意到：

$E_{ z sim q_phi(z|x)} log frac{p_ heta(x,z)}{q_phi(z|x)} = E_{ z sim q_phi(z|x)} log frac{p_ heta(x) , p_ heta(z|x)}{q_phi(z|x)} = log p_ heta(x) - mathsf{KL}( q_phi(z|x) parallel p_ heta(z|x))$

因此目标等价于：

$mathop{argmin}_{ heta,, phi} mathbb{E}_{x sim p(x)} Big[ - log p_ heta(x) + E_{ z sim q_phi(z|x)} mathsf{KL}(q_phi(z|x) parallel p_ heta(z|x)) Big]$

我在另一篇文章，简单实验了有可变 stdev 的情况：

PENG Bo：DGN v2：生成器应该输出分布，清晰图像并不是 GAN 的特权?

zhuanlan.zhihu.com

快速推导 VAE 变分自编码器，多种写法，和重要细节 Variational Autoencoder

注意：由此可见，VAE 一点儿也不模糊，真正的 VAE 有很多噪音（由于这里的概率模型是每点独立，因此噪音也是每点独立的噪音）。许多论文显示的模糊图像，是"平均图像"。

注意：我们完全可以用更复杂的先验，例如用 PixelXNN 生成图像，这样就完全没有"模糊"。

注意：似乎没人实验可变 stdev 的 Gaussian。所以我做了一些实验，见本文末尾。

热门新闻

周热门

快速推导 VAE 变分自编码器，多种写法，和重要细节 Variational Autoencoder

注意：由此可见，VAE 一点儿也不模糊，真正的 VAE 有很多噪音（由于这里的概率模型是每点独立，因此噪音也是每点独立的噪音）。许多论文显示的模糊图像，是"平均图像"。

注意：我们完全可以用更复杂的先验，例如用 PixelXNN 生成图像，这样就完全没有"模糊"。

注意：似乎没人实验可变 stdev 的 Gaussian。所以我做了一些实验，见本文末尾。

PN-28: Sub-policy Adaptation for HRL (arXiv 1906)

重磅！图像分类相关文献/代码大列表

轻量型网路：MixNet解读

强化学习之Q-Learning

【学习笔记】cs231n中assignment1中的k-Nearest Neighbor (kNN) exercise

【学习笔记】cs231n中assignment2的dropout

详解PyTorch中的ModuleList和Sequential

人工智慧ai演算法、深度学习、机器学习、自然语言处理工程师岗位

F-Principle：初探理解深度学习不能做什么

换脸视频后AI又出偏门应用：用演算法「脱」女性衣服

【KDD18最佳论文揭晓】中科大等斩获最佳学生论文

用小样本数据集构建强大的图像分类模型

「知识星球」网路结构1000变上线，下半年更新500+网路模型解读

EasyDL终于让「人工智慧」的「人工」部分智能了

自编码器提取到的特征，到底是隐层权重，还是隐层的输出值？

热门新闻

周热门