《多模态图像到图像的翻译》学习笔记

《Toward Multimodal Image-to-Image Translation》学习笔记

图像到图像的翻译目的是学习从源域到目标域的映射，它是计算机视觉中非常具有挑战性的任务。说到图像到图像的翻译，就会联想到大家所熟知的BicycleGAN。

论文下载：

https://arxiv.org/pdf/1711.11586.pdf?

arxiv.org

代码下载：

junyanz/BicycleGAN?

github.com

一般完成」图像到图像的翻译」的任务有两种解决方法：

像素的回归或分类
生成对抗网路(Generative Adversarial Nets)

利用GANs得到的结果具有较强的鲁棒性和较强的感知真实感，GAN在图像翻译任务上的方法有pix2pix，CycleGAN，UNIT，DTN，FaderNets，DistanceGAN，GeneGAN，pix2pixHD，StarGAN等等。图像质量也从64x64解析度提升到1024x2048。

「《Toward Multimodal Image-to-Image Translation》」的目的是在给定输入图像的情况下，生成输出图像的分布。本质上它是利用条件生成对抗性网路将图像扩展到图像翻译模型。在pix2pix之前，许多人尝试使用GAN来解决这个问题，但这是无条件的，并且输出是基于L2回归的输入。

网路分为两部分：

第一部分：

论文使用了CVAE（条件变分自编码器）- GAN。它的思想就是找到一个低维的表示潜在空间（latent space，也是一个向量空间），即产生所有目标图像的概率分布。本文使用生成器使用编码的表示z将输入图像映射到输出图像。

第二部分：

使用了条件潜在回归GAN(ConditionalLatentRegressorGAN)。在这里，z是从正态分布N(Z)中采样的，除了输入图像A之外，它还被馈送到Generator以获得输出图像。然后将输出图像传送到编码器网路，输出z『，本文尝试将z』输出到接近N(Z)的位置。经过这两个步骤后，我们计算损失函数。最终的损失函数如下所示：