《Toward Multimodal Image-to-Image Translation》学习笔记

图像到图像的翻译目的是学习从源域到目标域的映射,它是计算机视觉中非常具有挑战性的任务。说到图像到图像的翻译,就会联想到大家所熟知的BicycleGAN。

论文下载:

https://arxiv.org/pdf/1711.11586.pdf?

arxiv.org

代码下载:

junyanz/BicycleGAN?

github.com
图标

一般完成」图像到图像的翻译」的任务有两种解决方法:

  1. 像素的回归或分类
  2. 生成对抗网路(Generative Adversarial Nets)

利用GANs得到的结果具有较强的鲁棒性和较强的感知真实感,GAN在图像翻译任务上的方法有pix2pix,CycleGAN,UNIT,DTN,FaderNets,DistanceGAN,GeneGAN,pix2pixHD,StarGAN等等。图像质量也从64x64解析度提升到1024x2048。

「《Toward Multimodal Image-to-Image Translation》」的目的是在给定输入图像的情况下,生成输出图像的分布。本质上它是利用条件生成对抗性网路将图像扩展到图像翻译模型。在pix2pix之前,许多人尝试使用GAN来解决这个问题,但这是无条件的,并且输出是基于L2回归的输入。

网路分为两部分:

第一部分:

论文使用了CVAE(条件变分自编码器)- GAN。它的思想就是找到一个低维的表示潜在空间(latent space,也是一个向量空间),即产生所有目标图像的概率分布。本文使用生成器使用编码的表示z将输入图像映射到输出图像。

第二部分:

使用了条件潜在回归GAN(ConditionalLatentRegressorGAN)。在这里,z是从正态分布N(Z)中采样的,除了输入图像A之外,它还被馈送到Generator以获得输出图像。然后将输出图像传送到编码器网路,输出z『,本文尝试将z』输出到接近N(Z)的位置。经过这两个步骤后,我们计算损失函数。最终的损失函数如下所示:

其中G代表生成器、D代表鉴别器和E代表编码器。

在该模型中,从潜在向量(z)到输出图像和从输出图像到潜在向量的映射是双射的。整个体系结构由B->z->B 和z->B ->z 两个循环组成,因此命名为BicycleGAN。该体系结构已在此图中进行了清晰的总结。

关键要点:

  • BicycleGAN有三个不同的网路:鉴别器,编码器,生成器。
  • 利用CVAE-GAN(条件变分自动编码器-生成对抗网路)将地面真实输出图像B编码为潜在向量z,然后用潜在向量z重建输出图像B『,即B -> z -> B 。
  • 对于逆映射((z->B ->z ),我们使用LR-GAN(LatentRegresorGenerativeAgversarialNetworks),其中一个生成器用于从输入图像A和z生成B。
  • 结合这两个模型得到BicycleGan。
  • 生成器的结构与具有对称跳过连接的编码器和解码器网的U-Net相同。
  • 对于编码器,我们使用多个剩余块对输入图像进行有效编码。
  • 该模型使用ADAM优化器进行训练,设置BatchNormalization等于1。
  • Leaky ReLU 激活函数适用于所有类型的网路。

推荐阅读:

相关文章