《多模态图像到图像的翻译》学习笔记
《Toward Multimodal Image-to-Image Translation》学习笔记
图像到图像的翻译目的是学习从源域到目标域的映射,它是计算机视觉中非常具有挑战性的任务。说到图像到图像的翻译,就会联想到大家所熟知的BicycleGAN。
论文下载:
https://arxiv.org/pdf/1711.11586.pdf
代码下载:
junyanz/BicycleGAN一般完成」图像到图像的翻译」的任务有两种解决方法:
- 像素的回归或分类
- 生成对抗网路(Generative Adversarial Nets)
利用GANs得到的结果具有较强的鲁棒性和较强的感知真实感,GAN在图像翻译任务上的方法有pix2pix,CycleGAN,UNIT,DTN,FaderNets,DistanceGAN,GeneGAN,pix2pixHD,StarGAN等等。图像质量也从64x64解析度提升到1024x2048。
「《Toward Multimodal Image-to-Image Translation》」的目的是在给定输入图像的情况下,生成输出图像的分布。本质上它是利用条件生成对抗性网路将图像扩展到图像翻译模型。在pix2pix之前,许多人尝试使用GAN来解决这个问题,但这是无条件的,并且输出是基于L2回归的输入。
网路分为两部分:
第一部分:
论文使用了CVAE(条件变分自编码器)- GAN。它的思想就是找到一个低维的表示潜在空间(latent space,也是一个向量空间),即产生所有目标图像的概率分布。本文使用生成器使用编码的表示z将输入图像映射到输出图像。
第二部分:
使用了条件潜在回归GAN(ConditionalLatentRegressorGAN)。在这里,z是从正态分布N(Z)中采样的,除了输入图像A之外,它还被馈送到Generator以获得输出图像。然后将输出图像传送到编码器网路,输出z『,本文尝试将z』输出到接近N(Z)的位置。经过这两个步骤后,我们计算损失函数。最终的损失函数如下所示: