《多模態圖像到圖像的翻譯》學習筆記

《Toward Multimodal Image-to-Image Translation》學習筆記

圖像到圖像的翻譯目的是學習從源域到目標域的映射，它是計算機視覺中非常具有挑戰性的任務。說到圖像到圖像的翻譯，就會聯想到大家所熟知的BicycleGAN。

論文下載：

https://arxiv.org/pdf/1711.11586.pdf?

arxiv.org

代碼下載：

junyanz/BicycleGAN?

github.com

一般完成」圖像到圖像的翻譯」的任務有兩種解決方法：

像素的回歸或分類
生成對抗網路(Generative Adversarial Nets)

利用GANs得到的結果具有較強的魯棒性和較強的感知真實感，GAN在圖像翻譯任務上的方法有pix2pix，CycleGAN，UNIT，DTN，FaderNets，DistanceGAN，GeneGAN，pix2pixHD，StarGAN等等。圖像質量也從64x64解析度提升到1024x2048。

「《Toward Multimodal Image-to-Image Translation》」的目的是在給定輸入圖像的情況下，生成輸出圖像的分布。本質上它是利用條件生成對抗性網路將圖像擴展到圖像翻譯模型。在pix2pix之前，許多人嘗試使用GAN來解決這個問題，但這是無條件的，並且輸出是基於L2回歸的輸入。

網路分為兩部分：

第一部分：

論文使用了CVAE（條件變分自編碼器）- GAN。它的思想就是找到一個低維的表示潛在空間（latent space，也是一個向量空間），即產生所有目標圖像的概率分布。本文使用生成器使用編碼的表示z將輸入圖像映射到輸出圖像。

第二部分：

使用了條件潛在回歸GAN(ConditionalLatentRegressorGAN)。在這裡，z是從正態分布N(Z)中採樣的，除了輸入圖像A之外，它還被饋送到Generator以獲得輸出圖像。然後將輸出圖像傳送到編碼器網路，輸出z『，本文嘗試將z』輸出到接近N(Z)的位置。經過這兩個步驟後，我們計算損失函數。最終的損失函數如下所示：