《Toward Multimodal Image-to-Image Translation》學習筆記

圖像到圖像的翻譯目的是學習從源域到目標域的映射,它是計算機視覺中非常具有挑戰性的任務。說到圖像到圖像的翻譯,就會聯想到大家所熟知的BicycleGAN。

論文下載:

https://arxiv.org/pdf/1711.11586.pdf?

arxiv.org

代碼下載:

junyanz/BicycleGAN?

github.com
圖標

一般完成」圖像到圖像的翻譯」的任務有兩種解決方法:

  1. 像素的回歸或分類
  2. 生成對抗網路(Generative Adversarial Nets)

利用GANs得到的結果具有較強的魯棒性和較強的感知真實感,GAN在圖像翻譯任務上的方法有pix2pix,CycleGAN,UNIT,DTN,FaderNets,DistanceGAN,GeneGAN,pix2pixHD,StarGAN等等。圖像質量也從64x64解析度提升到1024x2048。

「《Toward Multimodal Image-to-Image Translation》」的目的是在給定輸入圖像的情況下,生成輸出圖像的分布。本質上它是利用條件生成對抗性網路將圖像擴展到圖像翻譯模型。在pix2pix之前,許多人嘗試使用GAN來解決這個問題,但這是無條件的,並且輸出是基於L2回歸的輸入。

網路分為兩部分:

第一部分:

論文使用了CVAE(條件變分自編碼器)- GAN。它的思想就是找到一個低維的表示潛在空間(latent space,也是一個向量空間),即產生所有目標圖像的概率分布。本文使用生成器使用編碼的表示z將輸入圖像映射到輸出圖像。

第二部分:

使用了條件潛在回歸GAN(ConditionalLatentRegressorGAN)。在這裡,z是從正態分布N(Z)中採樣的,除了輸入圖像A之外,它還被饋送到Generator以獲得輸出圖像。然後將輸出圖像傳送到編碼器網路,輸出z『,本文嘗試將z』輸出到接近N(Z)的位置。經過這兩個步驟後,我們計算損失函數。最終的損失函數如下所示:

其中G代表生成器、D代表鑒別器和E代表編碼器。

在該模型中,從潛在向量(z)到輸出圖像和從輸出圖像到潛在向量的映射是雙射的。整個體系結構由B->z->B 和z->B ->z 兩個循環組成,因此命名為BicycleGAN。該體系結構已在此圖中進行了清晰的總結。

關鍵要點:

  • BicycleGAN有三個不同的網路:鑒別器,編碼器,生成器。
  • 利用CVAE-GAN(條件變分自動編碼器-生成對抗網路)將地面真實輸出圖像B編碼為潛在向量z,然後用潛在向量z重建輸出圖像B『,即B -> z -> B 。
  • 對於逆映射((z->B ->z ),我們使用LR-GAN(LatentRegresorGenerativeAgversarialNetworks),其中一個生成器用於從輸入圖像A和z生成B。
  • 結合這兩個模型得到BicycleGan。
  • 生成器的結構與具有對稱跳過連接的編碼器和解碼器網的U-Net相同。
  • 對於編碼器,我們使用多個剩餘塊對輸入圖像進行有效編碼。
  • 該模型使用ADAM優化器進行訓練,設置BatchNormalization等於1。
  • Leaky ReLU 激活函數適用於所有類型的網路。

推薦閱讀:

相关文章