《多模態圖像到圖像的翻譯》學習筆記
《Toward Multimodal Image-to-Image Translation》學習筆記
圖像到圖像的翻譯目的是學習從源域到目標域的映射,它是計算機視覺中非常具有挑戰性的任務。說到圖像到圖像的翻譯,就會聯想到大家所熟知的BicycleGAN。
論文下載:
https://arxiv.org/pdf/1711.11586.pdf
代碼下載:
junyanz/BicycleGAN一般完成」圖像到圖像的翻譯」的任務有兩種解決方法:
- 像素的回歸或分類
- 生成對抗網路(Generative Adversarial Nets)
利用GANs得到的結果具有較強的魯棒性和較強的感知真實感,GAN在圖像翻譯任務上的方法有pix2pix,CycleGAN,UNIT,DTN,FaderNets,DistanceGAN,GeneGAN,pix2pixHD,StarGAN等等。圖像質量也從64x64解析度提升到1024x2048。
「《Toward Multimodal Image-to-Image Translation》」的目的是在給定輸入圖像的情況下,生成輸出圖像的分布。本質上它是利用條件生成對抗性網路將圖像擴展到圖像翻譯模型。在pix2pix之前,許多人嘗試使用GAN來解決這個問題,但這是無條件的,並且輸出是基於L2回歸的輸入。
網路分為兩部分:
第一部分:
論文使用了CVAE(條件變分自編碼器)- GAN。它的思想就是找到一個低維的表示潛在空間(latent space,也是一個向量空間),即產生所有目標圖像的概率分布。本文使用生成器使用編碼的表示z將輸入圖像映射到輸出圖像。
第二部分:
使用了條件潛在回歸GAN(ConditionalLatentRegressorGAN)。在這裡,z是從正態分布N(Z)中採樣的,除了輸入圖像A之外,它還被饋送到Generator以獲得輸出圖像。然後將輸出圖像傳送到編碼器網路,輸出z『,本文嘗試將z』輸出到接近N(Z)的位置。經過這兩個步驟後,我們計算損失函數。最終的損失函數如下所示: