CVPR 2019 | 微軟文字轉圖像技術又進化，提出兩種 GAN 的升級模型

目前基於描述的繪圖機器人在圖像生成質量以及包含多個目標和豐富關係的更複雜場景中生成圖像仍然存在較大挑戰。來自微軟人工智慧研究院、JD 人工智慧研究院及紐約州立大學奧爾巴尼分校的眾多相關學者正在開發一項新的人工智慧技術，相關機器人可以從類似於說明的日常場景描述文本中生成圖像，其顯著提高了生成圖像的質量，相關成果發表在微軟官網博客上，雷鋒網 AI 科技評論編譯如下。

如果你被要求畫這樣一張圖片——幾個穿著滑雪服的人站在雪地裏，你很可能會先在畫布中間合理位置畫出三四個人的輪廓，然後繼續畫他們腳下的滑雪板。雖然沒有具體說明，但你可能會決定給每個滑雪者都增加一個揹包，以配合他們預期的運動。最後，你會仔細地填充細節，也許把他們的衣服塗成藍色，圍巾塗成粉色，把所有的背景都塗成白色，讓這些人看起來更真實，並確保他們周圍的環境符合描述。最後，為了使場景更加生動，你甚至可以用一些棕色的石頭與白雪對比突出表示這些滑雪者在山裡。

現在有一個機器人可以做到這一切。

微軟研究院正在開發的新的人工智慧技術可以理解自然語言描述，繪製圖像佈局草圖，合成圖像，然後根據提供的佈局和單個辭彙細化細節。換句話說，這個機器人可以從類似於說明的日常場景描述文本中生成圖像。根據於加利福利亞州長灘市舉行的 CVPR 2019 上發表的文章「Object-driven Text-to-Image Synthesis via Adversarial Training」所述，標準測試結果表明，相對於前一代最先進的複雜日常場景文本轉圖像技術，上述機器人有成熟的機制，可顯著提高生成圖像的質量。該論文是微軟人工智慧研究院 Pengchuan Zhang、 Qiuyuan Huang、 Jianfeng Gao，微軟的 Lei Zhang，JD 人工智慧研究院的 Xiaodong He，以及紐約州立大學奧爾巴尼分校 Wenbo Li、Siwei Lyu（Wenbo Li 曾在微軟人工智慧研究院實習）合作的成果。

基於描述的繪圖機器人面臨兩個主要挑戰。第一個挑戰是在日常場景中會出現很多種類的物體，機器人應該能理解所有種類的物體並將其畫出來。前述文本轉圖像生成方法使用圖像—說明對，這些方法僅為生成單個目標提供非常粗粒度的監督信號，限制了它們對物體的圖像生成質量。在這項新技術中，研究人員使用了 COCO 數據集，該數據集包含 80 個常見目標分類裡面 150 萬個目標實例的標籤和分割圖，使得機器人能夠學習這些目標的概念和外觀。這種用於目標生成的細粒度監督信號顯著提高了這些常見目標類型的生成質量。

第二個挑戰是理解和生成一個場景中多個目標之間的關係。在幾個特定領域，例如人臉、鳥類和常見目標，在生成只包含一個主要目標的圖像方面已經取得了巨大的成功。然而，在文本轉圖像的生成技術中，在包含多個目標和豐富關係的更複雜場景中生成圖像仍然是一個重大的挑戰。這個新的繪圖機器人從 COCO 數據集共現模式中學會了生成目標的佈局，然後根據預先生成的佈局生成圖像。

目標驅動的專註圖像生成

微軟人工智慧研究院的繪圖機器人核心是一種被稱為生成式對抗網路（ GAN）的技術。GAN 由兩個機器學習模型組成：一個是根據文本描述生成圖像的生成器，另一個是根據文本描述判斷生成圖像可靠性的鑒別器。生成器試圖讓假照片通過鑒別器，而鑒別器不希望被愚弄。兩者共同工作，鑒別器推動生成器趨向完美。

繪圖機器人在一個包含 10 萬幅圖像的數據集上進行訓練，每個圖像都有突出的目標標籤和分割圖，以及五個不同的標題，允許模型構思單個目標和目標之間的語義關係。例如，GAN 在比較有狗和沒有狗的描述的圖像時，學習狗應該是什麼樣子。

GANs 在生成只包含一個突出目標，例如人臉、鳥類或狗的圖像時表現很好，但是在生成更複雜的日常場景時，圖像生成的質量就會停滯不前，比如描述為「一個戴頭盔的女人正在騎馬」的場景（參見圖 1）。這是因為這類場景包含了多個目標（女人、頭盔、馬），這些目標之間有著豐富的語義關係（女人戴頭盔、女人騎馬）。機器人首先必須理解這些概念，並將它們放在具有意義的佈局的圖像中。然後，需要一個更強的監督信號來教 GANs 進行目標生成和佈局生成，從而完成語言理解與圖像生成任務。