英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照

【新智元導讀】英偉達再推黑科技GauGAN,這款圖像生成軟件僅憑用戶隨意畫的線條和色塊,就能自動生成逼真的圖片,效果堪比風光大片!此番可謂“你只管亂畫,最後不好看算我輸”!

這是網上流傳甚廣的一個圖,教你一步步來畫一匹馬。

英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照

首先,畫兩個圈;接着畫4條腿、臉;然後畫上毛髮;最後再加幾筆細節就大功告成了

這張圖真實的體現了在通常情況下,學生面對老師傳授知識、或者技能時候的一種狀態。很多人對此深有同感:在大牛口中“簡單加幾筆細節”的操作,在凡人看來無異於直接從新手跳到王者。但這種情況正在改變,手殘黨也可以畫出逼真的風光大片了!這完全要感謝英偉達最新推出的一款黑科技。

英偉達在GTC 2019上推出了一個令人驚歎的圖像生成器。它使用生成對抗性網絡(GAN),用戶只需點擊幾下即可繪製出近乎真實的圖像。該軟件能夠立即將幾行草草勾勒的輪廓圖,變成華麗的山頂日落圖景。

我們先來看一個動圖:

英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照

圖中,左邊是人類操作員畫的,右邊是AI直接“簡單加上幾筆細節”後生成的。在普通人看來,右邊的圖像幾乎毫無破綻,看不出這並非一張風光照片,而是AI生成的虛擬海灘。

讓我們再來看幾張動圖,來更深刻的體會一下:

英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照


英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照

從圖中我們可以看出,GauGAN並不是像Photoshop裏貼一個圖層那樣,簡單的把圖形貼上去,而是根據相鄰兩個圖層之間的對應關係對邊緣進行調整。比如石頭在水裏的倒影應該是什麼樣的、被瀑布沖刷的山石應該是怎樣的狀態、近處的山和遠處的山之間的層次應該如何表現…

現在我們放出完整的視頻:

這次,不光設計師、修圖師坐不住了,攝影師也坐不住了!

英偉達的黑魔法:GauGAN

他們給這個軟件起名叫做GauGAN。這個軟件只是對英偉達神經網絡平臺強大性能的一次證明。這個軟件能夠將人類的繪畫方式和過程進行編譯,在幾秒鐘內就能畫出草圖,並將其轉換爲逼真的照片。從軟件的早期演示中,它似乎能夠做到這一點。

英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照

GauGAN這個詞,很容易讓人聯想到那位和梵高相愛相殺的19世紀著名後印象派繪畫大師高更。事實上,GauGAN也確實使用了高更的繪畫作品對模型進行訓練。

英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照

保羅·高更(1848年6月7日-1903年5月8日)

GauGAN目前提供三種工具:顏料桶、鋼筆和鉛筆。屏幕底部是一系列對象。選擇“雲”,並用鉛筆畫一條線,軟件將生成一縷逼真的雲。但這些不是固定的圖像模板。GauGAN可以根據不同的輸入生成獨有的結果。畫一個圓圈,在用顏料工具填充,可以使生成的雲的質感變得更蓬鬆。

用戶可以使用輸入工具勾勒出一棵樹的形狀,軟件就能自動生成一棵樹。畫一條直線,會產生一個裸露的樹幹。在頂部畫一個“燈泡”一樣的形狀,軟件將自動用葉子進行填充,生成一棵完整的樹。

英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照


英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照

利用GauGAN生成一棵樹和一條海岸線,注意生成圖像的天氣變化

GauGAN是多模式軟件。如果有兩個用戶使用相同的設置,創建了相同的草圖,軟件中內置的隨機數也能確保最終的生成的作品是不同的結果。

爲了獲得實時結果,GauGAN必須在Tensor計算平臺上運行。 Nvidia在RDX Titan GPU平臺上進行了演示,生成了實時的輸出結果。演示者繪製一條線,軟件立即產生了結果。不過,英偉達應用深度學習研究副總裁Bryan Catanzaro表示,未來經過一些修改後,GauGAN可以在幾乎任何平臺上運行,包括CPU上,但生成的結果可能需要幾秒鐘時間才能顯示。

在演示中,不同對象之間的界限劃分還存在一些問題,項目團隊表示將會繼續改進。兩個目標接觸的部分會出現很淺的線條。英偉達聲稱圖片生成結果可以像照片一樣真實,但仔細看其實達不到這個程度。神經網絡目前在訓練對象以及訓練目標上還存在問題。希望這個項目有助於解決這個問題。

在訓練數據上,英偉達利用Flickr上的100萬張圖像來訓練神經網絡。大多數圖像來自Flickr的知識共享計劃,Catanzaro說表示,該公司僅使用經過的圖像。

英偉達表示,這款軟件可以合成數十萬個對象及其與現實世界中其他對象的關係。在GauGAN中,如果用戶改變季節設置,葉子將從樹枝上消失。如果樹前有一個池塘,那麼這棵樹就會在水中反射出來。

Catanzaro希望這款軟件可以在英偉達的新AI遊戲平臺上使用,但目前要實現這個目標還需要做一些進一步的工作。在視頻遊戲中使用此類工具可以爲用戶打造更加身臨其境的環境,但是英偉達並沒有直接開發這樣的軟件。

對於此軟件可能被惡意利用來生成虛假圖像的問題, Catanzaro同意這是一個重要的問題,可能比一個項目和一個公司更重要。他說,這是一個信任問題,而不是技術問題,社會必須面對和妥善處理這個問題。

即使在這個有限的演示來看,從視頻遊戲設計師、到架構師、再到休閒遊戲玩家都很容易被這個軟件的功能所吸引。目前英偉達沒有透露關於將此軟件進行商業化發佈的任何計劃,但預計很快就會發布公開試用版,任何人都可以體驗。

支持該項目的技術論文已經發布。Catanzaro表示,此文已經被CVPR 2019接收。

預印本論文地址:

https://arxiv.org/pdf/1903.07291.pdf

從論文中可以看出,GauGAN應用軟件是基於名爲“空間自適應歸一化”技術實現的。論文中對該技術進行了比較系統的介紹,並通過數據集實驗表明,該技術在圖像內容生成和編輯任務上比以往方法實現了更優秀的表現。而該技術的提出,是由“條件圖像合成”任務開始的。

GauGAN背後的祕密:空間自適應條件歸一化

條件圖像合成是指在某些輸入數據上生成照片級真實圖像的任務。早期的方法是通過拼接圖像數據庫中的片段來計算輸出圖像。最近則一般使用神經網絡直接學習映射。後一種方法通常更快,並且不需要外部圖像數據庫。

條件圖像合成的特定形式可以將語義分割掩模轉換爲照片級真實的圖像。該技術可以產生廣泛的應用,包括內容生成和圖像編輯。這種形式稱爲“語義圖像合成”。通過堆疊卷積,歸一化和非線性層構建的傳統網絡架構達不到最優效果,因爲它們的歸一化層很可能會“帶走”輸入語義掩碼中的信息。

英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照

用戶可以在合成圖像時控制語義和樣式。 語義(樹的存在)通過標籤圖(在頂行中可視化)來控制,樣式可以通過參考圖像(最左列)來控制

爲了解決這個問題,我們提出了空間自適應的歸一化,這是一種條件歸一化,通過空間自適應學習轉換使用輸入語義佈局來調製激活,可以在整個網絡中有效地傳播語義信息。

我們將模型在幾個具有挑戰性的數據集上進行了實驗(包括COCO-Stuff,ADE20K和Cityscapes)。結果表明,在空間自適應歸一化層的幫助下,與幾種最先進的方法相比,網絡的生成結果明顯更好了。

英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照

不同數據集上的實驗結果對比

另外,空間自適應歸一化對語義圖像合成任務的幾種變體任務同樣有效,而且支持基於多模態和樣式的圖像合成,能夠實現可控的多樣化輸出,最終呈現了讓人驚歎的效果:

英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照

GauGAN的意義

GauGAN可以爲建築師、城市規劃者、景觀設計師、遊戲開發者、廣告設計師…等各種和圖像相關的職業在創建虛擬世界時提供強大的工具。 通過人工智能瞭解現實世界的外觀,這些專業人員可以更好地製作想法原型並快速更改合成場景。

NVIDIA應用深度學習研究副總裁Bryan Catanzaro將GauGAN背後的技術比作“智能畫筆”,可以填充粗略分割圖中的細節。粗略分割圖是顯示場景中物體位置的高級輪廓圖,GauGAN允許用戶繪製自己的分割圖並操縱場景,用沙子,天空,海洋或雪等標籤標記每個圖形。

通過對一百萬張圖像的訓練,深度學習模型將填充景觀並顯示停止結果:在池塘中繪製,並且附近的元素如樹木和岩石將在水中出現反射。 將片段標籤從“草”交換爲“雪”,整個圖像變爲冬季場景,以前的綠葉樹變得貧瘠。

“這就像一張彩圖圖片描述了一棵樹在哪裏,太陽在哪裏,天空在哪裏,”Catanzaro說。“然後神經網絡能夠根據它對真實圖像的瞭解,填充所有的細節和紋理,以及反射,陰影和顏色。”

英偉達再出黑魔法GauGAN:憑藉幾根線條,草圖秒變風景照

Catanzaro說:“通過簡單的草圖進行頭腦風暴設計要容易得多,而且這種技術能夠將草圖轉換成高度逼真的圖像。”也就是說,產品設計師可以在頭腦風暴的階段,就直接產出高保真原型;而乙方更是可以在甲方當面提需求的時候,就給出預覽效果圖。

但是話又說回來,雖然GauGAN的出現,讓我們不需要具備專業的繪畫、設計、攝影技能就可以製造出逼真的圖像,但它畢竟只是一個幫我們將腦海中的想法實現出來的工具,而非我們大腦本身,如果我們腦海中沒有任何想法,它也無法憑空去創造任何東西。

可以預見的是,基礎技能方面的需求正在變得不那麼重要,而對更高階的技能需求(比如創意、審美、洞察)的要求正在變得越來越高。

參考鏈接:

https://techcrunch.com/2019/03/18/nvidia-ai-turns-sketches-into-photorealistic-landscapes-in-seconds/

Github代碼資源:

https://github.com/NVlabs/SPADE

論文鏈接:

https://arxiv.org/pdf/1903.07291.pdf

相關文章