編譯 | 若名

出品 | AI科技大本營

用 AI 生成逼真三維物體模型並不像人們以為的那麼困難。

近日,在 NeurIPS 2018 會議上接收的論文「 視覺對象網路:圖像生成與分離式的3D表示」中,麻省理工學院計算機科學與人工智慧實驗室(MIT CSAIL)和 Google 的研究人員介紹了能創造出有逼真紋理和形狀的一個生成式 AI 系統。

該系統是視覺對象網路(VON)系統,不僅可以生成比某些最先進的方法更真實的圖像,還可以進行形狀和紋理編輯、視點轉換以及其他三維調整。

「現代深層生成模型學會了合成逼真的圖像,」研究人員寫道,「但大多數計算模型只專註於生成 2D 圖像,而忽略了 3D 世界的美好......這種視角不可避免地限制了它們在許多領域的實際應用,例如合成數據生成、機器人學習、虛擬現實和遊戲行業。」

視覺對象網路系統則可以通過合成三維形狀和二維圖像來解決這個問題,類似於研究人員所稱的「分離式的對象表示」。圖像生成模型被分解為三種因素:形狀、視點和紋理,另外,在計算「2.5 D」草圖和添加紋理之前,它需要學習合成三維形狀。

重要的是,由於這三個因素是條件獨立的,所以模型不需要二維和三維形狀之間的配對數據。這使得團隊能夠在大規模的二維圖像和三維形狀集上進行訓練,如 Pix3D,Google 圖像搜索和ShapeNet,後者包含 55 個對象類別的數千個 CAD 模型。

為了讓 VON 系統學習如何生成自己的形狀,該團隊在上述三維形狀數據集上訓練了一個生成式對抗網路(GAN) 。而紋理生成被歸類了到另一個基於 GAN 的神經網路。

經過大約兩到三天的訓練,AI 系統始終如一地生成了令人信服的 128 x 128 x 128 模型,具有優異的反射率、環境照明和反照率(一種漫射光的度量)。

為了評估圖像生成模型,團隊計算了用於生成三維模型的 Fréchet Inception Distance(弗雷歇初始距離,FID)——一種與人類感知相關的度量。此外,他們還向亞馬遜 Mechanical Turk 上的五名測試者展示了由 VON 和其他最先進模型生成的 200 對圖像,這些受試者需要在這些圖像中選擇更真實的結果。

VON 的表現非常出色。它與所有 AI 模型相比具有最低的 FID 值,並且 Mechanical Turk 的受訪者表示更喜歡 VON 生成的 74% 到 85%的圖像。

研究人員未來將專註於從粗糙到精細化的建模,以產生更高解析度的生成形狀和圖像,並將紋理分解為光照和外觀(lighting and appearance),併合成自然場景。

「我們的主要想法是將圖像生成過程分解為形狀、視點和紋理三種因素,」Google 團隊寫道,「這種分離式 3D 表示使我們能夠在對抗學習框架下從 3D 和 2D 視覺數據集合中學習模型。與現有的 2D 生成模型相比,我們的模型合成了更逼真的圖像,它還可以做到以前的 2D 方法也無法實現的各種 3D 操作。」

近年來,GAN 的研究突飛猛進,特別是在機器視覺領域。

Google 的 DeepMind 子公司在 10 月推出了一個基於 GAN 的系統,以此創建出令人信服的食物、風景、肖像和動物照片。9 月, Nvidia 的研究人員開發了一種 AI 模型,可以生成腦癌的合成掃描圖像,8 月,卡內基梅隆大學的一個團隊 演示了 AI 可以將人們已存的動作和麪部表情轉換成另一張照片或視頻中的目標對象。最近,愛丁堡大學感知研究所和天文學研究所的科學家設計了一種至少可以產生高解析度星系圖像的 GAN。

論文鏈接:

papers.nips.cc/paper/72

原文鏈接:

venturebeat.com/2018/12

本文為 AI科技大本營編譯文章,轉載請聯繫微信 1092722531。

推薦閱讀:

相關文章