【新智元導讀】今天,DeepMind 爆出一篇重磅論文,引發學術圈熱烈反響:基於最強圖像生成器 BigGAN,打造了 BigBiGAN,在無監督表示學習和圖像生成方面均實現了最先進的性能!Ian Goodfellow 也稱讚 「太酷了!」

GAN 在圖像合成方面一次次讓人們驚嘆不已!

例如,被稱為史上最強圖像生成器的 BigGAN—— 許多人看到 BigGAN 生成的圖像都要感嘆 「太逼真了!DeepMind 太秀了吧!」

BigGAN 生成的逼真圖像

這不是最秀的。今天,DeepMind 的一篇新論文再次引發學術圈熱烈反響,論文題為《大規模對抗性表示學習》。

論文鏈接:

https://arxiv.org/pdf/1907.02544.pdf?

arxiv.org

在這篇論文中,DeepMind 基於最先進的 BigGAN 模型構建了 BigBiGAN 模型,通過添加編碼器和修改鑒別器將其擴展到表示學習。

BigBiGAN 表明,「圖像生成質量的進步轉化為了表示學習性能的顯著提高」。

研究人員廣泛評估了 BigBiGAN 模型的表示學習和生成性能,證明這些基於生成的模型在 ImageNet 上的無監督表示學習和無條件圖像生成方面都達到了 state of the art 的水平

這篇論文在 Twitter 上引發很大反響。GAN 發明人 Ian Goodfellow 說:「很有趣,又回到了表示學習。我讀 PhD 期間,我和大多數合作者都對作為樣本生成的副產品的表示學習很感興趣,而不是樣本生成本身。」

Goodfellow 說:「當年我們在寫最初的 GAN 論文時,我的合著者 @dwf (David Warde-Farley) 試圖得到一些類似於 BiGAN 的東西,用於表示學習。5 年後看到這一成果,我覺得太酷了。」

Andrej Karpathy 也說:「無監督 / 自監督學習是一個非常豐富的領域,它將消除目前對大規模數據集的必要性.」

總結而言,這篇論文展示了 GAN 可以用於無監督表示學習,並在 ImageNet 上獲得了最先進的結果

下面是 BigBiGAN 生成的一些重建樣本,可以看到,重建是傾向於強調高級語義,而不是像素級的細節。

下面,新智元帶來對這篇論文的詳細解讀。

基於 BigGAN 打造 BigBiGAN:學習高級語義,而非細節

近年來,我們已經看到視覺數據生成模型的快速發展。雖然這些模型以前局限於模式單一或少模式、結構簡單、解析度低的領域,但隨著建模和硬體的進步,它們已經獲得了令人信服地生成複雜、多模態、高解析度圖像分布的能力。

直觀地說,在特定域中生成數據的能力需要高度理解所述域的語義。這一想法長期以來頗具吸引力,因為原始數據既便宜 —— 可以從互聯網等來源獲得幾乎無限的供應 —— 又豐富,圖像包含的信息遠遠超過典型的機器學習模型訓練用來預測的類別標籤。

然而,儘管生成模型取得的進展不可否認,但仍然存在一些令人困擾的問題:這些模型學到了什麼語義,以及如何利用它們進行表示學習?

僅憑原始數據就能真正理解生成這個夢想幾乎不可能實現。相反,最成功的無監督學習方法利用了監督學習領域的技術,這是一種被稱為自監督學習 (self-supervised learnin) 的方法。

這些方法通常涉及以某種方式更改或保留數據的某些方面,並訓練模型來預測或生成缺失信息的某些方面。

例如,Richard Zhang 等人的研究 (CVPR 2016) 提出了一種非監督學習的圖像著色方法,在這種方法中,模型被給予輸入圖像中顏色通道的子集,並經過訓練來預測缺失的通道。

作為無監督學習手段的生成模型為 self-supervised 的任務提供了一個很有吸引力的替代方案,因為它們經過訓練,可以對整個數據分布建模,而不需要修改原始數據。

GAN 是一類應用於表示學習的生成模型。GAN 框架中的生成器是一個從隨機採樣的潛在變數 (也稱為 「雜訊」) 到生成數據的前饋映射,其中學習信號由經過訓練的鑒別器提供,用來區分真實數據和生成的數據樣本,引導生成器的輸出跟隨數據分布。

作為 GAN 框架的擴展,Vincent Dumoulin 等人 (ICLR 2017) 提出 adversarially learned inference(ALI)[7],或 Jeff Donahue 等人 (ICLR 2017) 提出 bidirectional GAN (BiGAN)[4] 方法,這些方法通過編碼器模塊將實際數據映射到潛在數據 (與生成器學習的映射相反) 來增強標準 GAN。

在最優判別器的極限下,[4] 論文表明確定性 BiGAN 的行為類似於自編碼器,最大限度地降低了重建成本 l?;然而,重建誤差曲面的形狀是由參數鑒別器決定的,而不是像誤差 l?這樣的簡單像素級度量。

由於鑒別器通常是一個功能強大的神經網路,我們希望它能產生一個誤差曲面,在重建時強調 「語義」 誤差,而不是強調低層次的細節

BigBiGAN 重建的更多圖像

論文證明了通過 BiGAN 或 ALI 框架學習的編碼器是在 ImageNet 上學習下游任務的一種有效的視覺表示方法。然而,它使用了 DCGAN 風格的生成器,無法在這個數據集上生成高質量的圖像,因此編碼器能夠建模的語義也相當有限。

在這項工作中,我們再次使用 BigGAN 作為生成器,這是一個能夠捕獲 ImageNet 圖像中的許多模式和結構的先進模型。我們的貢獻如下:

  • 我們證明了 BigBiGAN (BiGAN with BigGAN generator) 與 ImageNet 上無監督表示學習的最先進技術相匹敵。
  • 我們為 BigBiGAN 提出了一個更穩定的聯合鑒別器
  • 我們對模型設計選擇進行了全面的實證分析和消融研究。
  • 我們證明,表示學習目標還有助於無條件生成圖像,並展示了無條件生成 ImageNet 的最先進結果。

BigBiGAN 框架的結構

BigBiGAN 框架的結構

BigBiGAN 框架的結構如上圖所示。

聯合判別器 D 用於計算損失 l。其輸入是 data-latent pairs, 可以是從數據分布 P_{x} 和編碼器 varepsilon 輸出採樣的

或從生成器 G 輸入和潛在分布 P_{z} 採樣的

損失 l 包括一元數據項 s_{x} 和一元潛在項 s_{z} ,以及將數據和潛在分布聯繫起來的共同項 s_{xz}

評估和結果:表示學習、圖像生成實現最優性能

表示學習

我們現在從上述簡化學習結果中獲取基於 train-val 分類精度的最優模型,在官方 ImageNet 驗證集上得出結果,並與最近的無監督學習研究文獻中的現有技術水平進行比較。

為了進行這些比較,我們還提供了基於規模較小的 ResNet-50 的最佳性能 GAN 變種的分類結果。詳細比較結果在表 2 中給出。

與當前許多自監督學習方法相比,本文中採用的純基於生成模型的 BigBiGAN 方法在表示學習方面表現良好,在最近的無監督學習任務上的表現達到了 SOTA 水平,最近公布的結果顯示,本文中的方法在使用表 2 的 AvePool 相同的表示學習架構和特徵的旋轉預測預訓練任務中,將 top-1 精度由 55.4%提高到 60.8%。

表 1:多個 BigBiGAN 變體的性能結果,在生成圖像的初始分數(IS)和 Fréchet 初始距離(FID),監督式邏輯回歸分類器 ImageNet top-1 精度百分比(Cls。)由編碼器特徵訓練,並基於從訓練集中隨機抽樣的 10K 圖像進行分割計算,我們將其稱為 「train-val」 分割。

表 2:在官方 ImageNet 驗證集上對 BigBiGAN 模型與最近的基於監督式邏輯回歸分類器的其他方法的對比。

表 3:我們的 BigBiGAN 與無監督(無條件)生成方法、以及之前報告的無監督 BigGAN 的性能結果對比。

無監督式圖像生成

表 3 所示為 BigBiGAN 進行無監督生成的結果,與基於 BigGAN 的無監督生成結果做比較。請注意,這些結果與表 1 中的結果不同,因為使用的是數據增強方法(而非表 1 中的用於所有結果的 ResNet 樣式預處理方法)。

這些結果表明,BigBiGAN 顯著提升了以 IS 和 FID 為量度的基線無條件 BigGAN 生成結果的性能。

圖 2:從無監督的 BigBiGAN 模型中選擇的圖像重建結果。上面一行的圖像是真實圖像(x~Px),下面一行圖像是由 G(E(x))計算出的這些圖像的重建結果。與大多數顯式重建成本(例如像素數量)不同,由(Big)BiGAN 實現隱式最小化的重建成本更多傾向於強調圖像的語義及其他更高級的細節。

圖像重建:更偏重高級語義,而非像素細節

圖 2 中所示的圖像重建在像素上遠達不到完美,可能部分原因是目標沒有明確強制執行重建成本,在訓練時甚至對重建模型進行計算。然而,它們可以為編碼器 ε 學習建模的特徵提供一些幫助。

比如,當輸入圖像中包含狗、人或食物時,重建結果通常是姿勢、位置和紋理等相同特徵 「類別」 的不同實例。例如,臉朝同一方向的另一隻類似的狗。重建結果傾向於保留輸入的高級語義,而不是低級細節,這表明 BigBiGAN 的訓練在鼓勵編碼器對前者進行建模,而不是後者。

論文鏈接:

https://arxiv.org/pdf/1907.02544.pdf?

arxiv.org


新智元?AI_era

每日推送 AI 領域前沿學術解讀、AI 產業最新資訊

戳右上角【+ 關注】↗↗

喜歡請分享、點贊吧

歡迎加編輯微信交流、投稿~微信號:akubineko_

推薦閱讀:

相关文章