今天,DeepMind發布了一篇重磅論文《Large Scale Adversarial Representation Learning》,提出了無監督表示學習新模型BigBiGAN,並迅速在圈內刷屏。

BigBiGAN是建立在最先進的BigGAN模型基礎上,通過添加編碼器和修改鑒別器將其擴展到表示學習。通過廣泛評估BigBiGAN模型的表示學習和生成功能,證明在ImageNet的無監督表示學習和無條件圖像生成方面,該模型均達到了目前的最先進水平(SOTA)。

眾大佬點贊Big BiGAN

GAN之父Ian Goodfellow連發多條推特,表達了對這項研究的欣賞。

他表示「很有趣的是,這像一個輪迴,兜兜轉轉又回到了表示學習上面。在我的Phd期間,我和我的大多數合作者都主要對錶征學習感興趣,它是樣本生成的副產品,而不是樣本生成本身。」

「當我們在寫最初的GAN論文時,我的合著者@dwf試圖得到一些類似於BiGAN的東西,用於表徵學習。5年後看到這一成果,我覺得很酷。」

另外對於"BigBiGAN"容易被誤以為是"BigBigGAN"的烏龍,他還親自做了回復。

這是"BigBiGAN"而不是"BigBigGAN"。第二個詞是「bi」表示「雙向」,意

味著它有一個編碼器和一個發生器。我第一次也把它看作成了BigBig。

特斯拉的AI負責人也表示:self-supervised學習是一個非常豐富的領域(但是需要比ImageNet提供更多的密度+結構),將消除大規模數據集的當前必要性( 或推出RL)。

以下是論文詳細介紹:

1、論文說明

近年來,我們看到了視覺數據生成模型的快速進展。儘管這些模型之前被模式單一、模式少、結構簡單、解析度低所局限,但是,隨著建模和硬體的發展,它們已經具備生成複雜、多模態、高解析度圖像的能力。

坦白說,在特定域中生成數據,需要深度理解所述域的語義。長期以來,這一想法頗具吸引力,因為原始數據既便宜又豐富,且可以從互聯網等來源獲得無限供應,圖像包含的信息遠遠超過(典型的有辨別能力的)機器學習模型訓練出來(用於預測的)的類別標籤。儘管生成模型的進步毋庸置疑,但是「這些模型學到了什麼語義,以及如何利用它們進行表徵學習的問題依舊存在。」

僅憑原始數據就能真正理解生成的夢想還沒有實現。相反,最成功的無監督學習方法利用了監督學習領域的技術,這是一種被稱為自我監督學習的方法。這些方法通常以某種方式改變或阻止數據,並訓練模型以預測或生成缺失信息。例如,有學者曾提出將彩色化作為無監督學習的手段,其中模型被給定輸入圖像中顏色通道的子集,並且經過訓練以預測缺失的通道。

作為一種無監督學習方法,生成模型為自我監督提供了頗具吸引力的替代方案。因為經過訓練,生成模型可以對整個數據分布建模,無需修改任何原始數據。生成性對抗網路(GAN)是一類應用於表徵學習的生成模型。

GAN框架中的生成器是一個從隨機採樣的lat(nt varibles(稱為「雜訊」)到生成數據的前饋映射,學習信號由訓練有素的鑒別器提供,以區分真實和生成的數據樣本,引導生成器的輸出跟隨數據分布。我們提出了對抗性學習推理(ALI)或雙向GAN(BiGAN)方法作為GAN框架的擴展,該方法通過編碼器模塊將實際數據映射到隱藏數據來增強標準GAN。

在最優鑒別器的極限下,確定性BiGAN的行為類似於自動編碼器,最大限度地降低了重構成本; 然而,重構誤差表面的形狀由參數鑒別器決定,而不是像2error這樣簡單的像素級測量。由於鑒別器通常是一個功能強大的神經網路,因此希望它能在重構中產生強調「語義」錯誤的誤差面,而不是低層次的細節。

圖1:BigBiGAN框架的結構。聯合鑒別器D用於計算損失。它的輸入是data-latent pairs,,或者(x~Px,z~E(x)),從數據分布Px和編碼器E輸出採樣,或(x~G(z),z~Pz),從發生器G輸出和潛在分布Pz。損失包括一元數據項sx和一元潛在項sz,以及將數據和潛在分布聯繫起來的聯合項sxz。

在之前研究中,通過BiGAN或ALI框架學習的編碼器,是在ImageNet上有效學習下游任務的可視化表示方法。然而,它使用了DCGAN 樣式的生成器,無法在該數據集上生成高質量圖像,因此編碼器可以建模的語義非常有限。在這項工作中,再次使用BigGAN 作為生成器,這是一個能夠捕獲ImageNet圖像中的許多模式和結構的現代模型,我們的貢獻如下:

?證明了BigBiGAN(BiGAN與BigGAN生成器)與ImageNet最新的無監督表示學習相匹配。

?為BigBiGAN提出了更穩定的聯合鑒別器版本。

?對模型設計選擇進行深入的實證分析和消融研究。

?證明表示學習目標也有助於無條件圖像生成。

2、BigBiGAN 模型

作為GAN框架的擴展,提出了BiGAN或ALI方法,其使得能夠學習可以用作推理模型或特徵表示的編碼器。

給定一個數據x的分布Px(如圖片),和一個勢函數z的分布Pz(通常是一個簡單的連續分布,如各向同性高斯N (0,i)),生成器G模擬數據x的條件分布P(x|z),給定從latent prior中採樣的潛在latent input,就像在標準GAN生成器中一樣。編碼器E對反條件分布P(z|x)建模,預測從數據分布Px中採樣的給定數據x的勢函數z。

除了添加編碼器E之外,BiGAN框架中對GAN的另一種修改是聯合鑒別器D,其作為 data-latent 的輸入對(x,z)(而不僅僅是作為標準GAN中的數據x),學會區分對數據分布和編碼器。

具體地說,它的輸入是pair(x~Px, z?~E (x))和(x?~G (z), z~Pz), G和E的目標是「愚弄」鑒別器,通過pairs難以區分採樣,使PxE和PGz成為聯合分布。

類似於GAN框架中的對抗性極小極大目標定義如下:min GE max D Ex~Px,z~EΦ(x) [log(σ(D(x, z)))] + Ez~Pz,x~GΦ(z) [log(1 ? σ(D(x, z)))]

在此目標下,研究表明,對於最優的D、G和E,將聯合分布PxE和PGz之間的Jensen-Shannon散度最小化。因此在全局最優時,兩個聯合分布PxE = PGz匹配,從而與標準GAN的結果相類似。

此外,研究表明,當E和G為確定性函數時(即,學習條件分布PG (x | z)和PE (z | x)狄拉克δ函數),這兩個函數是全球最佳的逆:例如,?x∈supp(Px) x = G (E (x)),與最優聯合鑒別器有效地實施對x和z的0費用重建。

雖然我們的方法BigBiGAN的核心與BiGAN的方法相同,但是我們採用了最先進的BigGAN生成圖像模型的生成器和鑒別器架構。

除此之外,我們發現改進的鑒別器結構可以在不影響生成的情況下獲得更好的表示學習結果(圖1)。

也就是說,除了將數據和latent 分布在一起的聯合判別器損失外,我們還在學習目標中提出了額外的一元項,這些一元項僅是數據x或勢函數z。

雖然證明最初的BiGAN目標已經強制要求所學習的聯合分布匹配全局最優,但是這意味著x和z的邊際分布也匹配,這些一元項直觀地通過明確強制執行此屬性來指導「正確方向」的優化。

例如,在圖像生成的上下文中,x上的一元損失項與原始GAN目標相匹配,並提供了一個學習信號,該信號僅引導生成器與latent input的圖像分布進行匹配。(在我們的評估中,我們將從經驗上證明,添加這些項可以改進生成和表示學習。)

具體來說,根據標量鑒別器「score」函數s?以及對應的每個樣本的損耗,定義了鑒頻器損耗LD和編碼生成器損耗LEG如下:

其中h(t) = max(0,1 - t)是一個用於正則化鑒別器的「鉸鏈」,也用於BigGAN]。鑒別器D包括三個子模塊:F、H和j。F只需要x作為輸入,H只需要z,學會預測的輸出參數分別θx和θz給標量一元分數sx和sz。

實驗中,數據x為圖像,勢函數z為非結構平面向量;因此,F是一個ConvNet, H是一個MLP。剩下的D個子模塊給出了與x和z的聯合得分sxz,J是F和H輸出的函數。

E和G的參數 Φ通過優化將損失減小到最低限度的LEG,和D的Θ參數進行優化以減少損失有限的像往常一樣,由蒙特卡羅樣本估計期望E。

3、與已有方法的比較結果

表示學習。現在,我們從上面的消融中提取我們的最佳模型,通過訓練分類精度,並將結果顯示在官方的ImageNet驗證集上,與最近的無監督學習文獻的現狀進行比較。

為了進行比較,我們還提供了性能最好的變體與較小的基於ResNet-50的分類結果。這些模型對應於表1的最後兩行,ResNet(↑E LR)和RevNet×4(↑E LR)。

結果見表2。與許多現代的自我監督學習方法及其組合相比,我們基於生成模型的BigBiGAN方法在表示學習方面表現良好,在最近的無監督學習中處於最先進水平。

表1:BigBiGAN變體的結果,鑒於Inception Score(是)和Fréchet Inception Distance15](FID)生成的圖像,和ImageNet(分類精度比例(Cls)的監管邏輯回歸分類器訓練編碼器特性,計算10 k的分割圖像訓練集隨機取樣,我們稱之為「trainval」分裂。

編碼器(E)列指定E體系結構(a)為ResNet (S)或RevNet (V),深度(D,例如ResNet-50 50),通道寬度乘數(c),用1表示原來的的寬度,輸入圖像解析度(r)、方差是否預測和z矢量採樣結果分布(Var),和學習速率乘數η相對於G學習速率。

生成器(G)列指定BigGAN G通道乘法器(c), 96對應於原始寬度,輸出圖像解析度(r)。損失列指定目標中存在BigBiGAN損失的哪些項。

Pz列將輸入分布指定為標準正態N(0,1)或連續均勻U(- 1,1)。具有誤差範圍的結果(寫為「μ±σ」)是具有不同隨機種子的三次運行的平均值和標準偏差。(需要更多計算量的實驗只運行一次)(*基於最佳FID選擇提前停止的vanilla GAN(No E (GAN))結果;根據驗證分類精度(Cls.)選擇早期停止的其他結果。)

表2:將BigBiGAN模型在官方ImageNet驗證集上與最近使用監督邏輯回歸分類器的競爭方法進行比較。BBigBiGAN結果是基於我們的10K訓練集圖像的訓練子集的最高精度,在早期停止的情況下選擇的。ResNet-50結果與表1中的行ResNet(↑E LR)相對應,而RevNet-50×4對應於RevNet×4(↑E LR)。

表3:無監督(無條件)生成的BigBiGAN與以前研究的無監督BigGAN結果的比較。

我們將「偽標記」方法指定為SL(單標記)或集群。為了進行比較,我們對BigBiGAN進行了與基於BigBiGAN的方法相同步驟數(500K)的訓練,但也在最後一行顯示了額外訓練到1M步驟的結果,並觀察了進一步的改進。以上結果包括中值mμ均值和標準差σ3分,寫成「m(μ±σ)」。BigBiGAN結果是基於最佳FID和Train的提前停止選擇的。

改進最近發表的結果的55.4%到60.8%(使用旋轉精度預測表示相同的訓練的學習架構3和特性,表2中標籤為AvePool,與基於對比預測編碼(CPC)的並行工作結果相匹配。

我們還在AvePool特性的不同呈現上進行了學習線性分類器的實驗,標記為BN+CReLU,這將提高我們的最佳結果,RevNet×4到61.3%的top-1準確率。給定全局平均池輸出a,我們首先計算h = BatchNorm(a),然後通過連接[ReLU(h), ReLU(?h)]計算最終的特性,有時稱為「CReLU」(concatrelu)非線性。

BatchNorm表示parameter-free批正常化,規模(γ)和偏移量(β)參數並不了解,所以在這個特性的基礎上培訓一個線性分類器不涉及任何額外的學習。

CReLU非線性保留了輸入中的所有信息,並使特徵維數加倍,每一個特徵維數都可能有助於改進結果。最後,我們考慮使用零距離k近鄰分類來評價表現,在此設置下,達到43.3%的top-1精度。

在表3中,我們將BigBiGAN的無監督生成結果與基於BigGAN的無監督生成結果進行了比較。

這些改進可能部分是由於這種增加平均會增加圖像的較大部分,從而產生通常包含大部分或全部給定物體圖像的發生器,這往往會產生給定類的更具代表性的樣本(給出更好的IS)並且更接近地匹配完整center crop的統計數據(如在真實數據統計中用於計算FID)。

除了預處理的差異外,表3的方法與表1的Base或High Res E(256)行配置相同。

這些結果表明BigBiGAN顯著提高了IS和FID的基線無條件BigGAN生成結果與相同(無監督)「標籤」(SL(單標籤)方法中的單個固定標籤 - 行BigBiGAN + SL與BigGAN + SL)。

我們看到使用高解析度E(行BigBiGAN高解析度E + SL)的進一步改進,超過了IS和FID下的先前無監督的現有技術(行BigGAN +聚類)。 (請注意,圖像生成結果仍然具有可比性:儘管E輸入解析度較高,但生成的圖像解析度仍為128×128。)

另一種「偽標記」方法來自使用非監督集群標籤的集群,這種方法是BigBiGAN的補充,兩者結合可以進一步改進。最後,訓練超過500K步後,結果繼續改善,我們還提供了表3最後一行1M步的結果。

4、總結

我們已經證明,BigBiGAN是一種純粹基於生成模型的無監督學習方法,它在ImageNet上實現了圖像表示學習的最先進結果。 我們的消融研究進一步證實了強大的生成模型可以有益於表徵學習,反過來,學習推理模型可以改善大規模的生成模型。 在未來,我們希望表示學習可以繼續受益於生成模型和推理模型的進一步發展,以及擴展到更大的圖像資料庫。

論文鏈接:

arxiv.org/pdf/1907.0254


推薦閱讀:
相关文章