特斯拉的AI負責人也表示:self-supervised學習是一個非常豐富的領域(但是需要比ImageNet提供更多的密度+結構),將消除大規模數據集的當前必要性( 或推出RL)。
近年來,我們看到了視覺數據生成模型的快速進展。儘管這些模型之前被模式單一、模式少、結構簡單、解析度低所局限,但是,隨著建模和硬體的發展,它們已經具備生成複雜、多模態、高解析度圖像的能力。
坦白說,在特定域中生成數據,需要深度理解所述域的語義。長期以來,這一想法頗具吸引力,因為原始數據既便宜又豐富,且可以從互聯網等來源獲得無限供應,圖像包含的信息遠遠超過(典型的有辨別能力的)機器學習模型訓練出來(用於預測的)的類別標籤。儘管生成模型的進步毋庸置疑,但是「這些模型學到了什麼語義,以及如何利用它們進行表徵學習的問題依舊存在。」
僅憑原始數據就能真正理解生成的夢想還沒有實現。相反,最成功的無監督學習方法利用了監督學習領域的技術,這是一種被稱為自我監督學習的方法。這些方法通常以某種方式改變或阻止數據,並訓練模型以預測或生成缺失信息。例如,有學者曾提出將彩色化作為無監督學習的手段,其中模型被給定輸入圖像中顏色通道的子集,並且經過訓練以預測缺失的通道。
作為一種無監督學習方法,生成模型為自我監督提供了頗具吸引力的替代方案。因為經過訓練,生成模型可以對整個數據分布建模,無需修改任何原始數據。生成性對抗網路(GAN)是一類應用於表徵學習的生成模型。
GAN框架中的生成器是一個從隨機採樣的lat(nt varibles(稱為「雜訊」)到生成數據的前饋映射,學習信號由訓練有素的鑒別器提供,以區分真實和生成的數據樣本,引導生成器的輸出跟隨數據分布。我們提出了對抗性學習推理(ALI)或雙向GAN(BiGAN)方法作為GAN框架的擴展,該方法通過編碼器模塊將實際數據映射到隱藏數據來增強標準GAN。
在最優鑒別器的極限下,確定性BiGAN的行為類似於自動編碼器,最大限度地降低了重構成本; 然而,重構誤差表面的形狀由參數鑒別器決定,而不是像2error這樣簡單的像素級測量。由於鑒別器通常是一個功能強大的神經網路,因此希望它能在重構中產生強調「語義」錯誤的誤差面,而不是低層次的細節。