關於VaDE模型的理解與思考

Zero-shot learning的一個關鍵技術是建立語義信息與圖像信息的對應關係，很多人會嘗試用生成模型來間接構造visual-semantic embedding space。有時間也看看相關的一些研究，整理一下。今天主要講講騰訊2017年發在IJCAI上的一篇論文的理解和思考：Variational Deep embedding: An Unsupervised and Generative Approach to Clustering。

聚類是將相似的對象組合在一起的過程，是機器學習和人工智慧中最基本的任務之一。聚類方法可以分為兩大類：Similarity-based clustering 和 Feature-based clustering。其中Similarity-based clustering比較出名的是Spectral Clustering (SC)方法；Feature-based clustering比較出名的方法有K-means和Gaussian Mixture Model (GMM)方法。最近，隨著deep learning在各大機器學習任務中取得巨大勝利，也有很多學者將deep learning應用於聚類的，deep learning可以提供好的表達，避免在原始數據上進行聚類。這篇文章的motivation就在於基於神經網路提出一種聚類方法，一是可以用deep learning學習一種好的表達，而這種表達可以獲取數據的統計結構；二是可以生成樣本。

高斯混合模型（Gaussian Mixture Model, GMM）可以通過最大期望（EM）優化演算法來進行聚類。作者在這個基礎上引入了一個深度神經網路（a deep neural network, DNN）來建模數據生成的過程，從而可以用隨機梯度變分貝葉斯（Stochastic Gradient Variational Bayes, SGVB）來進行模型優化。換個角度看，也可以看作是在變分自編碼器（Variational Auto-Encoder, VAE）的基礎上，用GMM代替了之前的單個的高斯分布，因此提出的VaDE在優化的過程也可以用重參數技巧（reparameterization trick）。下面是文章摘要的表述：

Variational Deep embedding (VaDE) 是一個基於變分自編碼器（Variational Auto-Encoder, VAE）的非監督的生成聚類（unsupervised generative clustering）方法。VaDE通過一個高斯混合模型（Gaussian Mixture Model, GMM）和一個深度神經網路（a deep neural network, DNN）來建模數據生成的過程。建模的過程分為3步：1）由GMM選擇一個cluster；2）根據cluster生成一個潛在的embedding；3）用DNN將embedding編碼為observable。VaDE的優化還是以VAE的形式，所以加了一個不同的DNN來將observable解碼為潛在embedding，這樣證據下限（evidence lower bound, ELBO）就能用隨機梯度變分貝葉斯（Stochastic Gradient Variational Bayes, SGVB）和重參數技巧（reparameterization trick）進行優化了。下圖是VaDE的結構圖。