Auto Encoder for Domain Adaptation
领域自适应(Domain Adaptation)是迁移学习(Transfer Learning)的一个子领域,在计算机视觉里面较为常见。Domain Adaptation的实现有很多种,在深度学习未火热之前,主要有基于样本(Instance-based)的迁移、基于特征(Feature-based)的迁移以及基于参数(Parameter-based)的迁移。其中基于特征的迁移包括子空间对齐(Subspace Alignment)以及最小化分布距离比如MMD等方法。本文介绍基于自编码器(Auto Encoder)的方法。
Auto Encoder目前有很多变种,其中最为知名的是Denoising Auto Encoder和Variational Auto Encoder,分别简称为DAE和VAE,在2014年之前基本都是基于DAE的相关工作。本文围绕两篇关于Auto Encoder来做Domain Adaptation的论文来介绍。分别是:
Xavier Glorot, et al. Domain Adaptation for Large-Scale Sentiment Classi cation: A Deep Learning Approach. ICML 2011.
Minmin Chen, et al. Marginalized Denoising Autoencoders for Domain Adaptation. ICML 2012.
A
在第一篇工作里面,主要有以下几个点值得学习的地方:
- 为什么可以使用Auto Encoder来做Domain Adaptation?
- 衡量迁移性能的指标?
下面来看第一个问题,为什么可以使用Auto Encoder来做Domain Adaptation。首先,回顾一下什么是Domain Adaptation。在机器学习的经典假设中,测试集的数据和训练集的数据是同分布采样得到的,然而实际问题中往往存在分布变化的情况,比如在2010年训练的情感识别(Sentiment Classification)模型不能直接用于2012年的数据,因为随著时间的变化会出现很多热点词语;在电商领域,不同商品评论的情感表达不一样,比如在厨房家电商品中常用的情感词为「耐用」、「可靠」等,在DVD商品的评论里面常用的情感词为「好看」、「恐怖」等等,因此在不同商品对应的评价数据上训练的模型不能直接互相使用。
用一张图展示Domain Adaptation,如下图。在分布未对齐之前(左边),在源领域(Source Domain)有一个二分类问题,用红色表示,在目标领域(Target Domain)则是另外一种分布,用蓝色表示,在SD上训练的分类器(虚线代表分类边界)并不适用于TD。但是经过对齐之后,两个数据之间的分布有了一定的对齐,此时Source和Target可以认为是同一分布采样的数据,那么在SD上训练的模型自然可以直接应用到TD,对应的是右边的图。