超强半监督学习 MixMatch

人类的学习方法是半监督学习，他们能从大量的未标记数据和极少量的标记数据学习，迅速理解这个世界。半监督学习最近有没有什么大的突破呢？我的Twitter账号被这篇《The Quiet Semi-Supervised Revolution》【1】博客刷屏了。这篇博客介绍了 DeepMind 的 MixMatch 【2】方法，此方法仅用少量的标记数据，就使半监督学习的预测精度逼近监督学习。深度学习

领域的未来可能因此而刷新。

以前的半监督学习方案，一直以来表现其实都很差。你可能会想到 BERT 和 GPT，这两个超强的自然语言预训练模型。但这两个模型的微调只能算迁移学习，而非半监督学习。因为它们最开始训练的时候，使用了监督学习方法。比如通过语言模型，输入前言，预测后语；输入语境，完形填空；输入前言和后语，预测是否前言不搭后语。这几种方法，很难称作无监督学习。

下面这几种大家很容易想到的半监督学习方法，效果都不是很好。比如使用主成分分析PCA，提取数据中方差最大的特征，再在少量标记数据上，做监督学习；又比如使用自编码机 AutoEncoder，以重建输入图像的方式，获得数据潜在表示，对小数据监督学习；再比如使用生成对抗网路 GAN，以生成以假乱真图像的方式，获得数据潜在表示，对小数据做监督学习。半监督训练很久的精度，还比不上直接在小数据上做监督学习的精度！大家的猜测是，这些非监督方法学到的特征可能并不是分类器真正需要的特征。

什么才是半监督学习的正确打开方式呢？近期的一些半监督学习方法，通过在损失函数中添加与未标记数据相关的项，来鼓励模型举一反三，增加对陌生数据的泛化能力。

第一种方案是自洽正则化（Consistency Regularization）【3，4】。以前遇到标记数据太少，监督学习泛化能力差的时候，人们一般进行训练数据增广，比如对图像做随机平移，缩放，旋转，扭曲，剪切，改变亮度，饱和度，加杂讯等。数据增广能产生无数的修改过的新图像，扩大训练数据集。自洽正则化的思路是，对未标记数据进行数据增广，产生的新数据输入分类器，预测结果应保持自洽。即同一个数据增广产生的样本，模型预测结果应保持一致。此规则被加入到损失函数中，有如下形式，

$| mathrm{p}_{ ext { model }}(y | ext { Augment }(x) ; heta)-mathrm{p}_{ ext { model }}(y | ext { Augment }(x) ; heta) |_{2}^{2}$

其中 x 是未标记数据，Augment(x) 表示对x做随机增广产生的新数据，是模型参数，y 是模型预测结果。注意数据增广是随机操作，两个 Augment(x) 的输出不同。这个 L2 损失项，约束机器学习模型，对同一个图像做增广得到的所有新图像，作出自洽的预测。

MixMatch 集成了自洽正则化。数据增广使用了对图像的随机左右翻转和剪切（Crop）。

第二种方案称作最小化熵（Entropy Minimization）【5】。许多半监督学习方法都基于一个共识，即分类器的分类边界不应该穿过边际分布的高密度区域。具体做法就是强迫分类器对未标记数据作出低熵预测。实现方法是在损失函数中简单的增加一项，最小化 $mathrm{p}_{ ext { model }}(y | x)$ 对应的熵。

MixMatch 使用 "sharpening" 函数，最小化未标记数据的熵。这一部分后面会介绍。

第三种方案称作传统正则化（Traditional Regularization）。为了让模型泛化能力更好，一般的做法对模型参数做 L2 正则化，SGD下L2正则化等价于Weight Decay。MixMaxtch 使用了 Adam 优化器，而之前有篇文章发现 Adam 和 L2 正则化同时使用会有问题，因此 MixMatch 从谏如流使用了单独的Weight decay。

最近发明的一种数据增广方法叫 Mixup 【6】，从训练数据中任意抽样两个样本，构造混合样本和混合标签，作为新的增广数据，

$egin{array}{ll}{ ilde{x}=lambda x_{i}+(1-lambda) x_{j},} & { ext { where } x_{i}, x_{j} ext { are raw input vectors }} \ { ilde{y}=lambda y_{i}+(1-lambda) y_{j},} & { ext { where } y_{i}, y_{j} ext { are one-hot label encodings }}end{array}$

其中是一个 0 到 1 之间的正数，代表两个样本的混合比例。MixMatch 将 Mixup 同时用在了标记数据和未标记数据中。

MixMatch 方案

MixMatch 偷学各派武功，取三家之长，补三家之短，最终成为天下第一高手 -- 最强半监督学习模型。这种 MixMatch 方法在小数据上做半监督学习的精度，远超其他同类模型。比如，在 CIFAR-10 数据集上，只用250个标签，他们就将误差减小了4倍（从38%降到11%）。在STL-10数据集上，将误差降低了两倍。方法示意图如下，