如何解决CNN 半监督分类学习，数据严重不平衡的问题？

半监督学习中也会遭遇数据不平衡。简单的比如二分类人脸眼镜分类问题，监督数据很少，保持平衡很容易；但对于非监督数据，数据量就可能严重不平衡。此时如何缓解数据不平衡对神经网路分类效果的影响呢？
很显然，此时，对少量的标注数据的undersampling 和 oversampling是不合理的。
感谢回答。

更新：比如在我的实验中，在CelebA人脸数据集利用semi-gan[1]做半监督性别分类，只用50个标注样本没有问题，二分类能达到97%。但是如果做眼镜分类的话，50个标注样本中，一半是有眼镜，一半没有，但是无标注数据是严重不平衡的。结果：测试集的分类效果很差。
最好是端对端的方式。有知友说尝试聚类，这个我觉得是过于问题复杂化了。
[1]Improved Techniques for Training GANs

半监督学习的数据不均衡问题确实比较棘手。我很少做半监督学习，暂时没有想到很好的解决方案。这是一个很好的问题，之前大概也很少有人研究？

说到Improved GAN，你可以看一下它的改进版本bad gan[1]。关于它的讨论可以参看我们之前的一次讨论。

聚类方法个人尝试过效果并不好因为你无法知道演算法在什么维度上聚类的. 比如你期望能在有无眼镜的维度上进行聚类可是演算法有可能是按照头发颜色或者皮肤颜色等等聚类.

即使是树形聚类也有可能将你想要的类分到多个子类里(比如黄头发-黑皮肤-眼镜和黑头发-黄皮肤-眼镜) 而且也不能排除完全没有按照你希望的维度聚类.

个人近期也遇到同样问题希望有大神来指导下.

如果情况真有你说的那么严重，那么手动扣图，然后做数据合成的成本应该也可以接受了吧。比如知乎上就有一批邪教徒，喜欢把眼镜单独抠出来然后到处p。

讲道理，要是我的话，就把半监督强行转换成有监督（手动斜眼）。有想演算法的时间，早就把数据标完了。→_→

既然是图片，把数量少的分类做图像变换后把数量做上去就行了。