如何解決CNN 半監督分類學習，數據嚴重不平衡的問題？

半監督學習中也會遭遇數據不平衡。簡單的比如二分類人臉眼鏡分類問題，監督數據很少，保持平衡很容易；但對於非監督數據，數據量就可能嚴重不平衡。此時如何緩解數據不平衡對神經網路分類效果的影響呢？
很顯然，此時，對少量的標註數據的undersampling 和 oversampling是不合理的。
感謝回答。

更新：比如在我的實驗中，在CelebA人臉數據集利用semi-gan[1]做半監督性別分類，只用50個標註樣本沒有問題，二分類能達到97%。但是如果做眼鏡分類的話，50個標註樣本中，一半是有眼鏡，一半沒有，但是無標註數據是嚴重不平衡的。結果：測試集的分類效果很差。
最好是端對端的方式。有知友說嘗試聚類，這個我覺得是過於問題複雜化了。
[1]Improved Techniques for Training GANs

半監督學習的數據不均衡問題確實比較棘手。我很少做半監督學習，暫時沒有想到很好的解決方案。這是一個很好的問題，之前大概也很少有人研究？

說到Improved GAN，你可以看一下它的改進版本bad gan[1]。關於它的討論可以參看我們之前的一次討論。

聚類方法個人嘗試過效果並不好因為你無法知道演算法在什麼維度上聚類的. 比如你期望能在有無眼鏡的維度上進行聚類可是演算法有可能是按照頭髮顏色或者皮膚顏色等等聚類.

即使是樹形聚類也有可能將你想要的類分到多個子類裏(比如黃頭髮-黑皮膚-眼鏡和黑頭髮-黃皮膚-眼鏡) 而且也不能排除完全沒有按照你希望的維度聚類.

個人近期也遇到同樣問題希望有大神來指導下.

如果情況真有你說的那麼嚴重，那麼手動扣圖，然後做數據合成的成本應該也可以接受了吧。比如知乎上就有一批邪教徒，喜歡把眼鏡單獨摳出來然後到處p。

講道理，要是我的話，就把半監督強行轉換成有監督（手動斜眼）。有想演算法的時間，早就把數據標完了。→_→

既然是圖片，把數量少的分類做圖像變換後把數量做上去就行了。