半監督學習中也會遭遇數據不平衡。簡單的比如二分類人臉眼鏡分類問題,監督數據很少,保持平衡很容易;但對於非監督數據,數據量就可能嚴重不平衡。此時如何緩解數據不平衡對神經網路分類效果的影響呢?

很顯然,此時,對少量的標註數據的undersampling 和 oversampling是不合理的。

感謝回答。

更新:比如在我的實驗中,在CelebA人臉數據集利用semi-gan[1]做半監督性別分類,只用50個標註樣本沒有問題,二分類能達到97%。但是如果做眼鏡分類的話,50個標註樣本中,一半是有眼鏡,一半沒有,但是無標註數據是嚴重不平衡的。結果:測試集的分類效果很差。

最好是端對端的方式。有知友說嘗試聚類,這個我覺得是過於問題複雜化了。

[1]Improved Techniques for Training GANs


半監督學習的數據不均衡問題確實比較棘手。我很少做半監督學習,暫時沒有想到很好的解決方案。這是一個很好的問題,之前大概也很少有人研究?

說到Improved GAN,你可以看一下它的改進版本bad gan[1]。關於它的討論可以參看我們之前的一次討論。


聚類方法個人嘗試過 效果並不好 因為你無法知道演算法在什麼維度上聚類的. 比如你期望能在有無眼鏡的維度上進行聚類 可是演算法有可能是按照頭髮顏色或者皮膚顏色等等聚類.

即使是樹形聚類 也有可能將你想要的類分到多個子類裏(比如黃頭髮-黑皮膚-眼鏡 和 黑頭髮-黃皮膚-眼鏡) 而且也不能排除完全沒有按照你希望的維度聚類.

個人近期也遇到同樣問題 希望有大神來指導下.


如果情況真有你說的那麼嚴重,那麼手動扣圖,然後做數據合成的成本應該也可以接受了吧。比如知乎上就有一批邪教徒,喜歡把眼鏡單獨摳出來然後到處p。

講道理,要是我的話,就把半監督強行轉換成有監督(手動斜眼)。有想演算法的時間,早就把數據標完了。→_→


既然是圖片,把數量少的分類做圖像變換後把數量做上去就行了。


推薦閱讀:
相關文章