過採樣:以最高板為標準,重複拼接短板(重複抽樣類別量小的數據)。這樣數據重複使用,肯定不會造成浪費了吧。但是問題來了,對數量少的類別(如總共只有239個樣本),強行將每個樣本重複10^3遍,模型訓練一個epoch的時候,對這類數據重複學習了10^3次,並且數據量本身就非常小,只有239個,極大可能造成在這些類別上過擬合。
簡單講一下工作中親測有效的方法,也是在multi-task learning中常用的sample方式。使用multinomial distribution,對不均衡的數據分布做平滑。