數據集樣本類別不均衡時，訓練測試集應該如何做？

在文本分類問題當中，數據集打完標籤後，類別數量不均衡，這時候的測試集與訓練集應該如何製作？
在使用搜狗實驗室的新聞數據集時，打完標籤後的各類新聞數量如下

可以看到各個類別的新聞數量十分不均衡，在製作訓練集和測試集時，應該怎麼做？如果採用一刀切的方式只從每個類別當中抽取2000條數據製作，會覺得浪費了數據。那麼遇到這種情況時，應該如何抽取數據來製作數據集和測試集呢？

多分類任務中類別不均衡是非常常見的一個問題，但是差別多少才算分布不均勻呢？

這個沒有一個確定的衡量標準。根據我個人的經驗的話，不同類別數量差異超過一個數量級，我才會認為樣本類別分布不均勻，需要特別關注和調整。比如題主的截圖，最大的類別數是最小類別的三個數量集，差距非常大，觸犯了樣本類別分布不均的情況。

針對樣本分布不均勻，可以從以下幾個方面來多加關注和嘗試：

sample數據：

當樣本類別分布不均勻的時候，什麼都不管還是直接將數據shuffle，隨機切分訓練/驗證/測試集，顯然是不太合理的。常用的有簡單欠採樣和過採樣的方法。

欠採樣：如題主，就這桶的最短板「一刀切」，每個類別sample最小值239，這樣就保證了數據分布絕對均勻，但是造成了嚴重的數據浪費。

過採樣：以最高板為標準，重複拼接短板（重複抽樣類別量小的數據）。這樣數據重複使用，肯定不會造成浪費了吧。但是問題來了，對數量少的類別（如總共只有239個樣本），強行將每個樣本重複10^3遍，模型訓練一個epoch的時候，對這類數據重複學習了10^3次，並且數據量本身就非常小，只有239個，極大可能造成在這些類別上過擬合。

兩者之間更智能的方法：

簡單講一下工作中親測有效的方法，也是在multi-task learning中常用的sample方式。使用multinomial distribution，對不均衡的數據分布做平滑。