在training dataset上面訓練好了隨機森林分類器之後,在獨立的test dataset(包含107個樣本)上面做測試。 屬於不均衡數據,訓練集和測試集中正例大概佔10%。訓練分類器時,對少數類做了oversampling。特徵選擇後,剩下8個特徵。使用R package ROCR得到訓練集的ROC曲線如下:


數據集比較小的話 ROC 曲線確實會出現鋸齒狀。你只需要將 plot方法換成 scatter就能明白了。

比如下面我使用LR對偽造數據進行預測的 ROC 曲線:


你把測試集對應的預測分數輸出出來的話應該會發現很多分數是一樣的,所以才會出現這種情況。
樣本太少了吧。
推薦閱讀:
相关文章