台湾 || 语言: 大陆简体港澳繁體台灣正體

減少信用卡欺詐識別誤殺：實現基於代價敏感的AdaCost演算法

雪花台灣 2019-07-01 13:14

我們平時訓練一個辨別好壞的分類模型，會遇到兩個棘手的問題：
1、類別不平衡，壞的樣本量往往遠遠小於好的；2、錯分代價不均等，漏殺和誤殺帶來的影響視具體問題完全不同。本文改寫了sklearn中的AdaBoost的源碼，使大家可以自由決定漏殺和誤殺對分類器的影響。採用的樣例數據是kaggle信用卡欺詐數據集。

代價矩陣

——讓我們一起複習一下西瓜書第35-36頁的內容

在一些場景下，當分類器將一個樣本錯分時，造成的後果是不同的，

有的時候需要保證正確：醫生把患者誤診為健康比把健康人誤診為患者後果更嚴重；

有的時候需要保證全面：門禁系統寧可冤枉好人也不能漏掉壞人；

所以可以根據分類任務的領域知識設定一個代價矩陣：

相关文章