前記:在讀研究生的時候,曾經跟師弟們做過一次交流,其中舉到一個例子:「如果因變數是中國的人均GDP,自變數包括你家門口的那棵樹的高度,你用了簡單的模型去擬合,結果你會得到你家門口樹的高度對中國人均GDP有著顯著的促進關係這樣啼笑皆非的結論。為什麼會這樣?主要是因為我們過多的重視了變數之間數量上的關係,而忽略了變數之間的經濟學聯繫,缺乏了經濟學理論的思考才會這樣。這樣的結論就是一種數據把戲(Trick of Data)。

工作之後,發現也有很多需要模型的地方,而跟很多風控乙方溝通發現很多乙方都會用種種Trick of Data 來忽悠並不是專業做模型的業務人員,所以從今天開始會更新幾篇關於這種數據把戲的文章,各位在做業務交流的時候可以避免類似的坑。

EP01 為什麼總有乙方號稱他的模型效果達到0.6?

我相信做風控策略的小夥伴在與風控乙方接觸的時候,總會有那麼幾個乙方會去推銷自己的某個數據或者模型分,而模型的區分效果張口就是0.5甚至0.6,回去一查,哎喲,這是個很好的模型啊,趕緊簽商務合同接進來試試,結果發現差強人意?

這個時候乙方的銷售會說一定是你們的業務跟模型樣本不太匹配,要不我們再聯合建模下?

你不信邪,自己開始做模型,結果怎麼都達不到人家的精度,你是不是開始鬱悶:

為什麼乙方的模型能達到這麼高的k-s,你卻不行?

首先,什麼是風控模型中的KS值?

KS用於模型風險區分能力進行評估:指標衡量的是好壞樣本累計分部之間的差值。

KS的計算步驟如下:

1. 計算每個評分區間的好壞賬戶數。

2. 計算每個評分區間的累計好賬戶數佔總好賬戶數比率(good%)和累計壞賬戶數佔總壞賬戶數比率(bad%)。

3. 計算每個評分區間累計壞賬戶佔比與累計好賬戶佔比差的絕對值(累計good%-累計bad%),然後對這些絕對值取最大值即得此評分卡的K-S值。

所以確實是這樣:

好壞樣本累計差異越大,KS指標越大,那麼模型的風險區分能力越強。

因為K-S值確實是代表著很強大的區分力,所以很多甲方的業務同伴就會被忽悠,那在排除乙方銷售在數據造假的情況下,為什麼有的乙方確實就能宣稱自己模型K-S值高達0.6呢?這主要有以下幾種可能:

1.建模樣本壞樣本比例過高

如果建模過程中壞樣本比例過高,那麼是可以有機會達到這個值的。

舉例如下:

(1)如果建模樣本中好壞樣本比例good/bad=50/50,壞賬率為50%;k-s值0.6指的是如果在誤殺20%好用戶的情況下可以識別80%的壞樣本;那麼使用模型之後的結果為good/bad=40/10,壞賬率變為20%;這個我們做風控策略的人都知道在使用一些較好的變數的情況下是有可能的,因為畢竟做到50%的壞賬已經是夠爛的了。

(2)如果建模樣本中好壞樣本比例good/bad=80/20,壞賬率為20%;k-s值0.6指的是如果在誤殺20%好用戶的情況下可以識別80%的壞樣本;那麼使用模型之後的結果為good/bad=64/4,壞賬率變為5.88%,其實我們知道這個一個模型是很難做到。

通過上述這個例子我們知道,不同的樣本比例的情況下K-S值提升的難度是有很大不同的,不同模型的K-S值比較優劣前提是要基於建模樣本比例類似,否則不具有橫向比較性。

2.樣本滯後性

乙方一般選用的樣本都是來自於甲方數月之前的業務數據,但是選用變數的時候存在著滯後性,而這種滯後性會導致變數偏差,比如最簡單的芝麻信用分,在3個月前進行業務申請的時候是680,但是此時該用戶的芝麻信用分因為多次逾期已經降到550了,所以在建模的時候有很多模型方都沒有考慮到這種變數時滯性,尤其是重要變數的時滯性,導致模型能夠得到一個超高的k-s。

3.模型過擬合

這個我相信專業的建模人員都不太會去犯這樣的錯誤,但是不可否認還是有很多良莠不齊的乙方用不懂業務的純建模人員,在這樣的過程中會犯類似的錯誤,尤其是深度神經網路和隨機森林這樣的演算法,刻意的調參有可能達到過高的k-s值,這才是真正的數據把戲。

模型的k-s值是一個很好的體現模型效果的變數,但是一定要注意了,不要被這樣的數據把戲給蒙蔽了,業務人員還是要懂一點模型才不至於被忽喲,當然風控的建模人員也要懂一點業務才行。

今天文章很簡短,但是Not ending

Next,下一篇:

coming soon


推薦閱讀:
相关文章