最近應該沒有太多時間更演算法了,因為這幾天要準備個項目,是CDA的一個做違約風險預測的項目,其實就是從小型的競賽里的題。數據集不太大大概不到6W個客戶,但瀏覽歷史有2300W行數據,最近幾天可能要忙這個東西,因為無論怎麼學習,最終一定要落地,這才是根本。所以在項目結束之前演算法的更新會緩慢一些,預計半個月吧,雖然很多東西還沒來得及寫。但真心是越學習越覺得自己之前寫的很垃圾,很多東西都沒有表達出來,或者只是某種特例。不過還怕很多東西不整理出來又會很快忘記(好的是這種遺忘的知識可以通過二次學習快速掌握),也沒有辦法了,可能最近半個多月演算法知識就不更新學習了。之後有時間再整理出來。今天我先說一下要做的這個項目,等項目做好的時候會詳細將數據代碼和成果都share出來,相信我一定會做到大於競賽平均水平的,這麼經典的二分類問題做不好的話感覺我可以回家接手家族企業了。

題目就是對徵信情況的預測,經典的有監督的二分類問題(這種經典模型,拿到題目的時候腦子中閃現了無數種可用來裝逼演算法模型,甚至想試玩一下tensorflow試試,不知道用不用的上,深度學習現在完全是個空白),題目給了6個表如下圖,表中有一些客戶基本信息,銀行流水信息,信用卡情況,和瀏覽歷史(由於表內容基本都做了脫敏處理,我這種智商的人就無法理解到底瀏覽歷史是個什麼東西。。。)等信息。

下面是在準備時期看到了不錯的相關的博文,地址share出來,也方便自己日後再理解

使用MIC進行變數選擇 - CSDN博客

最大信息係數(MIC) - CSDN博客

scikit-learn系列之特徵選擇

lib.csdn.net/article/ma

模型融合 - CSDN博客

Sklearn-GridSearchCV網格搜索 - CSDN博客

開源|LightGBM:三天內收穫GitHub 1000星_IT新聞_博客園

使用sklearn做單機特徵工程 - jasonfreak - 博客園

從結構到性能,一文概述XGBoost、Light GBM和CatBoost的同與不同 !!!

Python Extension Packages for Windows

【轉載】使用Pandas進行數據提取 - stream886 - 博客園

Digit Recognizer by LightGBM

使用機器學習識別出拍賣場中作弊的機器人用戶(二)_其它編程-織夢者

xgboost參數調整 - CSDN博客

數據比賽大殺器----模型融合(stacking&blending) - CSDN博客


真的是,萬萬沒想到。。。比我想像的艱難,以為DataCastle的題目都比較水,隨便做一做就能做得不錯。原來誤會了,看了打比賽的排名,10名左右好像測試auc大概0.78,ks0.45左右,而我。。。不忍直視的第一次特徵工程和跑模型。還是等幾天後做完了交完結果再看看怎樣吧。


發現新大陸,特徵工程是真的真的重要,幾個新特徵使我的auc得分上升了將近0.2,應該打進前十名了,因為時間原因,測試集數據沒來的集處理,不過在offline的成績看來應該大概是前三名的成績,再做做看吧,特徵空間其實還有很多地方可以,但是時間真的不夠了,還要趕緊趕模型。看看盡量做完後,將測試集處理下提交,要是能打個第一名就好了哈哈哈,並不是沒希望,畢竟現在沒做幾天,後面還有很多特徵可以做,以及模型的融合,但是一定要儘快,要儘快,時間真的太緊,而我又太懶。如此尷尬~哈哈哈

哦對,之後有時間我會把最近學習的xgboost,lightgbm,catboost的用法在這裡整理出來,有些東西比如catboost資料是真的少,不過其實由於sklearn的強大,sklearn對他們都有介面,所以很多東西方法都是一樣的,也沒什麼難度。過幾天吧,會po上思路,代碼,和參數含義等等,這裡個原理現在還不會算,之後會研究一下原理再分享出來。

跑模型好慢,又回到這裡點綴點文字,剛剛看了第一天寫的說要超過競賽平均水平看來目標是真的定低了。。。哈哈哈,開個玩笑,畢竟有的同學已經天池圖像的比賽常年前三名了,我也不能太菜阿。那回過頭來說點正題。

先把競賽地址帖過來,然後數據的話有興趣自行在DataCastle上下載吧,如果下載不下來有朋友又想練手的話可以找我要,那麼,首先看一下題目。

用戶貸款風險預測-競賽信息-DC競賽

題目是融360在平台上發布的,提供的用戶信息(脫敏處理後,信息都是數字形式)包括:用戶基本信息(如性別,職業等),大部分用戶信用卡使用情況,小部分用戶銀行流水情況,以及大部分用戶的瀏覽行為情況。這裡先概述一下,本次的解題思路,四張表的特點,1user_info表 全部是分類型的變數,部分類別數量極少,根據逾期比做融合處理,2bank表,根據流水是入還是出分別計算了解用戶平時銀行流水出入情況,同時可以對其計次求均值等,同時根據是否是工資計算收入是多少。3bill表,感覺這裡需要的業務知識更多一些,考慮逾期人員的消費能力和消費習慣來做衍生變數,順便說一下,最後重要的特徵基本全部都是衍生變數的,由於我覺得放款後的行為可能屬於data leakage,因為我們要預測一個新用戶,根據預測結果決定是否放貸,所以新用戶的放貸後的信息我們是無從得知的。儘管放貸後的信息不多貢獻也不大,但是感覺出於商業實戰角度來講的話,應該是不使用更合理些。

未完待續


推薦閱讀:
相关文章