最近應該沒有太多時間更演算法了,因為這幾天要準備個項目,是CDA的一個做違約風險預測的項目,其實就是從小型的競賽里的題。數據集不太大大概不到6W個客戶,但瀏覽歷史有2300W行數據,最近幾天可能要忙這個東西,因為無論怎麼學習,最終一定要落地,這才是根本。所以在項目結束之前演算法的更新會緩慢一些,預計半個月吧,雖然很多東西還沒來得及寫。但真心是越學習越覺得自己之前寫的很垃圾,很多東西都沒有表達出來,或者只是某種特例。不過還怕很多東西不整理出來又會很快忘記(好的是這種遺忘的知識可以通過二次學習快速掌握),也沒有辦法了,可能最近半個多月演算法知識就不更新學習了。之後有時間再整理出來。今天我先說一下要做的這個項目,等項目做好的時候會詳細將數據代碼和成果都share出來,相信我一定會做到大於競賽平均水平的,這麼經典的二分類問題做不好的話感覺我可以回家接手家族企業了。
題目就是對徵信情況的預測,經典的有監督的二分類問題(這種經典模型,拿到題目的時候腦子中閃現了無數種可用來裝逼演算法模型,甚至想試玩一下tensorflow試試,不知道用不用的上,深度學習現在完全是個空白),題目給了6個表如下圖,表中有一些客戶基本信息,銀行流水信息,信用卡情況,和瀏覽歷史(由於表內容基本都做了脫敏處理,我這種智商的人就無法理解到底瀏覽歷史是個什麼東西。。。)等信息。