開篇:期盼已久的複賽(6月29號)開始了,到7月17日0點結束,讓我來代替沒有進入複賽的小朋友們,繼續體驗過程吧。我儘可能記錄自己的感受、比賽過程、比賽心得(不違反簽署保密協議的前提下),我盡量為大家結了初賽的這個「疙瘩

※文章發布時決賽已經結束了,「開篇」是6月末寫得,保持了原樣未修改。就讓我們倒序展示一下結果吧。

  • 決賽結果(Top2)

視頻來源:平安官方sohu號,雖然決賽已經過一段時間了,還是要感謝隊友不懈努力!特別是在7天的現場決賽,隊伍成員人數少,絕對不佔優勢。

2018平安產險數據建模大賽(UBI) https://www.zhihu.com/video/1023974648354144256
  • 複賽環境(水果拍攝)

感謝DF和平安賽會組織者細心安排,雖然現場賽是「加賽」,每個人都在認真對待。

平安金融大廈,決賽首日

辦理臨時入門證的隊伍

比賽會議室(5個隊伍一個會議室)

戰鬥5天的地方,乾淨、整潔

會議室窗外(遠處大山是香港)

決賽答辯現場

上面內容和賽題關係不大,只是為了讓大家看看比賽過程。


  • 初賽數據

我從最初開始說吧,這次採用問答形式,讓你逐漸理解我的整個思考過程。

問1:駕駛數據是什麼?

答1:記錄駕駛的海拔、方向、速度、電話、駕駛時間狀態等的數據,可以把他們轉化成,a.駕駛環境因素(行駛路線、地形)b.個人用車習慣因素(用車頻度、時長)c.時間因素(早晚高峰、夜間、疲勞駕駛)d.注意力干擾因素(電話、情緒)

問2:Y = 0(沒有賠償)的用戶,一定比Y > 0(存在理賠)風險大嗎?

答2:不一定,因為賠償和每次駕駛風險,不是一一對等的,比如,這人熬夜打游(我們數據里沒有疲勞度,舉例而已啊),他開車出去一定有事故(產生賠償)嗎?結論只能是有可能,但不是絕對有事故(賠償)。

問3:Y = 0 的用戶,就是沒有風險嗎?

答3:不是、因為只要車在路上行駛,就存在風險,只是在危險的駕駛行為時,你出事故的責任風險就大(你賠錢給別人),例如:你開車(A)總要轉彎吧,如果你正常左轉時有人走神,最終碰撞,從交通責任來看,你全責(轉彎讓直行)!從數據理解,如果事故只要你沒有責任,那麼系統里,你就是 Y = 0的好用戶。

轉彎讓直行

※所以自己開車出門時,會規劃最少的左轉,就是有事故,也不是我的責任:)

問4:這些方向數據、海拔數據如何使用呢?初賽是1min的數據,就沒有價值嗎?

答4:每種數據都有其用處,例如:1min數據對是否起伏就很好,太細(5s)的數據會起伏幅度變得不是那麼明顯,甚至出現過於"敏感"的情況。 1min的數據可以很好的描述: 坡道的風險 > 平地, 蜿蜒路況的風險 > 直路 這些問題。 但1min的數據就沒有辦法判斷急加速、急減速了,所以速度相對其他(方向、路況)特徵重要度變得弱化了。

問5:按你說的數據如何使用呢?

答5:駕駛數據不同於貓狗分類,說白了,數據都是「灰色"和"黑色」,只是表現的風險表徵強弱不同而已。舉個例子吧:

你眼裡的數據,邊界涇渭分明

我眼中的數據,邊界混沌不清

結論:Y > 0的數據相對 Y = 0 的數據,風險特徵更為顯著。

  • Gini係數的脆弱性

得分如何計算,在比賽中也非常重要,如果你不能理解得分機制,你就無法控制你的模型,不能對一些結論做出合理解釋。從這個出發點,我儘可能的模擬了Gini的結果。

刻意破壞百分之一的數據,得分下降75%

保費可視化

我做了個假釋,如果我們能夠得到一個最優結果,這就就有了Gini左側的圖,0.96444得分。我只是讓最優排序的結果,最後1%(300條左右)的數據錯誤,讓它安排在最前面,得分爆降75%。有了這個結論,我想你就不難理解為什麼調整一個參數,分數變化巨大。。。。其實只要你分錯一個重要的 樣本,你的得分都會 「劇烈震蕩」!

  • 物盡其用

我比賽沒有是用大量的模型融合得分方法,我在想盡一切辦法讓單模型(XGB)充分利用數據。既然數據是灰色的,Gini分數如此脆弱,我們就應該充分利用這些特性,提高模型的好成績(得分)。模型主要分成兩部分:

1)使用全體數據訓練,讓數據基本有序(灰度數據太多,使局部數據排序不正確,無論怎麼調整,因為數據特點問題,所以很難達到好的效果)

2)使用部分數據訓練, 這部分數據風險明確,局部二次預測(Y > 0 的數據,它表徵非常明確)

模型關係

通過這樣方法,就可以很好的解決比賽中遇到的問題。

  • 總結

雖然第一次參加比賽,結果超出了自己的預期,我原來的目標就是進入複賽,比賽過程雖然漫長、艱辛。 但是 自己感觸頗多, 每次提出新想法,多數都被結果 來盆冷水。。。。也許你看到的是獲獎的獎金,其實我們也是無數次苦悶中挺過來得,堅持就會有結果!加油吧!平安賽再見。。。

別忘點贊哦,我分享知識不收費!

凌藍風 2018-09-14

《原創作品-請勿轉載》

推薦閱讀:

查看原文 >>
相关文章