寫在前面

隊伍名:小兔子乖乖

完整方案

1.賽題背景和意義

2.數據探索和特徵工程

3.研究成果

4.未來展望

1.賽題背景和意義

此次比賽是中國移動福建公司提供2018年某月份的樣本數據,包括客戶的各類通信支出、欠費情況、出行情況、消費場所、社交、個人興趣等豐富的多維度數據,參賽者通過分析建模,運用機器學習和深度學習演算法,準確評估用戶消費信用分值。我們知道通訊運營商作為社會企業中不可缺少的部分,同樣需要打造企業信用評分體系,助推整個社會的信用體系升級。可是「傳統的信用評分主要以客戶消費能力等少數的維度來衡量,難以全面、客觀、及時的反映客戶的信用。中國移動作為通信運營商擁有海量、廣泛、高質量、高時效的數據,如何基於豐富的大數據對客戶進行智能評分是中國移動和新大陸科技集團目前攻關的難題。運營商信用智能評分體系的建立不僅能完善社會信用體系,同時也中國移動內部提供了豐富的應用價值,包括全球通客戶服務品質的提升、客戶欠費額度的信用控制、根據信用等級享受各類業務優惠等。有了賽題的初步瞭解,我們接著考慮賽題的意義,主要為四個方面,(1)可直面真實場景數據,可以接觸到企業內部真實脫敏的數據,讓參賽者在真實業務場景上使用數據;(2)可以交流多種想法,可以接觸到企業內部真實脫敏的數據,讓參賽者在真實業務場景上使用數據;(3)進一步提升信用評估方法技能,通過此次參賽可進一步提升參賽選手的對用戶信用評分的技能,可以用在用戶畫像和黑產識別上;(4)加強機器學習應用技能,通過此次參賽可加強如何將演算法知識應用在用戶給評分的業務場景中。有了這些基本的瞭解,接下來將具體展示詳細工作。

2.數據探索與特徵工程

基本特徵:用戶ID類特徵,主要標籤為是否大學生客戶,是否黑名單客戶,是否4G不健康客戶,繳費用戶當前是否欠費繳費。用戶數值型特徵,主要標籤為用戶網齡(月),用戶最近一次繳費距今時長(月),繳費用戶最近一次繳費金額(元),用戶近6個月平均消費話費(元),用戶賬單當月總費用(元),用戶當月賬戶餘額(元),用戶話費敏感度。當月網購類應用使用次數,當月物流快遞類應用使用次數,當月金融理財類應用使用總次數,當月視頻播放類應用使用次數,當月飛機類應用使用次數,當月火車類應用使用次數,當月旅遊資訊類應用使用次數在此處插入段落文本。 大體可以看作布爾型和數值型在此處插入段落文字。

年齡與信用分的相關性圖

數據探索:我們對用戶繳費金額與信用分,用戶年齡與信用分進行了分析。同時對一些值進行替換。

敲黑板:從圖中可以看到存在很多的異常值,然而在這到題中,提出異常值得樣本成為提分得關鍵,由於這些異常值是會對整體評估造成影響。包括前排也都會這樣做。

data.loc[data[用戶年齡]==0,用戶年齡] = None
data.loc[data[用戶話費敏感度] == 0, 用戶話費敏感度] = None
data.loc[data[用戶賬單當月總費用(元)] == 0, 用戶賬單當月總費用(元)] = None
data.loc[data[用戶近6個月平均消費值(元)] == 0, 用戶近6個月平均消費值(元)] = None

基本特徵構造

新的探索

不斷改善,才能不斷創造可能,從多方面進行探索,最終得到全面提升。這裡將分為四個方面,(1)數據多種數據影響,對數據的預處理,不同類別影響因素對用戶信用的影響;(2)同樣特徵工程,特徵在某些模型表現優異,而在另一些模型表現不佳;(3)構建新的特徵不同模型採用了不同特徵;(4)構建新的模型,並嘗試更好的運用。

3.研究成果

經過上面一系列的過程,從數據分析到特徵工程,然後不斷的完善,得到最終的結果,模型方面我們保證差異性,特徵方面我們分不同的組別進行訓練。最終將多個結果進行融合。

我們知道,整個比賽提高成績主要三個方面,除了特徵工程外,剩下兩各分別是模型調參和模型融合。對應模型融合部分在經過satcking,average的嘗試後,我們選擇了加權融合,由於模型和特徵都存在差異性,最總結果提升很多,在B榜也是得到了第五的成績。

4.未來展望

雖然比賽結束了,但還是期待更多的嘗試,這次比賽的數據量並不是很多,考慮增加樣本,來提高高質量的訓練集容量,增加樣本量可以防止過擬合,可以使模型的泛化能力更強;構建多重」UID「關注點不僅僅聚焦在呈現的一個用戶的行為,可以聚焦用戶羣相互之間的特徵標籤做信用評分;豐富用戶標籤,用戶標籤越豐富,獲得用戶信息並區分用戶行為的辨識度也相應的越高;嘗試多種模型,不同模型帶來的效益不一樣,而融合也往往能帶來不錯的效果;

寫在最後

知乎專欄目的傳播更多機器學習乾貨,比賽方法。歡迎投稿!

ML理論&實踐?

zhuanlan.zhihu.com
圖標

推薦閱讀:
相關文章