基于R语言的Prosper贷款数据分析

Prosper，于2006年2月5日上线，是美国第一家P2P借贷平台。借款人通过Prosper寻求个人贷款，贷款额度为2000-35000美元，期限为3年或5年，贷款利率根据借款人的Prosper评级等确定。本文拟通过对2006-2014年11w贷款数据进行分析和建模，来探索Prosper贷款客户特征和预测违约。

提出以下问题：

Prosper借款客户有何特征？
借款利率主要根据借款人的哪些特征确定？
Prosper借款条件在2009年7月前后有哪些变化？
借款人的哪些特征能有效用于预测是否违约？

数据采集

此数据是由Joshua Schnessl从Udacity Data Analyst Nanodegree上获取并把数据放到kaggle的上供感兴趣的人分析的一个实例项目。

数据清洗

#导入数据 prosper <- read.csv("prosperLoanData.csv") #数据预览 str(prosper)

可知，有11w条记录，81个变数，可选择感兴趣的子集来进行探索。

# 选择感兴趣的子集 prosper_set <- prosper[c("ListingCreationDate","CreditGrade","Term","LoanStatus","BorrowerRate","ProsperRating..numeric.","ProsperRating..Alpha.","ProsperScore","ListingCategory..numeric.","BorrowerState","Occupation","EmploymentStatus","EmploymentStatusDuration","IsBorrowerHomeowner","CurrentlyInGroup","CreditScoreRangeLower","CreditScoreRangeUpper","InquiriesLast6Months","DelinquenciesLast7Years","BankcardUtilization","TradesNeverDelinquent..percentage.","TradesOpenedLast6Months","DebtToIncomeRatio","IncomeRange","StatedMonthlyIncome")]

特征描述：
ListingCreationDate：创建列表信息的日期。（用于定位2009年前后的借贷）。CreditGrade：上市开始时分配的信用评级。适用于2009年之前的列表，仅适用于这些列表。Term：贷款期限，以月为单位表示。LoanStatus：贷款的当前状态：已取消，已罚款，已完成，当前，违约，正在进行的最终付款，逾期。逾期状态将伴随著拖欠金额。BorrowerRate：借款人对此贷款的利率。ProsperRating (Alpha)：在AA-HR之间创建列表时分配的Prosper评级,适用于2009年7月以后发放的贷款。ProsperScore：使用历史Prosper数据构建的自定义风险评分。得分范围从1-11，其中11是最佳或最低风险得分。适用于2009年7月以后发放的贷款。ListingCategory (numeric)：0 - 不可用，1 - 债务合并，2 - 家居装修，3 - 商业，4 - 个人贷款，5 - 学生使用，6 - 自动，7-其他，8 - 婴儿和领养，9 - 船，10 - 化妆品程序，11 - 订婚戒指，12 - 绿色贷款，13 - 家庭费用，14 - 大额购买，15 - 医疗/牙科，16 - 摩托车，17 - 房车，18 - 税收，19 - 度假，20 - 婚礼贷款。BorrowerState：创建清单时借款人地址的两个字母缩写。

Occupation：借款人在创建借款清单时选择的职业。
EmploymentStatus：借款人在借款清单时的就业状况。EmploymentStatusDuration: 借款人在借款清单时的就业时长。IsBorrowerHomeowner：如果借款人对其信用状况有抵押或提供确认他们是房主的文件，则该借款人将被归类为房主。CurrentlyInGroup：指定借款人在创建借款信息时是否在某个组中。CreditScoreRangeLower：较低的值表示由消费者信用评级机构提供的借款人信用评分的范围的下限。CreditScoreRangeUpper：较高的值表示由消费者信用评级机构提供的借款人信用评分的范围的上限。InquiriesLast6Months：在提取信用状况时过去六个月的信用查询数量。DelinquenciesLast7Years：提取信用档案时过去7年的拖欠次数。BankcardUtilization：提取信用档案时使用的可用周转信用百分比。

TradesNeverDelinquent (percentage)：提取信用状档案从未拖欠的交易数量。
TradesOpenedLast6Months：提取信用档案时过去6个月内开立的交易数量。DebtToIncomeRatio：提取信用档案时借款人的债务与收入比率。如果债务与收入比率不可用，则此值为空。该值的上限为10.01（任何大于1000％的债务与收入比率将返回为1001％）。IncomeRange：创建借款清单时借款人的收入范围。StatedMonthlyIncome：借款人在创建借款清单时所说的月收入。

数据类型转换：将ListingCreationDate转换为日期型；ProsperScore为数值型，将其转化为因子类型

prosper_set$ListingCreationDate <- as.Date(prosper_set$ListingCreationDate) prosper_set$ProsperScore<-factor(prosper_set$ProsperScore, levels=c("1","2","3","4","5","6","7","8","9","10","11"))

数据排序：CreditGrade(2009年7月前的prosper信用评级)与ProsperRating..Alpha.(2009年7月后的prosper信用评级)，对其从劣到优进行排序

prosper_set$CreditGrade <- ordered(prosper_set$CreditGrade, levels=c("NC","HR","E","D","C","B","A","AA")) prosper_set$ProsperRating..Alpha. <- ordered(prosper_set$ProsperRating..Alpha., levels=c("HR","E","D","C","B","A","AA")) prosper_set$IncomeRange <- ordered(prosper_set$IncomeRange, levels=c("Not employed","$0","$1-24,999","$25,000-49,999","$50,000-74,999","$75,000-99,999","$100,000+","Not displayed"))

数据一致性处理：LoanStatus，将逾期具体天数均归类为逾期Past Due，chargedoff与Defaulted归类为违约Defaulted，便于数据探索

levels(prosper_set$LoanStatus)[7:12] <- c("Past Due") levels(prosper_set$LoanStatus)[2] <- c("Defaulted")

使用消费信用分范围的均值表示消费信用分

prosper_set$CreditScore <- with(prosper_set, (CreditScoreRangeLower+CreditScoreRangeUpper)/2)

将违约状态LoanStatus标记为违约与未违约，二分类处理，便于建模分析

prosper_set$LoanStatus.numeric <- NA prosper_set[prosper_set$LoanStatus=="Defaulted",]$LoanStatus.numeric <- 0 prosper_set[prosper_set$LoanStatus=="Completed",]$LoanStatus.numeric <- 1 prosper_dataset <- subset(prosper_set,!is.na(LoanStatus.numeric))

载入所需调用的包

library(ggplot2) library(gridExtra) library(InformationValue) library(dplyr) library(randomForest)

数据探索

1. 借款用途ListingCategory

ggplot(aes(x=ListingCategory..numeric.),data=prosper_set)+ geom_histogram(stat="count")+ scale_x_continuous(breaks = seq(0,20,1))

可看出一半以上的用户的借款原因为债务合并，其次人数较多的是为保护隐私而选择的不可用或其它。这与美国人的消费习惯相吻合。

2. 居住地址BorrowerState

ggplot(aes(x=BorrowerState),data=prosper_set)+ geom_histogram(stat="count")

在prosper上的借款人来自CA的最多，这应该是由于prosper的总部设立在旧金山。其次是FL/(Florida)、IL/(Illinois)、NY/(NewYork)、TX/(Texas)，均是经济发展较发达的城市。

3. 职业Occupation

ggplot(aes(x=Occupation),data=prosper_set)+ geom_histogram(stat="count",color=black,fill=#999DDD)+ theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))

在职业选项上,很多借款人似乎不太愿意透露自己的信息,都选择填了other这个选项.因此这项数据的参考意义并不大。

4. 就业状况EmploymentStatus

ggplot(aes(x=EmploymentStatus),data=prosper_dataset)+ geom_histogram(stat="count")

绝大部分借款人为在职人士。

5. 就业时长EmploymentStatusDuration

ggplot(aes(x=ceiling(EmploymentStatusDuration/12)),data=prosper_set)+ geom_histogram(stat="count",binwidth_=1,color=black,fill=#999DDD)+ scale_x_continuous(limit=c(0,35),breaks=c(0,35,1))

99%的借款人的工作年限在35年以内，其中工作年限少于1年的人数最多，人数随工作年限的增加呈指数减少。

6. 过去6个月内查询次数InquiriesLast6Months

ggplot(aes(x=ListingCreationDate,y=InquiriesLast6Months),data=prosper_set)+ geom_point(aes(color=LoanStatus),alpha=1/20)

2009年7月后，借款人在6个月内的信用状况查询次数几乎全部低于7次左右，应该是prosper对此项作了限制。

7. 借款期限Term

ggplot(aes(x=Term,y=ListingCreationDate),data=prosper_set)+ geom_point()+ scale_x_continuous(breaks=c(12,36,60))+ geom_hline(aes(yintercept=as.Date(c("2008-11-24"))),color=purple,linetype=2)+ geom_hline(aes(yintercept=as.Date(c("2009-07-01"))),color=orange,linetype=2)+ geom_hline(aes(yintercept=as.Date(c("2010-07-01"))),color=blue,linetype=2)

借款期限Term在2008年11月末至2009年7月初左右有一段空白，无相应数据。这是由于此期间，2008年11月24日，SEC判定Prosper违反了《1933年证券法》，要求Prosper暂定运营。随后，2009年7月，Prosper的贷款在获得SEC的注册后，重新开发了网站。

图中可看出：2010年7月前，借款期限只有3年即36个月，这一个选项,图中12月份那个数据点应该是异常值。在2010年7月以后，借款期限有3种选择，1年、3年、5年。

8. 消费信用分CreditScore

ggplot(aes(x=ListingCreationDate,y=CreditScore),data=prosper_set)+ geom_point(aes(color=LoanStatus))+ geom_hline(aes(yintercept=600),color=blue,linetype=2)

可看出，2009年7月以前，prosper对借款人的消费信用评分无要求，但数据统计，低于600分以下的借款人的违约率较高，故2009年7月后，prosper似乎不再贷款给消费信用评分低于600分的用户。

9. Prosper评级

#信用等级CreditGrade（2009年7月以前） ggplot(aes(x=CreditGrade,y=ListingCreationDate),data=prosper_set)+ geom_point(alpha=1/50)+ geom_hline(aes(yintercept=as.Date(c("2009-07-01"))),color=blue,linetype=2)

结合图表可知：CreditGrade中有84984项为空，这部分数据基本上全部属于2009年7月份以后建立的借款数据，即CreditGrade只用于2009年7月份以前的prosper信用评级。

#对比2009年7月前后的prosper信用等级数据 p1 <- ggplot(aes(x=CreditGrade),data=subset(prosper_set,!is.na(CreditGrade)))+ geom_histogram(stat="count",fill="Orange") p2 <- ggplot(aes(x=ProsperRating..Alpha.), data=subset(prosper_set,!is.na(ProsperRating..Alpha.)))+ geom_histogram(stat="count",fill="pink") grid.arrange(p1,p2,ncol=2)

评级较低为HR的借款人数占比明显减小，评级较高的B与A的借款人数占比明显增大，说明prosper出于风险控制，更愿意把钱借给评级高的人。但最高等级AA的占比减少，这可能是由于prosper更改评级标准后，更少的人能评为AA级。

10. 借款利率与就业时长

ggplot(aes(x=ceiling(EmploymentStatusDuration/12),y=BorrowerRate),data=prosper_set)+ geom_line(aes(color=ProsperRating..Alpha.),stat="summary",fun.y=mean)

工作年限在35年以内的，借款利率的均值趋于平稳，即借款利率与就业时长关系不大；工作年限在35-60年内，借款利率的均值跳动很大。这可能是由于工作年限在35-60年的人借款需求较小，人数较少。且由于此数据中99%的借款人工作年限在35年以内，致使数据点少，平均后的波动大。图中同一prosper评级下的利率低点，可能是由于借款人使用了优惠券。

11. 借款利率与Prosper评级

#对比2009年7月前后借款利率与信用评级间的关系 p1 <- ggplot(aes(x=CreditGrade,y=BorrowerRate),data=prosper_set)+ geom_boxplot()+ scale_y_continuous(breaks=seq(0,0.5,0.05)) p2 <- ggplot(aes(x=ProsperRating..Alpha.,y=BorrowerRate),data=prosper_set)+ geom_boxplot()+ scale_y_continuous(breaks=seq(0,0.5,0.05)) grid.arrange(p1,p2,ncol=2)

虽然两者皆为信用等级越高，借款利率越低，但2009年7月以后，各等级间的利率间隔更大，说明更改评级标准后，prosper信用等级越好，借款越优惠。

12. 借款利率与ProsperScore

ggplot(aes(x=ProsperScore,y=BorrowerRate),data=prosper_set)+ geom_boxplot()

基本上可看出，ProsperScore得分越高，表示风险越低，利率越低。

13. 借款利率与CreditScore

ggplot(aes(x=factor(CreditScore),y=BorrowerRate), data=subset(prosper_dataset,CreditScore>600))+ geom_boxplot()

CreditScore得分越高，利率越低。

计算相关系数

cor.test(prosper_set$ProsperRating..numeric.,prosper_set$BorrowerRate) cor.test(as.numeric(as.character(prosper_set$ProsperScore)),prosper_set$BorrowerRate) cor.test(prosper_dataset$CreditScore,prosper_dataset$BorrowerRate)

计算借款利率与这三类信用分的关系系数，也可看出，借款利率与prosper评级最相关，其次是风险评分ProsperScore，再次是消费信用分CreditScore。

14. 违约率与借款期限

p1<-ggplot(aes(x=Term,fill=LoanStatus), data=subset(prosper_set,LoanStatus=="Completed" | LoanStatus=="Defaulted"))+ geom_bar()+ scale_x_continuous(breaks=c(12,36,60)) p2<-ggplot(aes(x=Term,fill=LoanStatus), data=subset(prosper_set,LoanStatus=="Completed" | LoanStatus=="Defaulted"))+ geom_bar(position = fill)+ scale_x_continuous(breaks=c(12,36,60)) grid.arrange(p1,p2,ncol=1)

绝大多数借款人的借款期限为3年，这与2007年7月以前借款期限只能选择36个月相符合。其中，借款期限为1年的违约率较低，3年或5年较高，二者违约率相近。这可能是由于借款时间长，容易发生突发变故而导致无法按时还款。

15. 违约率与就业时长

p1<-ggplot(aes(x=EmploymentStatusDuration), data=subset(prosper_set,!is.na(LoanStatus.numeric)))+ geom_histogram(aes(fill=factor(LoanStatus.numeric)),binwidth_=30) p2<-ggplot(aes(x=EmploymentStatusDuration), data=subset(prosper_set,!is.na(LoanStatus.numeric)))+ geom_histogram(aes(fill=factor(LoanStatus.numeric)),binwidth_=30,position="fill") grid.arrange(p1,p2)

一般来说，工作年限越长，借款人生活越稳定，违约概率越小。但上图并不能明显得出此结论。

16. 违约率与Prosper评级

p1<-ggplot(aes(x=CreditGrade,fill=LoanStatus),data=subset(prosper_set,!is.na(CreditGrade)&(LoanStatus=="Completed" | LoanStatus=="Defaulted")))+ geom_bar(position = fill) p2<-ggplot(aes(x=ProsperRating..Alpha.,fill=LoanStatus), data=subset(prosper_set,!is.na(ProsperRating..Alpha.)&(LoanStatus=="Completed" | LoanStatus=="Defaulted")))+ geom_bar(position = fill) grid.arrange(p1,p2,ncol=2)

2009年7月后Prosper各评级的违约率明显比2009年7月前的要低。总体上均可看出，Prosper评级越高，违约率越低。

17. 违约率与ProsperScore

ProsperScore高的借款人违约率低。

18. 违约率与CreditScore

消费信用分CreditScore越高，违约率越低。

19. 违约率与IsBorrowerHomeowner

ggplot(aes(x=IsBorrowerHomeowner),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),stat="count",position = "fill")

是房主和不是房主的借款人人数相当，违约率相差不大。计算IV值：

WOETable(X=prosper_dataset$IsBorrowerHomeowner,Y=prosper_dataset$LoanStatus.numeric) IV(X=prosper_dataset$IsBorrowerHomeowner,Y=prosper_dataset$LoanStatus.numeric)

IsBorrowerHomeowner对于违约率并没有预测性。

20. 违约率与CurrentlyInGroup

ggplot(aes(x=CurrentlyInGroup),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),stat="count",position = "fill")

计算IV值：

在某组中的违约率明显低于不在某组中的，可能此组算上某种意义上的黑名单，同时，IV值显示具有一定的预测性。

21. 违约率与借款利率

ggplot(aes(x=ListingCreationDate,y=BorrowerRate), data=subset(prosper_set,LoanStatus=="Completed" | LoanStatus=="Defaulted"))+ geom_line(aes(color=LoanStatus),stat="summary",fun.y=mean)

违约的借款利率均值普遍高于未违约的借款利率均值，即借款利率高的借款人违约风险大。

22. 违约率与InquiriesLast6Months

ggplot(aes(x=InquiriesLast6Months),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),stat="count",position="fill")+ scale_x_continuous(limits = c(0,25))

基本上，6个月内信用状况查询次数越多，违约率越高。这可能是由于查询次数越多，借款需求越大，一定程度上反应了财务状况越糟，进而违约的可能性越大。

23. 违约率与DelinquenciesLast7Years

ggplot(aes(x=DelinquenciesLast7Years),data=prosper_dataset)+ geom_freqpoly(aes(color=LoanStatus),stat="count")+ coord_cartesian(xlim=c(0,25))

绝大多数借款人过去七年的拖欠次数在1次以内。且在一定范围内，拖欠次数越多，违约概率越大。

24. 违约率与BankcardUtilization

p1<-ggplot(aes(x=BankcardUtilization),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus))+ scale_x_continuous(limits=c(-0.1,1)) p2<-ggplot(aes(x=BankcardUtilization),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),position = "fill")+ scale_x_continuous(limits=c(-0.01,1)) grid.arrange(p1,p2)

除了未使用信用卡的借款人最多外，借款人使用信用卡的程度与人数成正比，应证了美国人的消费观。而违约率也随著信用卡的使用率加大而增大。

25. 违约率与TradesNeverDelinquent (percentage)

p1<-ggplot(aes(x=TradesNeverDelinquent..percentage.),data=prosper_dataset)+ geom_freqpoly(aes(color=LoanStatus),binwidth_=0.01)+ scale_x_continuous(limits=c(0,1)) p2<-ggplot(aes(x=TradesNeverDelinquent..percentage.), data=subset(prosper_dataset,DelinquenciesLast7Years==0))+ geom_freqpoly(aes(color=LoanStatus),binwidth_=0.01)+ scale_x_continuous(limits=c(0,1))+ ggtitle("DelinquenciesLast7Years==0") p3<-ggplot(aes(x=TradesNeverDelinquent..percentage.), data=subset(prosper_dataset,DelinquenciesLast7Years>0))+ geom_freqpoly(aes(color=LoanStatus),binwidth_=0.01)+ scale_x_continuous(limits=c(0,1))+ ggtitle("DelinquenciesLast7Years>0") grid.arrange(p1,p2,p3)

拖欠百分比在1附近有零点，而百分之百拖欠的人数最多,其实这是从未借款的人数量巨大，未借款而未拖欠，但其拖欠率却为1，容易产生误解。拖欠百分比在0.5以内的借款人最少，此时违约率最小。随著拖欠百分比的加大，未违约次数与违约次数间的差距拉大，即违约率增大。

计算相关系数：

相比拖欠次数，交易拖欠的百分比更能说明借款人的还款能力与还款意愿。

26. 违约率与TradesOpenedLast6Months

p1<-ggplot(aes(x=TradesOpenedLast6Months),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),binwidth_=0.5)+ scale_x_continuous(limits=c(0.1,10)) p2<-ggplot(aes(x=TradesOpenedLast6Months),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),binwidth_=0.5,position="fill")+ scale_x_continuous(limits=c(0.1,10)) grid.arrange(p1,p2)

绝大部分借款人在过去6个月内使用信用卡交易的次数在5次以内,其中0次最多，远远多于其它使用次数的人数，且人数随信用卡使用次数呈指数递减；6个月内使用信用卡交易的次数越多，违约率越高。

27. 违约率与DebtToIncomeRatio

p1<-ggplot(aes(x=DebtToIncomeRatio),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),binwidth_=0.01)+ xlim(0,1) p2<-ggplot(aes(x=DebtToIncomeRatio),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),binwidth_=0.01,position="fill")+ xlim(0,1) grid.arrange(p1,p2)

绝大多数借款人的债务与收入之比在0.75以内，其中比例0.2附近达到最多人数。债务与收入之比越高，违约率越大。这是由于债务与收入之比越高，说明借款人的经济状况越差，还款能力越低，进而违约率更高。

28. 违约率与IncomeRange

p1<-ggplot(aes(x=IncomeRange),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),stat="count") p2<-ggplot(aes(x=IncomeRange),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),stat="count",position="fill") grid.arrange(p1,p2)

借款人年收入集中在2.5-10万美元，也有一大群人处于隐私考虑没有给出年收入。一般来说，年收入越高，经济状况会越好，还款能力越强，违约率越低。

建模分析

由于本数据集的某些特征间具有强相关性，如借款利率与prosper评级之间具有强相关性，且特征较多，本文采用随机森林演算法建立模型，它既能够处理高维度数据，并且不用做特征选择；同时，在训练完模型后，还能够给出哪些特征比较重要。

1. 建模

# 仅对2009年7月以后的数据进行预测，由于数据量足够大，对缺失项做删除处理 prosper_modelset_RF <- subset(prosper_dataset,ListingCreationDate>as.Date("2009-07-01"),select=c("Term","ProsperRating..numeric.","BorrowerRate","CurrentlyInGroup","ProsperScore","EmploymentStatusDuration","DelinquenciesLast7Years","TradesNeverDelinquent..percentage.","InquiriesLast6Months","BankcardUtilization","TradesOpenedLast6Months","DebtToIncomeRatio","StatedMonthlyIncome","LoanStatus.numeric","CreditScore")) sapply(prosper_modelset_RF,function(x) sum(is.na(x))) prosper_modelset_RF <- subset(prosper_modelset_RF, !is.na(DebtToIncomeRatio)&!is.na(EmploymentStatusDuration)) # 数据集分为训练集与测试集 set.seed(1218) train.index<-sample(nrow(prosper_modelset_RF),0.7*nrow(prosper_modelset_RF)) train_rf<-prosper_modelset_RF[train.index,] test_rf<-prosper_modelset_RF[-train.index,] table(train_rf$LoanStatus.numeric) table(test_rf$LoanStatus.numeric) #建模 model_rf<-randomForest(as.factor(train_rf$LoanStatus.numeric)~.,data=train_rf,mtry=2,ntree=500,importance=TRUE)

2. 预测

pred <- predict(model_rf,newdata=test_rf) table <- table(pred,test_rf$LoanStatus.numeric,dnn=c("Predicted","Actual")) table sum(diag(table))/sum(table)

此模型预测结果的准确率(accuracy)为78.1%

3. 各个特征的重要性

此模型各个特征的基尼不纯度减少量排序为：

故对此模型正确预测违约率最大的前三个变数为BorrowerRate，StatedMonthlyIncome，EmploymentStatusDuration

结论

Prosper借款人的主要特征为：

绝大部分借款人为在职人士，工作年限在35以内，年轻人居多，且借款人数与工作年限呈指数递减。借款大多用于债务合并，且来自CA等经济发达的城市。

2. 借款利率主要根据借款人的Prosper评级和ProsperScore来确定。

3. Prosper借款条件在2009年7月前后的主要变化为：

①2009年7月前，对借款人的CreditScore分数没有特殊要求，而2009年7月后，借款人的CreditScore分数需在600分以上。

②2009年7月前，借款人在6个月内的信用状况查询次数InquiriesLast6Months基本上在25此以内，而2009年7月后，InquiriesLast6Months几乎全部低于7次左右；

③借款利率在2009年7月前后与Prosper评级相关系数更大，两个不同评级间的借款利率差更大。即更改评级标准后，prosper信用等级越好，借款越优惠。

4. 借款人的特征中，对于预测是否违约影响最大的三个特征是：BorrowerRate，StatedMonthlyIncome，EmploymentStatusDuration。

PS:

贷款申请的合格标准为：1）在过去6个月内，少于7个信用局查询了申请人的信用信息；2）申请人自己声明有正的收入；3）债务收入比低于50%；4）在信用局报告上至少有3笔公开交易；5）在过去12个月内无申请破产。此外，第一次在平台出借的申请人需要有不低于640分的信用分数。

参考文献：

美国P2P平台Prosper详解-刘思平

长空飞鹰：网贷平台Prosper2005~2014数据预测分析

prosper贷款数据EDA分析

基于R语言的Prosper贷款数据分析

数据采集

数据清洗

数据探索

1. 借款用途ListingCategory

2. 居住地址BorrowerState

3. 职业Occupation

4. 就业状况EmploymentStatus

5. 就业时长EmploymentStatusDuration

6. 过去6个月内查询次数InquiriesLast6Months

7. 借款期限Term

8. 消费信用分CreditScore

9. Prosper评级

10. 借款利率与就业时长

11. 借款利率与Prosper评级

12. 借款利率与ProsperScore

13. 借款利率与CreditScore

14. 违约率与借款期限

15. 违约率与就业时长

16. 违约率与Prosper评级

17. 违约率与ProsperScore

18. 违约率与CreditScore

19. 违约率与IsBorrowerHomeowner

20. 违约率与CurrentlyInGroup

21. 违约率与借款利率

22. 违约率与InquiriesLast6Months

23. 违约率与DelinquenciesLast7Years

24. 违约率与BankcardUtilization

25. 违约率与TradesNeverDelinquent (percentage)

26. 违约率与TradesOpenedLast6Months

27. 违约率与DebtToIncomeRatio

28. 违约率与IncomeRange

建模分析

1. 建模

2. 预测

3. 各个特征的重要性

结论

热门新闻

周热门

基于R语言的Prosper贷款数据分析

数据采集

数据清洗

数据探索

1. 借款用途ListingCategory

2. 居住地址BorrowerState

3. 职业Occupation

4. 就业状况EmploymentStatus

5. 就业时长EmploymentStatusDuration

6. 过去6个月内查询次数InquiriesLast6Months

7. 借款期限Term

8. 消费信用分CreditScore

9. Prosper评级

10. 借款利率与就业时长

11. 借款利率与Prosper评级

12. 借款利率与ProsperScore

13. 借款利率与CreditScore

14. 违约率与借款期限

15. 违约率与就业时长

16. 违约率与Prosper评级

17. 违约率与ProsperScore

18. 违约率与CreditScore

19. 违约率与IsBorrowerHomeowner

20. 违约率与CurrentlyInGroup

21. 违约率与借款利率

22. 违约率与InquiriesLast6Months

23. 违约率与DelinquenciesLast7Years

24. 违约率与BankcardUtilization

25. 违约率与TradesNeverDelinquent (percentage)

26. 违约率与TradesOpenedLast6Months

27. 违约率与DebtToIncomeRatio

28. 违约率与IncomeRange

建模分析

1. 建模

2. 预测

3. 各个特征的重要性

结论

数据可视化究竟是什么意思？

如何收集疫情防控信息数据？

大数据怎么就突然火了起来？

一个好的互联网产品是不是在群里发布就会有很多人下载？

如何用python对一个大的txt文件进行逐行查重，并将查重过的数据存到一个新的txt文件中？

数据能证明一切吗？

数据太大十几万用什么工具好？

八斗学院的大数据到底怎么样，靠谱吗？

有运营和数据大神吗？ 求戳进

什么是大数据？大数据能干什么？

手机上如何设置禁止网贷？

人人贷7折下车，还能继续要回剩下的30%吗？

申请网贷，因卡号输入错误导致资金被冻结，这种情况需要缴纳解冻金吗？为什么？

2020p2p爆雷涉及多少出借人？

P2P 在国内也发展六七年了，为何跑路事件还是层出不穷？

热门新闻

周热门

有运营和数据大神吗？求戳进