基於R語言的Prosper貸款數據分析

Prosper，於2006年2月5日上線，是美國第一家P2P借貸平臺。借款人通過Prosper尋求個人貸款，貸款額度為2000-35000美元，期限為3年或5年，貸款利率根據借款人的Prosper評級等確定。本文擬通過對2006-2014年11w貸款數據進行分析和建模，來探索Prosper貸款客戶特徵和預測違約。

提出以下問題：

Prosper借款客戶有何特徵？
借款利率主要根據借款人的哪些特徵確定？
Prosper借款條件在2009年7月前後有哪些變化？
借款人的哪些特徵能有效用於預測是否違約？

數據採集

此數據是由Joshua Schnessl從Udacity Data Analyst Nanodegree上獲取並把數據放到kaggle的上供感興趣的人分析的一個實例項目。

數據清洗

#導入數據 prosper <- read.csv("prosperLoanData.csv") #數據預覽 str(prosper)

可知，有11w條記錄，81個變數，可選擇感興趣的子集來進行探索。

# 選擇感興趣的子集 prosper_set <- prosper[c("ListingCreationDate","CreditGrade","Term","LoanStatus","BorrowerRate","ProsperRating..numeric.","ProsperRating..Alpha.","ProsperScore","ListingCategory..numeric.","BorrowerState","Occupation","EmploymentStatus","EmploymentStatusDuration","IsBorrowerHomeowner","CurrentlyInGroup","CreditScoreRangeLower","CreditScoreRangeUpper","InquiriesLast6Months","DelinquenciesLast7Years","BankcardUtilization","TradesNeverDelinquent..percentage.","TradesOpenedLast6Months","DebtToIncomeRatio","IncomeRange","StatedMonthlyIncome")]

特徵描述：
ListingCreationDate：創建列表信息的日期。（用於定位2009年前後的借貸）。CreditGrade：上市開始時分配的信用評級。適用於2009年之前的列表，僅適用於這些列表。Term：貸款期限，以月為單位表示。LoanStatus：貸款的當前狀態：已取消，已罰款，已完成，當前，違約，正在進行的最終付款，逾期。逾期狀態將伴隨著拖欠金額。BorrowerRate：借款人對此貸款的利率。ProsperRating (Alpha)：在AA-HR之間創建列表時分配的Prosper評級,適用於2009年7月以後發放的貸款。ProsperScore：使用歷史Prosper數據構建的自定義風險評分。得分範圍從1-11，其中11是最佳或最低風險得分。適用於2009年7月以後發放的貸款。ListingCategory (numeric)：0 - 不可用，1 - 債務合併，2 - 家居裝修，3 - 商業，4 - 個人貸款，5 - 學生使用，6 - 自動，7-其他，8 - 嬰兒和領養，9 - 船，10 - 化妝品程序，11 - 訂婚戒指，12 - 綠色貸款，13 - 家庭費用，14 - 大額購買，15 - 醫療/牙科，16 - 摩托車，17 - 房車，18 - 稅收，19 - 度假，20 - 婚禮貸款。BorrowerState：創建清單時借款人地址的兩個字母縮寫。

Occupation：借款人在創建借款清單時選擇的職業。
EmploymentStatus：借款人在借款清單時的就業狀況。EmploymentStatusDuration: 借款人在借款清單時的就業時長。IsBorrowerHomeowner：如果借款人對其信用狀況有抵押或提供確認他們是房主的文件，則該借款人將被歸類為房主。CurrentlyInGroup：指定借款人在創建借款信息時是否在某個組中。CreditScoreRangeLower：較低的值表示由消費者信用評級機構提供的借款人信用評分的範圍的下限。CreditScoreRangeUpper：較高的值表示由消費者信用評級機構提供的借款人信用評分的範圍的上限。InquiriesLast6Months：在提取信用狀況時過去六個月的信用查詢數量。DelinquenciesLast7Years：提取信用檔案時過去7年的拖欠次數。BankcardUtilization：提取信用檔案時使用的可用周轉信用百分比。

TradesNeverDelinquent (percentage)：提取信用狀檔案從未拖欠的交易數量。
TradesOpenedLast6Months：提取信用檔案時過去6個月內開立的交易數量。DebtToIncomeRatio：提取信用檔案時借款人的債務與收入比率。如果債務與收入比率不可用，則此值為空。該值的上限為10.01（任何大於1000％的債務與收入比率將返回為1001％）。IncomeRange：創建借款清單時借款人的收入範圍。StatedMonthlyIncome：借款人在創建借款清單時所說的月收入。

數據類型轉換：將ListingCreationDate轉換為日期型；ProsperScore為數值型，將其轉化為因子類型

prosper_set$ListingCreationDate <- as.Date(prosper_set$ListingCreationDate) prosper_set$ProsperScore<-factor(prosper_set$ProsperScore, levels=c("1","2","3","4","5","6","7","8","9","10","11"))

數據排序：CreditGrade(2009年7月前的prosper信用評級)與ProsperRating..Alpha.(2009年7月後的prosper信用評級)，對其從劣到優進行排序

prosper_set$CreditGrade <- ordered(prosper_set$CreditGrade, levels=c("NC","HR","E","D","C","B","A","AA")) prosper_set$ProsperRating..Alpha. <- ordered(prosper_set$ProsperRating..Alpha., levels=c("HR","E","D","C","B","A","AA")) prosper_set$IncomeRange <- ordered(prosper_set$IncomeRange, levels=c("Not employed","$0","$1-24,999","$25,000-49,999","$50,000-74,999","$75,000-99,999","$100,000+","Not displayed"))

數據一致性處理：LoanStatus，將逾期具體天數均歸類為逾期Past Due，chargedoff與Defaulted歸類為違約Defaulted，便於數據探索

levels(prosper_set$LoanStatus)[7:12] <- c("Past Due") levels(prosper_set$LoanStatus)[2] <- c("Defaulted")

使用消費信用分範圍的均值表示消費信用分

prosper_set$CreditScore <- with(prosper_set, (CreditScoreRangeLower+CreditScoreRangeUpper)/2)

將違約狀態LoanStatus標記為違約與未違約，二分類處理，便於建模分析

prosper_set$LoanStatus.numeric <- NA prosper_set[prosper_set$LoanStatus=="Defaulted",]$LoanStatus.numeric <- 0 prosper_set[prosper_set$LoanStatus=="Completed",]$LoanStatus.numeric <- 1 prosper_dataset <- subset(prosper_set,!is.na(LoanStatus.numeric))

載入所需調用的包

library(ggplot2) library(gridExtra) library(InformationValue) library(dplyr) library(randomForest)

數據探索

1. 借款用途ListingCategory

ggplot(aes(x=ListingCategory..numeric.),data=prosper_set)+ geom_histogram(stat="count")+ scale_x_continuous(breaks = seq(0,20,1))

可看出一半以上的用戶的借款原因為債務合併，其次人數較多的是為保護隱私而選擇的不可用或其它。這與美國人的消費習慣相吻合。

2. 居住地址BorrowerState

ggplot(aes(x=BorrowerState),data=prosper_set)+ geom_histogram(stat="count")

在prosper上的借款人來自CA的最多，這應該是由於prosper的總部設立在舊金山。其次是FL/(Florida)、IL/(Illinois)、NY/(NewYork)、TX/(Texas)，均是經濟發展較發達的城市。

3. 職業Occupation

ggplot(aes(x=Occupation),data=prosper_set)+ geom_histogram(stat="count",color=black,fill=#999DDD)+ theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))

在職業選項上,很多借款人似乎不太願意透露自己的信息,都選擇填了other這個選項.因此這項數據的參考意義並不大。

4. 就業狀況EmploymentStatus

ggplot(aes(x=EmploymentStatus),data=prosper_dataset)+ geom_histogram(stat="count")

絕大部分借款人為在職人士。

5. 就業時長EmploymentStatusDuration

ggplot(aes(x=ceiling(EmploymentStatusDuration/12)),data=prosper_set)+ geom_histogram(stat="count",binwidth_=1,color=black,fill=#999DDD)+ scale_x_continuous(limit=c(0,35),breaks=c(0,35,1))

99%的借款人的工作年限在35年以內，其中工作年限少於1年的人數最多，人數隨工作年限的增加呈指數減少。

6. 過去6個月內查詢次數InquiriesLast6Months

ggplot(aes(x=ListingCreationDate,y=InquiriesLast6Months),data=prosper_set)+ geom_point(aes(color=LoanStatus),alpha=1/20)

2009年7月後，借款人在6個月內的信用狀況查詢次數幾乎全部低於7次左右，應該是prosper對此項作了限制。

7. 借款期限Term

ggplot(aes(x=Term,y=ListingCreationDate),data=prosper_set)+ geom_point()+ scale_x_continuous(breaks=c(12,36,60))+ geom_hline(aes(yintercept=as.Date(c("2008-11-24"))),color=purple,linetype=2)+ geom_hline(aes(yintercept=as.Date(c("2009-07-01"))),color=orange,linetype=2)+ geom_hline(aes(yintercept=as.Date(c("2010-07-01"))),color=blue,linetype=2)

借款期限Term在2008年11月末至2009年7月初左右有一段空白，無相應數據。這是由於此期間，2008年11月24日，SEC判定Prosper違反了《1933年證券法》，要求Prosper暫定運營。隨後，2009年7月，Prosper的貸款在獲得SEC的註冊後，重新開發了網站。

圖中可看出：2010年7月前，借款期限只有3年即36個月，這一個選項,圖中12月份那個數據點應該是異常值。在2010年7月以後，借款期限有3種選擇，1年、3年、5年。

8. 消費信用分CreditScore

ggplot(aes(x=ListingCreationDate,y=CreditScore),data=prosper_set)+ geom_point(aes(color=LoanStatus))+ geom_hline(aes(yintercept=600),color=blue,linetype=2)

可看出，2009年7月以前，prosper對借款人的消費信用評分無要求，但數據統計，低於600分以下的借款人的違約率較高，故2009年7月後，prosper似乎不再貸款給消費信用評分低於600分的用戶。

9. Prosper評級

#信用等級CreditGrade（2009年7月以前） ggplot(aes(x=CreditGrade,y=ListingCreationDate),data=prosper_set)+ geom_point(alpha=1/50)+ geom_hline(aes(yintercept=as.Date(c("2009-07-01"))),color=blue,linetype=2)

結合圖表可知：CreditGrade中有84984項為空，這部分數據基本上全部屬於2009年7月份以後建立的借款數據，即CreditGrade只用於2009年7月份以前的prosper信用評級。

#對比2009年7月前後的prosper信用等級數據 p1 <- ggplot(aes(x=CreditGrade),data=subset(prosper_set,!is.na(CreditGrade)))+ geom_histogram(stat="count",fill="Orange") p2 <- ggplot(aes(x=ProsperRating..Alpha.), data=subset(prosper_set,!is.na(ProsperRating..Alpha.)))+ geom_histogram(stat="count",fill="pink") grid.arrange(p1,p2,ncol=2)

評級較低為HR的借款人數佔比明顯減小，評級較高的B與A的借款人數佔比明顯增大，說明prosper出於風險控制，更願意把錢借給評級高的人。但最高等級AA的佔比減少，這可能是由於prosper更改評級標準後，更少的人能評為AA級。

10. 借款利率與就業時長

ggplot(aes(x=ceiling(EmploymentStatusDuration/12),y=BorrowerRate),data=prosper_set)+ geom_line(aes(color=ProsperRating..Alpha.),stat="summary",fun.y=mean)

工作年限在35年以內的，借款利率的均值趨於平穩，即借款利率與就業時長關係不大；工作年限在35-60年內，借款利率的均值跳動很大。這可能是由於工作年限在35-60年的人借款需求較小，人數較少。且由於此數據中99%的借款人工作年限在35年以內，致使數據點少，平均後的波動大。圖中同一prosper評級下的利率低點，可能是由於借款人使用了優惠券。

11. 借款利率與Prosper評級

#對比2009年7月前後借款利率與信用評級間的關係 p1 <- ggplot(aes(x=CreditGrade,y=BorrowerRate),data=prosper_set)+ geom_boxplot()+ scale_y_continuous(breaks=seq(0,0.5,0.05)) p2 <- ggplot(aes(x=ProsperRating..Alpha.,y=BorrowerRate),data=prosper_set)+ geom_boxplot()+ scale_y_continuous(breaks=seq(0,0.5,0.05)) grid.arrange(p1,p2,ncol=2)

雖然兩者皆為信用等級越高，借款利率越低，但2009年7月以後，各等級間的利率間隔更大，說明更改評級標準後，prosper信用等級越好，借款越優惠。

12. 借款利率與ProsperScore

ggplot(aes(x=ProsperScore,y=BorrowerRate),data=prosper_set)+ geom_boxplot()

基本上可看出，ProsperScore得分越高，表示風險越低，利率越低。

13. 借款利率與CreditScore

ggplot(aes(x=factor(CreditScore),y=BorrowerRate), data=subset(prosper_dataset,CreditScore>600))+ geom_boxplot()

CreditScore得分越高，利率越低。

計算相關係數

cor.test(prosper_set$ProsperRating..numeric.,prosper_set$BorrowerRate) cor.test(as.numeric(as.character(prosper_set$ProsperScore)),prosper_set$BorrowerRate) cor.test(prosper_dataset$CreditScore,prosper_dataset$BorrowerRate)

計算借款利率與這三類信用分的關係係數，也可看出，借款利率與prosper評級最相關，其次是風險評分ProsperScore，再次是消費信用分CreditScore。

14. 違約率與借款期限

p1<-ggplot(aes(x=Term,fill=LoanStatus), data=subset(prosper_set,LoanStatus=="Completed" | LoanStatus=="Defaulted"))+ geom_bar()+ scale_x_continuous(breaks=c(12,36,60)) p2<-ggplot(aes(x=Term,fill=LoanStatus), data=subset(prosper_set,LoanStatus=="Completed" | LoanStatus=="Defaulted"))+ geom_bar(position = fill)+ scale_x_continuous(breaks=c(12,36,60)) grid.arrange(p1,p2,ncol=1)

絕大多數借款人的借款期限為3年，這與2007年7月以前借款期限只能選擇36個月相符合。其中，借款期限為1年的違約率較低，3年或5年較高，二者違約率相近。這可能是由於借款時間長，容易發生突發變故而導致無法按時還款。

15. 違約率與就業時長

p1<-ggplot(aes(x=EmploymentStatusDuration), data=subset(prosper_set,!is.na(LoanStatus.numeric)))+ geom_histogram(aes(fill=factor(LoanStatus.numeric)),binwidth_=30) p2<-ggplot(aes(x=EmploymentStatusDuration), data=subset(prosper_set,!is.na(LoanStatus.numeric)))+ geom_histogram(aes(fill=factor(LoanStatus.numeric)),binwidth_=30,position="fill") grid.arrange(p1,p2)

一般來說，工作年限越長，借款人生活越穩定，違約概率越小。但上圖並不能明顯得出此結論。

16. 違約率與Prosper評級

p1<-ggplot(aes(x=CreditGrade,fill=LoanStatus),data=subset(prosper_set,!is.na(CreditGrade)&(LoanStatus=="Completed" | LoanStatus=="Defaulted")))+ geom_bar(position = fill) p2<-ggplot(aes(x=ProsperRating..Alpha.,fill=LoanStatus), data=subset(prosper_set,!is.na(ProsperRating..Alpha.)&(LoanStatus=="Completed" | LoanStatus=="Defaulted")))+ geom_bar(position = fill) grid.arrange(p1,p2,ncol=2)

2009年7月後Prosper各評級的違約率明顯比2009年7月前的要低。總體上均可看出，Prosper評級越高，違約率越低。

17. 違約率與ProsperScore

ProsperScore高的借款人違約率低。

18. 違約率與CreditScore

消費信用分CreditScore越高，違約率越低。

19. 違約率與IsBorrowerHomeowner

ggplot(aes(x=IsBorrowerHomeowner),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),stat="count",position = "fill")

是房主和不是房主的借款人人數相當，違約率相差不大。計算IV值：

WOETable(X=prosper_dataset$IsBorrowerHomeowner,Y=prosper_dataset$LoanStatus.numeric) IV(X=prosper_dataset$IsBorrowerHomeowner,Y=prosper_dataset$LoanStatus.numeric)

IsBorrowerHomeowner對於違約率並沒有預測性。

20. 違約率與CurrentlyInGroup

ggplot(aes(x=CurrentlyInGroup),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),stat="count",position = "fill")

計算IV值：

在某組中的違約率明顯低於不在某組中的，可能此組算上某種意義上的黑名單，同時，IV值顯示具有一定的預測性。

21. 違約率與借款利率

ggplot(aes(x=ListingCreationDate,y=BorrowerRate), data=subset(prosper_set,LoanStatus=="Completed" | LoanStatus=="Defaulted"))+ geom_line(aes(color=LoanStatus),stat="summary",fun.y=mean)

違約的借款利率均值普遍高於未違約的借款利率均值，即借款利率高的借款人違約風險大。

22. 違約率與InquiriesLast6Months

ggplot(aes(x=InquiriesLast6Months),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),stat="count",position="fill")+ scale_x_continuous(limits = c(0,25))

基本上，6個月內信用狀況查詢次數越多，違約率越高。這可能是由於查詢次數越多，借款需求越大，一定程度上反應了財務狀況越糟，進而違約的可能性越大。

23. 違約率與DelinquenciesLast7Years

ggplot(aes(x=DelinquenciesLast7Years),data=prosper_dataset)+ geom_freqpoly(aes(color=LoanStatus),stat="count")+ coord_cartesian(xlim=c(0,25))

絕大多數借款人過去七年的拖欠次數在1次以內。且在一定範圍內，拖欠次數越多，違約概率越大。

24. 違約率與BankcardUtilization

p1<-ggplot(aes(x=BankcardUtilization),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus))+ scale_x_continuous(limits=c(-0.1,1)) p2<-ggplot(aes(x=BankcardUtilization),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),position = "fill")+ scale_x_continuous(limits=c(-0.01,1)) grid.arrange(p1,p2)

除了未使用信用卡的借款人最多外，借款人使用信用卡的程度與人數成正比，應證了美國人的消費觀。而違約率也隨著信用卡的使用率加大而增大。

25. 違約率與TradesNeverDelinquent (percentage)

p1<-ggplot(aes(x=TradesNeverDelinquent..percentage.),data=prosper_dataset)+ geom_freqpoly(aes(color=LoanStatus),binwidth_=0.01)+ scale_x_continuous(limits=c(0,1)) p2<-ggplot(aes(x=TradesNeverDelinquent..percentage.), data=subset(prosper_dataset,DelinquenciesLast7Years==0))+ geom_freqpoly(aes(color=LoanStatus),binwidth_=0.01)+ scale_x_continuous(limits=c(0,1))+ ggtitle("DelinquenciesLast7Years==0") p3<-ggplot(aes(x=TradesNeverDelinquent..percentage.), data=subset(prosper_dataset,DelinquenciesLast7Years>0))+ geom_freqpoly(aes(color=LoanStatus),binwidth_=0.01)+ scale_x_continuous(limits=c(0,1))+ ggtitle("DelinquenciesLast7Years>0") grid.arrange(p1,p2,p3)

拖欠百分比在1附近有零點，而百分之百拖欠的人數最多,其實這是從未借款的人數量巨大，未借款而未拖欠，但其拖欠率卻為1，容易產生誤解。拖欠百分比在0.5以內的借款人最少，此時違約率最小。隨著拖欠百分比的加大，未違約次數與違約次數間的差距拉大，即違約率增大。

計算相關係數：

相比拖欠次數，交易拖欠的百分比更能說明借款人的還款能力與還款意願。

26. 違約率與TradesOpenedLast6Months

p1<-ggplot(aes(x=TradesOpenedLast6Months),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),binwidth_=0.5)+ scale_x_continuous(limits=c(0.1,10)) p2<-ggplot(aes(x=TradesOpenedLast6Months),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),binwidth_=0.5,position="fill")+ scale_x_continuous(limits=c(0.1,10)) grid.arrange(p1,p2)

絕大部分借款人在過去6個月內使用信用卡交易的次數在5次以內,其中0次最多，遠遠多於其它使用次數的人數，且人數隨信用卡使用次數呈指數遞減；6個月內使用信用卡交易的次數越多，違約率越高。

27. 違約率與DebtToIncomeRatio

p1<-ggplot(aes(x=DebtToIncomeRatio),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),binwidth_=0.01)+ xlim(0,1) p2<-ggplot(aes(x=DebtToIncomeRatio),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),binwidth_=0.01,position="fill")+ xlim(0,1) grid.arrange(p1,p2)

絕大多數借款人的債務與收入之比在0.75以內，其中比例0.2附近達到最多人數。債務與收入之比越高，違約率越大。這是由於債務與收入之比越高，說明借款人的經濟狀況越差，還款能力越低，進而違約率更高。

28. 違約率與IncomeRange

p1<-ggplot(aes(x=IncomeRange),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),stat="count") p2<-ggplot(aes(x=IncomeRange),data=prosper_dataset)+ geom_histogram(aes(fill=LoanStatus),stat="count",position="fill") grid.arrange(p1,p2)

借款人年收入集中在2.5-10萬美元，也有一大羣人處於隱私考慮沒有給出年收入。一般來說，年收入越高，經濟狀況會越好，還款能力越強，違約率越低。

建模分析

由於本數據集的某些特徵間具有強相關性，如借款利率與prosper評級之間具有強相關性，且特徵較多，本文採用隨機森林演算法建立模型，它既能夠處理高維度數據，並且不用做特徵選擇；同時，在訓練完模型後，還能夠給出哪些特徵比較重要。

1. 建模

# 僅對2009年7月以後的數據進行預測，由於數據量足夠大，對缺失項做刪除處理 prosper_modelset_RF <- subset(prosper_dataset,ListingCreationDate>as.Date("2009-07-01"),select=c("Term","ProsperRating..numeric.","BorrowerRate","CurrentlyInGroup","ProsperScore","EmploymentStatusDuration","DelinquenciesLast7Years","TradesNeverDelinquent..percentage.","InquiriesLast6Months","BankcardUtilization","TradesOpenedLast6Months","DebtToIncomeRatio","StatedMonthlyIncome","LoanStatus.numeric","CreditScore")) sapply(prosper_modelset_RF,function(x) sum(is.na(x))) prosper_modelset_RF <- subset(prosper_modelset_RF, !is.na(DebtToIncomeRatio)&!is.na(EmploymentStatusDuration)) # 數據集分為訓練集與測試集 set.seed(1218) train.index<-sample(nrow(prosper_modelset_RF),0.7*nrow(prosper_modelset_RF)) train_rf<-prosper_modelset_RF[train.index,] test_rf<-prosper_modelset_RF[-train.index,] table(train_rf$LoanStatus.numeric) table(test_rf$LoanStatus.numeric) #建模 model_rf<-randomForest(as.factor(train_rf$LoanStatus.numeric)~.,data=train_rf,mtry=2,ntree=500,importance=TRUE)

2. 預測

pred <- predict(model_rf,newdata=test_rf) table <- table(pred,test_rf$LoanStatus.numeric,dnn=c("Predicted","Actual")) table sum(diag(table))/sum(table)

此模型預測結果的準確率(accuracy)為78.1%

3. 各個特徵的重要性

此模型各個特徵的基尼不純度減少量排序為：

故對此模型正確預測違約率最大的前三個變數為BorrowerRate，StatedMonthlyIncome，EmploymentStatusDuration

結論

Prosper借款人的主要特徵為：

絕大部分借款人為在職人士，工作年限在35以內，年輕人居多，且借款人數與工作年限呈指數遞減。借款大多用於債務合併，且來自CA等經濟發達的城市。

2. 借款利率主要根據借款人的Prosper評級和ProsperScore來確定。

3. Prosper借款條件在2009年7月前後的主要變化為：

①2009年7月前，對借款人的CreditScore分數沒有特殊要求，而2009年7月後，借款人的CreditScore分數需在600分以上。

②2009年7月前，借款人在6個月內的信用狀況查詢次數InquiriesLast6Months基本上在25此以內，而2009年7月後，InquiriesLast6Months幾乎全部低於7次左右；

③借款利率在2009年7月前後與Prosper評級相關係數更大，兩個不同評級間的借款利率差更大。即更改評級標準後，prosper信用等級越好，借款越優惠。

4. 借款人的特徵中，對於預測是否違約影響最大的三個特徵是：BorrowerRate，StatedMonthlyIncome，EmploymentStatusDuration。

PS:

貸款申請的合格標準為：1）在過去6個月內，少於7個信用局查詢了申請人的信用信息；2）申請人自己聲明有正的收入；3）債務收入比低於50%；4）在信用局報告上至少有3筆公開交易；5）在過去12個月內無申請破產。此外，第一次在平臺出借的申請人需要有不低於640分的信用分數。

參考文獻：

美國P2P平臺Prosper詳解-劉思平

長空飛鷹：網貸平臺Prosper2005~2014數據預測分析

prosper貸款數據EDA分析

基於R語言的Prosper貸款數據分析

數據採集

數據清洗

數據探索

1. 借款用途ListingCategory

2. 居住地址BorrowerState

3. 職業Occupation

4. 就業狀況EmploymentStatus

5. 就業時長EmploymentStatusDuration

6. 過去6個月內查詢次數InquiriesLast6Months

7. 借款期限Term

8. 消費信用分CreditScore

9. Prosper評級

10. 借款利率與就業時長

11. 借款利率與Prosper評級

12. 借款利率與ProsperScore

13. 借款利率與CreditScore

14. 違約率與借款期限

15. 違約率與就業時長

16. 違約率與Prosper評級

17. 違約率與ProsperScore

18. 違約率與CreditScore

19. 違約率與IsBorrowerHomeowner

20. 違約率與CurrentlyInGroup

21. 違約率與借款利率

22. 違約率與InquiriesLast6Months

23. 違約率與DelinquenciesLast7Years

24. 違約率與BankcardUtilization

25. 違約率與TradesNeverDelinquent (percentage)

26. 違約率與TradesOpenedLast6Months

27. 違約率與DebtToIncomeRatio

28. 違約率與IncomeRange

建模分析

1. 建模

2. 預測

3. 各個特徵的重要性

結論

熱門新聞

週熱門

基於R語言的Prosper貸款數據分析

數據採集

數據清洗

數據探索

1. 借款用途ListingCategory

2. 居住地址BorrowerState

3. 職業Occupation

4. 就業狀況EmploymentStatus

5. 就業時長EmploymentStatusDuration

6. 過去6個月內查詢次數InquiriesLast6Months

7. 借款期限Term

8. 消費信用分CreditScore

9. Prosper評級

10. 借款利率與就業時長

11. 借款利率與Prosper評級

12. 借款利率與ProsperScore

13. 借款利率與CreditScore

14. 違約率與借款期限

15. 違約率與就業時長

16. 違約率與Prosper評級

17. 違約率與ProsperScore

18. 違約率與CreditScore

19. 違約率與IsBorrowerHomeowner

20. 違約率與CurrentlyInGroup

21. 違約率與借款利率

22. 違約率與InquiriesLast6Months

23. 違約率與DelinquenciesLast7Years

24. 違約率與BankcardUtilization

25. 違約率與TradesNeverDelinquent (percentage)

26. 違約率與TradesOpenedLast6Months

27. 違約率與DebtToIncomeRatio

28. 違約率與IncomeRange

建模分析

1. 建模

2. 預測

3. 各個特徵的重要性

結論

數據可視化究竟是什麼意思？

如何收集疫情防控信息數據？

大數據怎麼就突然火了起來？

一個好的互聯網產品是不是在羣裏發布就會有很多人下載？

如何用python對一個大的txt文件進行逐行查重，並將查重過的數據存到一個新的txt文件中？

數據能證明一切嗎？

數據太大十幾萬用什麼工具好？

八斗學院的大數據到底怎麼樣，靠譜嗎？

有運營和數據大神嗎？ 求戳進

什麼是大數據？大數據能幹什麼？

手機上如何設置禁止網貸？

人人貸7折下車，還能繼續要回剩下的30%嗎？

申請網貸，因卡號輸入錯誤導致資金被凍結，這種情況需要繳納解凍金嗎？為什麼？

2020p2p爆雷涉及多少出借人？

P2P 在國內也發展六七年了，為何跑路事件還是層出不窮？

熱門新聞

週熱門

有運營和數據大神嗎？求戳進