1、背景介紹

報告顯示,2018年,P2P網貸行業風險事件頻發,上千家P2P平台「爆雷」,投資人損失慘重。根據對各地公安機關公開信息的不完全統計,2018年出現問題的P2P平台有1282家,主要集中在浙江、上海、廣東、北京等地區,其中浙江涉及問題平台數量最多,達287家,佔總數的22.39%。從平台產生問題的類型看,近50%的問題平台處於失聯狀態,14.51%的問題平台已進入警方調查程序,13.73%的問題平台出現提現困難的情況,另有11.86%的問題平台已暫停運營。

深究P2P倒閉潮的原因,最主要的是流動性風險問題,鑒於網路借貸行業信息不對稱及借款投資人雙方的搜索匹配困難的現狀,本文選取了國內代表性網貸平台——人人貸作為研究對象,希望能夠得出有意義的結果對平台參與者提供一個參考。該平台上記錄了大量的關於借款人標的信息,歷史貸款信息以及身份工作財產等認證信息,可以對平台的借貸效率及貸款風險做出詳細的測度。基於上文提到的這些指標因素,在本文的核心實證部分,本文主要研究了三個方面的內容。按照借貸流程順序可以分為(1)影響借款人借貸成功率的影響因素;(2)影響借款人違約率的影響因素;(3)常規投資者認為針對資質較差的借款者只要要求較高的年利率即可彌補風險。本文以人人貸的實際交易數據為基礎,首先對人人貸用戶交易數據進行了描述性統計。運用K-W檢驗對產生違約和正常貸款進行初步定性比較,然後通過Logistic二元回歸,建立網路借貸模型,研究影響借貸成功率的因素。隨即針對借款成功的用戶進行追蹤,研究其違約的概率大小。最後針對每個信用等級的用戶借款利率進行分析,驗證高利率是否可以彌補高風險。

2.人人貸平台介紹

1.人人貸平台優劣

人人貸是國內發展相對成熟完善的平台之一,該平台具有較為嚴格的貸前審核和完善的貸中管理,貸後追款制度,很少發現假標,期限錯配的情況也很少(借短貸長);其次,平台運營時間長,運營團隊成熟,行業經驗豐富,團隊同時具備互聯網和金融背景,配置合理。2014年第四季度的借款通過率為4.17%,逾期率僅為0.34%;該平台的理財產品全部適用於本金保障計劃,人人貸風險備用金已達到一億五百萬元,由招商銀行進行第三方託管,並定時出具資金託管報告;並與民生銀行簽訂了交易資金託管協議,有望近期內實現客戶資金與平台資金隔離,避免資金挪用。人人貸也具有一些弊端。如該平台的用戶收益率普遍較低,本文研究樣本中借貸年利率不高於13%。充值提現均收取手續費用,轉讓手續費較高;計息時間稍長,用戶反映資金占崗現象嚴重;投資理財者反饋人人貸搶標難。

圖1人人貸借款流程

2.人人貸平台監控指標

3.人人貸平台借貸人行為研究

3.1數據指標介紹

本文的目的是對借款人成功借款因素分析,並分析其借款成功後違約的概率。根據文獻綜述及人人貸網站的設計,共獲得人人貸上2012.8~2015.8借款標的共21489條數據。基將每條成交記錄的相關因素分為本借款相關因素,如借款用途、利率、期限等。如下表羅列了本文的所有研究變數及解釋。

3.2數據來源及處理

人人貸上每一條借款標的對應一個以借款編號結尾的URL,這個借款標的以單獨的網頁存儲,這個網頁上存儲著該借款標的金額、年利率、期限、借款人個人相關信息及借款人在網站上的用戶名等。本文所需的數據均在借款標的頁面的固定位置,因此可以通過程序設法讀取網頁固定位置的字元,並實現抓取。網站上獲取的原始數據存在很多問題,如重複值,缺失值等。數據分析本身80%的時間在做準備工作。對此,本文花了大量時間對數據進行清理以保證實證結論的準確性。

1、針對貸款描述與借款用途不符

原始數據中存在大量文不對題的借款描述,本文通過模糊匹配運用Excel將借款用途歸集為10類。詳見上表3

2、針對缺失值的問題

summary(loan)
#####各欄位信息匯總
借款用途 項目狀態 待還本息 剩餘期數 標的總額 年利率 還款期限
經營周轉:9722 CLOSED : 237 Min. : 0 Min. : 0.000 Min. : 3000 Min. : 8.00 Min. : 3.00
裝修借款:4898 FAILED :14913 1st Qu.: 0 1st Qu.: 0.000 1st Qu.: 20000 1st Qu.:11.40 1st Qu.:12.00
個人消費:2098 OVERDUE : 26 Median : 0 Median : 0.000 Median : 47100 Median :12.00 Median :24.00
投資創業:1580 REPAYING: 6313 Mean : 19397 Mean : 7.583 Mean : 55074 Mean :12.04 Mean :19.47
購車借款:1460 3rd Qu.: 30139 3rd Qu.:16.000 3rd Qu.: 60000 3rd Qu.:13.00 3rd Qu.:24.00
購房借款: 504 Max. :349520 Max. :35.000 Max. :500000 Max. :13.20 Max. :36.00
(Other) :1227
月還本息 性別 年齡 學歷 婚姻 公司行業 公司規模
Min. : 142.8 Min. :0.0000 Min. :21.0 -- :2585 -- : 839 -- :6318 -- :6311
1st Qu.: 1328.8 1st Qu.:1.0000 1st Qu.:26.0 本科 :4155 離異: 1112 零售/批發:3087 10-100人 :4862
Median : 2380.0 Median :1.0000 Median :29.0 大專 :8137 喪偶: 33 製造業 :2731 100-500人:1513
Mean : 3844.5 Mean :0.8152 Mean :31.3 高中或以下 :6337 未婚: 9403 其它 :1116 10人以下 :6625
3rd Qu.: 3725.0 3rd Qu.:1.0000 3rd Qu.:35.0 研究生或以上: 275 已婚:10102 IT : 990 500人以上:2178
Max. :169500.0 Max. :1.0000 Max. :61.0 建築工程 : 875
(Other) :6372
工作時間 區域 收入範圍 房產 房貸 車產 車貸 申請借款
-- :6537 東部:8415 2000-5000元 :5953 無:14119 無:17749 : 2354 無:20396 Min. : 1.000
3-5年(含) : 1 其他:6524 5000-10000元 :5916 有: 7370 有: 3740 無:17279 有: 1093 1st Qu.: 1.000
1-3年(含) :4597 西部:3123 -- :5262 有: 1856 Median : 1.000
1年(含)以下:6916 中部:3427 10000-20000元:2089 Mean : 1.776
3-5年(含) :1376 20000-50000元:1294 3rd Qu.: 2.000
5年以上 :2062 50000元以上 : 776 Max. :49.000
(Other) : 199
成功借款 還清筆數 信用額度 借款總額 逾期次數 工作階層 借款描述字元長度
Min. : 0.0000 Min. : 0.00000 Min. : 0 Min. : 0 Min. :0.00000 工薪階層 :15496 Min. : 0.00
1st Qu.: 0.0000 1st Qu.: 0.00000 1st Qu.: 0 1st Qu.: 0 1st Qu.:0.00000 私營企業主: 5077 1st Qu.: 27.00
Median : 0.0000 Median : 0.00000 Median : 0 Median : 0 Median :0.00000 網商 : 916 Median : 45.00
Mean : 0.3323 Mean : 0.02648 Mean : 17697 Mean : 18256 Mean :0.01061 Mean : 63.28
3rd Qu.: 1.0000 3rd Qu.: 0.00000 3rd Qu.: 29900 3rd Qu.: 30000 3rd Qu.:0.00000 3rd Qu.: 95.00
Max. :40.0000 Max. :38.00000 Max. :400000 Max. :680000 Max. :7.00000 Max. :524.00

註冊時長 借款人信用分數 信用等級 借款人持有債權數量
Min. : 6.00 Min. : 0.00 A : 5896 Min. : 0.00000
1st Qu.: 15.00 1st Qu.: 0.00 AA: 38 1st Qu.: 0.00000
Median : 20.00 Median : 20.00 B : 4 Median : 0.00000
Mean : 88.86 Mean : 58.77 C : 9 Mean : 0.01555
3rd Qu.: 43.00 3rd Qu.:180.00 D : 52 3rd Qu.: 0.00000
Max. :1781.00 Max. :218.00 E : 196 Max. :20.00000
HR:15294 NAs :8

#######學歷、婚姻、工作行業、規模、時間等缺失處理#########
install.packages("gdata")
library(gdata)
loan$工作時間<-trim(loan$工作時間)
loan$公司規模[loan$公司規模=="1"]<-"10人以下"
loan[which(車產==""&車貸=="有"),loan$車產]<-"有"
車產<-factor(sapply(c(車產,車貸),function(x,y)if(車產==""&車貸=="有")"有"),levels=c(0,1),labels=c(0,1))
####借款人持有債權數量的缺失值均為HR信用等級,故用HR信用等級的平均值來填充
loan$借款人持有債權數量[is.na(loan$借款人持有債權數量)]<-mean(loan$借款人持有債權數量[which(loan$信用等級=="HR")],na.rm=TRUE)

3、變數轉換

針對工作城市,本文根據經濟發展情況,將全國劃分為東、中、西部作為離散變臉加入模型中進行分析。

針對借款描述欄位,本文通過模糊篩選,統計借款描述一列中有效描述字元個數生成新的變數借款描述字元長度,加入模型進行分析。

針對借款人註冊時間,論文想根據此欄位部分說明借款人資質,但由於沒有獲取到借款標發布日期,故而以2015.8.30日為下限計算與用戶註冊日期的間隔天數生成註冊時長欄位。

針對信用借款人信用等級,本文根據借款人信用分數以及人人貸官網發布的信用分數分級標準對信用等級進行更正。

4、針對重複變數及完全線性相關變數

針對重複變數直接刪除重複值,原始數據中包含成功借款、還清筆數、未還清筆數等完全線性相關的記錄,採取直接刪除未還清貸款筆數欄位的方法。

3.3數據的描述性統計

在這一小節,主要針對貸款做描述性統計,分別對貸款用途,貸款等級,和貸款狀態分布情況對貸款做描述性統計。文中用了人人貸網站上2012.10.14日至2015.8.30日註冊用戶的申請貸款記錄。經過分層抽樣和樣本清理,並且刪除了貸款狀態為APPLY的貸款,由於正在審批中的貸款對本文的研究沒有實際意義。最終共保留21489條數據。在研究期間,人人貸共放款約3.92億元。為了研究人人貸平台上借款者的行為,我們首先考察借款用途。如下表5列出了根據借款用途匯總的貸款分布。其中,借款成功為6576筆,失敗了14913筆,成功率僅30%,可見研究P2P平台借款成功率的影響因素是有著實際意義的。成功借款的項目中有53.45%的貸款用於經營周轉,貸款總額達到2.16億元;其次24.94%的貸款用於裝修,貸款總額約1億元。而用於購房,結婚、醫療和教育的貸款還不足2%,約640萬元。

人人貸使用借款者的工作認證,實地認證,機構擔保,信用報告,身份認證等作為依據,算出信用分數,並根據信用分值計算信用等級。信用等級分類如下表5。

最終將借款者的信用等級降序分為AA至HR共7個等級,並以此來決定成交年利率。下表6分為成功借貸和流標的貸款兩個部分,並展示了各個級別的貸款分布。Succeed類別貸款中,多數為A類貸款,其次為HR類貸款;Failed貸款中,99.95%的貸款大多數貸款需求來源於HR級用戶所申請。由下表可以看出,成功獲得貸款的項目89.64%的都是A級,共5895筆3.68億元,其次為HR級,共388筆,約940萬元。而處於B、C、D類信用評級的貸款相對較少,考察樣本中總計僅65位客戶。實際上P2P平台可以多多發展該類用戶的業務,因為其處於中間地帶,相較HR級客戶潛在風險相對較小。貸款失敗的項目中,達到99.95%的項目都是HR級,共14906筆。可以看出信用級別相當大的程度上決定了貸款成功率。可以看出人人貸主要客戶群體為信用積分中上等客戶A級。但是AA類客戶相對缺乏,這很好的說明了借貸市場上逆向選擇的問題。高信用等級的客戶很容易在銀行等機構以低利率借到貸款,故很少選擇向高利息率的P2P平台來借貸。根據人人貸的的政策,貸款評級適用於決定貸款評級和最大貸款額度的硬性標準。信用評級較低的借款者必須用高利率來作為風險補償。

最後,根據貸款現狀對貸款分布做了匯總。先對各貸款狀態加以介紹。如下表7,CLOSED表示貸款已經還清或者被核銷,FAILED表示未成功獲得貸款,OVERDUE表示已經逾期但是還未被核銷,REPAYING表示正常還款中。其中還包括APPLY,但是該類貸款還未確定是否會審批通過,對本文沒有實質性意義,故而去除該部分樣本。

由下表可以看出,借貸失敗的貸款申請達到約70%,可見平台借貸成功率相對很低。借貸成功樣本中,共有227筆貸款(其中OVERDUE26筆,核銷201筆)約3.4%的貸款涉及到不同程度的逾期,共計未還本金達到474萬。但是在CLOSED狀態貸款中,共201筆貸款有餘額但是被核銷,逾期率達到84.8%,正處在OVERDUE狀態的貸款也僅佔據了0.4%。正常還款狀態下貸款總計佔到96%,但是由上分析,該類貸款在後期發生逾期並且到期被核銷的概率也是相當高的,總體來看,拖欠貸款的比率較高。由此可見分析成功借貸者發生違約的風險也是有實際意義的。

下表9列出了本文考察的主要借貸信息及貸款人指標的描述性統計信息。基於21489個考察樣本,平均待還本息為19396元,偏度值大於0,變數分布表現為右拖尾。平均年利率為12.0358%。平均每筆貸款總額為18256元,可見利率,費率較高,逾期產生的罰息也很高。平均月還款額為3844元。

從借款者的特徵來看,表格中顯示人人貸平台上借款者平均年齡為31歲,學歷多數為大專,平均信用分數為58.7739分,平均信用級別僅為HR級。平均註冊時長不到3個月。且擁有平台債權數量的人並不多,可見,借款人的資質相對較低。成功借款及還清借款筆數,擁有的債權數量均小於1。可見幾乎都缺乏投資籌資經驗。

3.4 貸款違約風險的非參數計量

從投資者的角度來說最關心的事情莫過於借款者是否會違約。如果借款者的某種特徵可以用於預測該借款者違約概率,這對於投資者是及其有利的。基於樣本數據考察期來看已經有227筆貸款發生了違約,有部分或全部的款項未收回,達到3.4%,並且隨著時間的推進,會有更多的貸款發生逾期。有部分或全部的款項未收回,違約率約為2.36%,但是如上文所述,到期貸款的違約率達到了23.52%。並且隨著貸款的到期日臨近,這個比重會更加嚴重。

這一小節,我們將先試算幾個借貸因素,看其是否對違約率產生影響。首先,我們運用K-W非參數秩和檢驗法檢驗違約貸款和正常貸款之間的差異。其次,再次用二元Logistic回歸模型來做定量分析。

違約貸款指OVERDUE和CLOSED核銷貸款之和,正常貸款指REPAYING,CLOSED還清貸款之和。上表10展示了兩類貸款群體中各代表因素的差異。經過非參數K-W指標檢驗,兩個群體中貸款利率、標的總額、貸款本息、還款期限、成功借款、還清筆數、信用分數等代表性標量在顯著性水平5%條件下有顯著的差異。特別地,我們可以發現違約貸款利率顯著比正常貸款要高,還款期限也顯著短於正常貸款。

4.實證分析

4.1借貸成功率的度量

為了更深入研究精確的違約率,我們利用二元logistic模型,包含了表4中提到的所有影響變數,因變數根據項目狀態設置,項目狀態=FAILED,因變數=0。由於處於B,C,D三類的借款者相對較少,加入模型不顯著,故將B,C,D合併為一類B類加入模型進行考察。

set.seed(1234)
train_loan.index<-sample(nrow(loan),0.7*nrow(loan))
train_loan<-loan[train_loan.index,]
test_loan<-loan[-train_loan.index,]
myForm<-as.formula(借貸成功~工作時間+收入範圍
+逾期次數+借款描述字元長度+信用等級+
+房貸+車貸+成功借款
+性別+申請借款+區域+信用額度+還清筆數
+註冊時長+借款人持有債權數量+借款人信用分數+借款描述字元長度)
sofNoMis<-loan[which(complete.cases(loan[,all.vars(myForm)])),]
FulMod2<-glm(myForm,family=binomial(link="logit"),maxit=100,na.action=na.omit,data=train_loan)
setResult<-step(FulMod2,direction="forward")
glmres<-summary(FulMod2)
anova(setResult,test="Chisq")
install.packages("sjmisc")
library(sjmisc)
HLtest<-hoslem_gof(setResult)

pred <- predict(setResult,newdata=test_loan,type = "response")
####預測準確率
fittedresults<-ifelse(pred>0.5,1,0);
Error<-sum(factor(fittedresults)!=test_loan$借貸成功)/nrow(test_loan)

表11展示了logistic最終估計結果。該模型由廣義線性模型逐步向後回歸去除不顯著變數的最佳模型,且預測準確率達到97%。

由表11可以看出在顯著性水平為10%的情況下,最終保留的顯著因素僅剩信用等級、還款期限、月還本息、年齡、工作時間、借款描述字元長度、房貸幾個因素。由於所有係數的標準誤差均小於2,故模型不存在多重共線性。由HosmerandLemeshow『s檢驗得出模型整體P值為0.768,大於0.05,模型整體的顯著。模型的擬合優度檢驗是通過比較模型的預測值與實際值之間的差異情況來進行檢驗,如果預測值和實際值約接近,則說明模型的擬合優度越佳。由於本文解釋變數中即有連續變數又有離散變數,故採用HL統計量檢驗。簡單從模型的回歸係數來看,貸款信用等級下降時,借款成功率隨之下降。還款期限、月還本息也與貸款成功率呈現負相關關係。年齡越大貸款成功率越高。同樣,工作時間越長,借款描述字元長度越長以及買過房產都有利於借款成功。根據二元logistic的回歸結果,對於一名信用評級為B類的借款者來說,還款期限24個月,月還本息500元,40歲,工作5年以上,描述500字,有房貸的借款者來說,借款成功率達到99.86%,而同樣條件下HR級別的用戶貸款成功率僅為35.46%。

4.1.1實證結果分析

(1)還款期限。還款期限係數為負數,表明標的還款期限與借款成功率呈負相關關係。還款期限越長,投資者承擔的風險就越大,更加小心的選擇借款人。

(2)信用等級。AA類貸款均表現出不顯著,很大一方面由於研究樣本中這幾類貸款數量較少,不足以解釋因變數。信用等級B,E,HR的係數均為負,依次為-5.3790,-5.7790,-12.6200。說明隨著信用等級下降,貸款申請失敗的概率也隨之增加,且影響愈加明顯。

(3)月還本息。在分析樣本中,月還本息與借款成功率呈負相關關係,同樣的,月還本息越大,借款者承受更大的還款壓力,則逾期的概率越大,故借款成功率越低。

(4)工作時間。工作時長可以從某種角度上代表借款人的經濟實力。可以從回歸結果看出,隨著工作時間越來越長,係數的影響力越來越大,依次為4.7350,5.5060,6.0050,6.1340.

(5)借款人描述字元長度。這個欄位由借款描述衍生而來,通過對借款描述中有效欄位長度的匯總反應出借款描述仔細的貸款從一定程度上可以增加借款成功率。

(6)房貸。從回歸結果來看,有房貸的借款可以增加借款成功率,這可能是由於投資者認為擁有房貸的借款者擁有房產,經濟實力不會太差。

4.2貸款違約率的度量

#######判斷是否違約#########
loan_default<-loan[which(loan$項目狀態!="FAILED"),]
y<-(loan_default["項目狀態"]=="OVERDUE")|(loan_default["項目狀態"]=="CLOSED"&loan_default["待還本息"]!=0)
table(loan_default$是否違約)
loan_default[which(y=="TRUE"),"是否違約"]<-1
loan_default[which(y=="FALSE"),"是否違約"]<-0
myForm1<-as.formula(是否違約~年利率+借款人信用分數+借款總額+還款期限+收入範圍)
set.seed(123)
train_default.index<-sample(nrow(loan_default),0.7*nrow(loan_default))
train_default<-loan_default[train_default.index,]
test_default<-loan[-train_default.index,]
sofNoMis<-loan[which(complete.cases(loan[,all.vars(myForm)])),]
FulMod2<-glm(myForm1,family=binomial(link="logit"),maxit=100,na.action=na.omit,data=train_default)
setResult<-step(FulMod2,direction="forward")
glmres<-summary(FulMod2)
anova(setResult,test="Chisq")
install.packages("sjmisc")
library(sjmisc)
HLtest<-hoslem_gof(setResult)

上表12展示了針對貸款違約率logistic回歸。該模型由廣義線性模型逐步向後回歸去除不顯著變數的最佳模型。可見,在顯著性水平為10%的情況下,最終保留的顯著因素僅剩還款期限、年利率、借款人信用分數、借款總額、收入範圍幾個變數。由於所有係數的標準誤差均小於2,故模型不存在多重共線性。由Hosmer and Lemeshow『s檢驗得出模型整體P值為04387613,大於0.05,模型整體的顯著。.簡單從模型的回歸係數來看,年利率,借款總額均會對貸款違約率產生正向影響,收入範圍越低也會增加違約率。而信用分數,還款期限會對貸款違約率產生負向影響。這與之前預想的結果較為符合。

根據回歸結果,對於一名借款總額100000元,年利率13%,還款期限24個月,信用分數60分,收入1000元以下的用戶來說,則其發生違約的概率為0.13%,對於收入50000元以上的用戶來說,發生違約的概率很小。

4.2.1實證結果分析

(1)年利率,如上表13所示,對違約率產生正向影響。這與借貸成功率研究中,年利率高借貸成功率高有一定衝突。這也正是揭示了資本市場不變的定理高收益伴隨著高風險,但是這種高利率是否能夠彌補其潛在的高風險呢?下面將對該問題做出實證分析。

(2)借款人的信用分數對違約率是顯著負向影響。信用分數高代表借款人的徵信較好,自然會降低違約風險。

(3)還款期限對違約率也是負向影響,這可能是由於還款期限長,月還款額度偏低,借款人容易周轉不易發生違約。

(4)借款總額

借款總額高,導致高違約率。

(5)收入變數中,只有月收入低於1000元的用戶才對違約率產生顯著正向影響。收入偏低導致過高的債務收入比,自然產生高風險。而高於1000元的收入區間對模型影響不顯著,但是從係數來看,仍然是隨著收入的增加,違約概率降低。

4.3風險補償利率測算

投資者/平台(人人貸是保本/保本息類別貸款)最關心的是違約者是否能夠在貸款核銷後,或違約後仍然收到還款,即Recovery。因此,高利率是否能夠彌補更高的違約風險也是投資決策的一個重要參考依據。為了回答這個問題,我們首先固定了平均違約月份數,我們可以按照各信用評級估計出實際平均貸款利率以及理論風險補償利率。

上表13反映了各個信用級別的貸款中違約貸款的比重情況,隨著信用級別的降低,違約率由AA級的5.26%惡化到了HR級的36.86%。但是這僅僅是違約貸款相對於所有借貸成功的樣本而言,但是隨著貸款期限的臨近,逾期情況會變得愈加嚴重,平均年利率也由9.08%顯著增加到12.21%。違約金額佔到所有未還本金比率約36.43%。可見,貸款信用等級很大程度上決定了貸款利率,以及違約金額佔比。

基於237筆已經到期和被核銷的貸款樣本,如果借款則違約,則平均違約期限金額和期限可以計算出來。給定特定信用級別下的貸款違約概率,每個信用等級下潛在利率計算公式如下。

其中,Vd是根據每個信用級別平均違約期限計算出的現值。p是根據logistic模型中信用分數值上限預測出的違約概率。Vno指假如貸款未逾期時收穫的現值。Vid指AA級別貸款利率計算出下的貸款現值,代表所有AA級貸款的放款總額。RP是指投資者需要索求的風險溢價。

上表14列出了人人貸各個級別貸款理論風險補償利率以及實際平均利率對比。可以可以看出人人貸網站上HR級別貸款的平均利率僅為12.21%,而理論上的風險補償利率應該為13.43%才能夠滿足彌補HR級別貸款的高風險。實際貸款利率顯著低於理論利率,E,B類貸款亦是如此。只有A和AA類貸款的實際利率略高於理論利率,A類貸款實際收取利率高了0.39%,AA類貸款實際收取利率高了0.06%,換句話來說人人貸上的風險投資者僅僅從優質客戶那裡賺到保本收益。

推薦閱讀:

相关文章