Python用邏輯回歸、決策樹、SVM、XGBoost 算法機器學習預測用戶信貸行為數(shù)據(jù)分析報告
全文鏈接:http://tecdat.cn/?p=31201
原文出處:拓端數(shù)據(jù)部落公眾號
摘要:此報告首先將dataset進行數(shù)據(jù)清洗,得到dataset_new。再將dataset_new中屬性分為基本信息、貸款行為/意愿信息和征信信息三類,并逐一進行分析。在對基本信息的分析中得出,在貸款未結清者中,青年群體、中等教育程度群體、中等和高收入群體的頻數(shù)較高,同時已婚、受薪雇員占比高于未婚、個體經(jīng)營者。在對貸款意愿與行為的信息分析中得出,貸款意愿與行為的變化與是否能夠在規(guī)定時間內(nèi)結清貸款相關性較低。在對征信信息的分析中可以得出,征信信息中的正指標與負指標與是否能按期結清貸款有較為顯著的正相關與負相關關系。最后再利用機器學習算法訓練預測是否能夠按期結清貸款的模型,測試結果準確度較高。
1 屬性分類
dataset_new數(shù)據(jù)集中共有6010個樣本、51個屬性。由于屬性數(shù)量較多,為了便于分析,以屬性的物理含義為分類依據(jù),結合現(xiàn)實業(yè)務特征,挑選出具有代表性且特征涵蓋較為全面的24條屬性,并將其分為三類:基本信息、貸款行為/意愿信息和征信信息。 原始數(shù)據(jù):

如表1-1所示。
表 1-1 代表性屬性及其分類


2 基本信息分析
針對貸款未結清者的基本個人信息進行統(tǒng)計分析,可以得出貸款未結清者在年齡、受教育程度等屬性上的分布特征。
2.1貸款未結清者隨年齡的分布
將所有貸款未結清者從18歲開始以5為區(qū)間統(tǒng)計,可以得出如圖2-1-1所示的貸款未結清者隨年齡的分布情況:在23-33歲的青年群體中,貸款未結清者的頻數(shù)最高, 在48歲及以上的中老年群體中貢惑術時信者慮對這一群體進行更深入的經(jīng)濟背景調查款未結清的主要群體,因此在審批貸款時應考慮對這一群體進行更深入的經(jīng)濟背景調查 和征信調查,以確保貸款對象具有結清貸款的能力。

圖 2-1-1 貸款未結清者隨年齡的分布
2.2 貸款未結清者隨受教育程度的分布
將貸款未結清者按受教育程度分類,可以得出如圖 2-2-1 所示的結果:在未結清貸款者中,中等教育程度(12th、 Graduation/Diploma)的頻數(shù)最高,而低教育程度者和高教育程度者的頻數(shù)均較低。

?圖 2-2-1 貸款未結清者隨受教育程度的分布
2.3 貸款未結清者的婚姻狀況分布
將貸款未結清者按照婚姻狀況分類,可以得到如圖 2-3-1 所示的結論:在貸款未結清者中,已婚者的比例略高于未婚者,已婚者與未婚者的占比差距并不顯著。

圖 2-3-1 貸款未結清者的婚姻狀況分布
2.4 貸款未結清者的工作狀況和收入狀況分布
將貸款未結清者按照工作狀況進行統(tǒng)計,可以得出如圖2-4-1的結論:在貸款未結清者中,35.48%為個體經(jīng)營者,64.52%為受薪雇員,受薪雇員的占比顯著高于個題經(jīng)營者,且兩者比例約為2:1。 將貸款未結清者按照收入狀優(yōu)進仃,-30 00O)和高收入者(50,000-100, 000)清者中,中等收入者(15,000-20,000、20,000-30,000)和高收入者(50,000-100,000) 的頻數(shù)最高,而低收入者(<10,000、>=500,000)的頻數(shù)最低。由此可以考慮,在貸款審批時對中等收入和高收入的群體進行跟進一步的經(jīng)濟背景調查和征信調查。

圖 2-4-1 貸款未結清者的工作狀況分布

圖 2-4-2 貸款未結清者的收入狀況分布
3 貸款意愿與行為信息分析
在數(shù)據(jù)集中,貸款意愿主要由安裝的短期以及長期貸款類的APP數(shù)量表征。由于貸款行為在多數(shù)情況下是在一定時間段內(nèi)對資金的需求或者對資金需求的預期所產(chǎn)生的融資行為,故在考慮貸款意愿與貸款行為信息分析時可重點考察一定時間段內(nèi)安裝的貸款類APP數(shù)量。
分別將貸款未結清者(藍色)與已經(jīng)結清者(橙色)近3天與30天內(nèi)安裝短期貸款APP數(shù)繪制成熱力圖,如圖3-1所示,貸款已結清者與未結清者的熱力分布非常近似,所以可認為在一定時間段內(nèi)安裝的短期貸款APP數(shù)量與貸款是否結清的相關性較低。

圖 3-1 貸款未結清者與已經(jīng)結清者近 3 天與 30 天內(nèi)安裝短期貸款 APP 數(shù)熱力圖
再分別將貸款未結清者(藍色)與已經(jīng)結清者(橙色)近30天與90天內(nèi)安裝長期貸款APP數(shù)繪制成熱力圖,如圖3-2所示,貸款已結清者與未結清者的熱力分布同樣非常近似,所以也可認為在一定時間段內(nèi)安裝的長期貸款APP數(shù)量與貸款是否結清的相關性同樣較低。

圖 3-2 貸款未結清者與已經(jīng)結清者近 30 天與 90 天內(nèi)安裝長期貸款 APP 數(shù)熱力圖
結合以上分析推測,由于貸款意愿與行為多出自于業(yè)務上的客觀需求,所以貸款意愿近與行為具有與外生變量相似的特性,因而貸款意愿與行為的變化與是否能夠在規(guī)定時間內(nèi)結清貸款相關性不大。
4 征信信息分析
將征信數(shù)據(jù)歸一化之后,計算貸款未結清者與已結清者之間主要指標的差值,如圖4-1。分析可得,對征信分數(shù)、在貸賬戶數(shù)等正指標(即值越高越信用越好),未結清者顯著低于已結清者。對歷史逾期總金額、近60查詢機構數(shù)等負指標(即值越高越信用越好),未結清者顯著高于已結清者。由此可得,征信信息中的正指標與負指標與是否能按期結清貸款有較為顯著的正相關與負相關關系。所以在審批貸款時,應該加強對征信信息的分析與調查,以降低貸款者逾期未結清的概率。

圖 4-1 未結清與結清者征信指標差(未結清-結清者)
5 基于機器學習方法的結清狀況預測
由于貸款是否能按時結清受到諸多因素影響,也會因為偶然因素產(chǎn)生擾動,同時考慮到對每一個客戶進行人工分析的人工成本和時間成本較高,故考慮訓練基于機器學習方法的結清狀況預測模型,在實際應用中可以直接輸入指標利用模型對是否能夠結清做出預測,從而作為人工審批的依據(jù)。 分別采用LogisticRegression、DecisionTree、SVM、XGBoost 算法,以dataset_new中關鍵屬性作為樣本屬性,訓練集:測試集 =8:2分割所有樣本和標簽進行訓練,所得測試集準確率與訓練時間如表5-1所示。
表 5-1 各算法測試集準確率與訓練時間

由表5-1可得,各算法測試集準確率均為1.0,而在訓練時間上DecisionTree顯著低于其他三種算法??紤]到現(xiàn)實應用中數(shù)據(jù)集規(guī)??赡芨螅钥煽紤]應用DecisionTree對是否能結清貸款進行預測以節(jié)約成本和提高效率。
6 總結
此報告對數(shù)據(jù)集屬性進行了分類,并逐一分析各類屬性與是否能夠結清貸款的關系。 同時給出了一種時間成本低、準確度高的基于機器學習預測是否能夠結清貸款的方法,用于協(xié)助貸款審批決策與分析工作。

最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應用案例
2.面板平滑轉移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
7.在R語言中實現(xiàn)Logistic邏輯回歸
8.python用線性回歸預測股票價格
9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標