机器学习：银行贷款违约预测模型

2023年6月15日下午9:40 • 人工智能 • 阅读 53

一种数据科学方法，用于预测和了解申请人的个人资料，以最大程度地降低未来贷款违约的风险。

; 关于该项目

该数据集包含有关信贷申请人的信息。在全球范围内，银行使用这种数据集和信息数据类型来创建模型，以帮助决定接受/拒绝谁的贷款。

在进行所有探索性数据分析、清理和处理我们可能（将）发现的所有异常之后，一个好/坏申请人的模式将暴露在机器学习模型中学习。

机器学习问题和目标

我们正在处理一个有监督的二元分类问题。目标是训练最好的机器学习模型，以最大限度地提高深入了解过去客户资料的预测能力，最大限度地降低未来贷款违约的风险。

性能指标

鉴于我们正在处理高度不平衡的数据，用于模型评估的指标是 ROC AUC 。

项目结构

该项目分为三类：

EDA：探索性数据分析
数据整理：清理和特征选择
机器学习：预测建模

数据集

数据集为lendingclub数据集。

; 功能描述

id：贷款申请的唯一 ID。
等级：LC分配的贷款等级。
year_inc：借款人在注册时提供的自报年收入。
short_emp : 1 受雇 1 年或更短时间。
emp_length_num : 就业年限。可能的值介于 0 和 10 之间，其中 0 表示不到一年，而 10 表示十年或更长时间。
home_ownership：房屋所有权的类型。
dti（债务与收入比率）：使用借款人每月债务支付总额与债务总额（不包括抵押贷款和申请的信用证贷款）除以借款人自我报告的月收入计算得出的比率。
目的：借款人为贷款请求提供的类别。
term：贷款的付款次数。值以月为单位，可以是 36 或 60。
last_delinq_none : 1 当借款人至少有一次拖欠事件时。
last_major_derog_none : 1 个借款人至少有 90 天的差评。
revol_util：循环线利用率，或借款人使用的信贷量相对于所有可用的循环信贷。
total_rec_late_fee：迄今为止收到的滞纳金。
od_ratio：透支比率。
bad_loan：未支付贷款时为 1。

导入依赖库

import pandas as pd
import numpy as np
import seaborn as sns
import pingouin as pg
import scipy
from scipy.stats import chi2
from scipy.stats import chi2_contingency
from scipy.stats import pearsonr, spearmanr
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn import tree
from sklearn.tree import export_graphviz
from sklearn.externals.six import StringIO
from sklearn.linear_model import Perceptron
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import  precision_recall_curve, roc_auc_score, confusion_matrix, accuracy_score, recall_score, precision_score, f1_score,auc, roc_curve, plot_confusion_matrix
from category_encoders import BinaryEncoder
from IPython.display import Image
import pydotplus
import matplotlib.pyplot as plt
%matplotlib inline
color = sns.color_palette()
seed = 42

加载和显示数据集：

data = pd.read_csv('lending_club_loan_dataset.csv', low_memory=False

>> data.head()

如果大家对金融风控建模感兴趣，可了解《python金融风控评分卡模型和数据分析(加强版)》

EDA：解释性数据分析

数值属性的主要统计数据：
>> data.describe().round(3)

该数据集有 2000 个观测值和包括目标在内的 15 个变量，分为 11 个数字特征和 4 个类别特征。

存在缺失值的变量：”home_ownership”为 7.46%，”dti”为 0.77%，”last_major_derog_none”为 97.13%。

从均值和中位数的差异，以及变量”annual_inc”、”revol_util”和”total_rec_late_fee”的最大值的距离来看，似乎有一些异常值。

分类属性的主要统计数据：

不平衡的数据：目标有 80% 的违约结果（值 1），而 20% 的贷款最终被支付/未违约（值 0）

; EDA 功能

使用和滥用图形来描述数据集中的所有特征。首先为每个图表定义一些函数：箱线图、直方图、条形图和饼图、散点图、数据透视图以及统计描述。

类别分布的可视化：

直方图告诉我们，收入越高，违约趋势越高。

散点图显示了”年收入”和”债务收入比”之间的弱负相关。

相关值为 -0.23，这意味着随着 yearn_inc 的减少，实例 1 的贷款（违约/未支付）增加。

就业年限。可能的值介于 0 和 10 之间，其中 0 表示不到一年，而 10 表示十年或更长时间。

特征：dti（债务收入比）

使用借款人每月债务支付总额与债务总额（不包括抵押贷款和申请的信用证贷款）除以借款人自我报告的月收入计算得出的比率。

与良好贷款相比，不良贷款（违约）的分布平均具有更高的”dti”值（债务与收入比率）。

等级Grade：趋势是当等级等级降低时，违约贷款的可能性增加。

; revol_util

循环线利用率，或借款人使用的信贷量相对于所有可用的循环信贷。客户的年收入越低，借款人使用的信用额度相对于所有可用的循环信用额度越高。

年收入最低的客户是滞纳金较多的客户，尤其是最高和重的客户。

在房屋、小型企业或度假等贷款用途中，滞纳金的发生频率较高。另一方面，婚礼和汽车是滞纳金执行最低的信用目的。

od_ratio透支比率

箱线图：可视化数值数据分散

模型的混淆矩阵

模型ROC曲线

多算法比较中，支持向量机svc的auc最高

; 结论

最佳模型：支持向量机 – 分类器 (SVC)：75.21%。

经验法则非常简单：ROC AUC 指标的值越高越好。如果模型auc只有 0.5，表示模型功能和随机猜测差不多。如果模型表现完美，auc将达到 1.0。

作者推荐AUC参考阈值和模型性能划分

Original: https://blog.csdn.net/toby001111/article/details/126602245
Author: python风控模型
Title: 机器学习：银行贷款违约预测模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617685/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Tushare数据本地化多进程版本——如何快速一次性获取全部股票数据

在我自己早期使用tushare进行股票数据获取的时候遇到一个问题：如何快速获取全市场所有股票的行情数据呢？一般来说，我们可以采用for循环的方式： def Get_stock_b…

人工智能 2023年7月8日
0086
data2vec进行语音识别验证和微调时的环境配置——flashlight的安装

人工智能 2023年5月23日
0081
ShellBrowser WPF 组件 6.3.1 Crack

使用 ShellBrowser WPF 组件，您可以访问、编辑 Windows 资源管理器中已知的功能并将其添加到您的 WPF 应用程序。这些组件是用 C# 编写的，但可以与其他 …

人工智能 2023年6月27日
0093
TCN（Temporal Convolutional Network，时间卷积网络）

1 前言实验表明，RNN 在几乎所有的序列问题上都有良好表现，包括语音/文本识别、机器翻译、手写体识别、序列数据分析（预测）等。在实际应用中，RNN 在内部设计上存在一个严重的…

人工智能 2023年6月16日
00114
基于ResNet50做图片分类的tensorflow代码实现

目标任务：将数据集中5类美食图片进行分类，每一类有1000张图片，共5000张。实验总结：刚开始设置训练集和验证集的比例为8:2，有些欠拟合，因此后来调整到了9:1；分别测试了原…

人工智能 2023年5月24日
00107
YOLOv7训练自己的数据集

目录 1、制作YOLO格式数据集 1.1、数据集 1.2、如何转换为YOLOv7所需的格式? 1.3、如何批量化生成YOLO格式的txt标注 1.4、如何划分YOLO的train、…

人工智能 2023年7月23日
0070
Keras中如何设置学习率和优化器以及两者之间的关系

在集成式机器学习类库Keras中，对优化器和学习率做了很好的封装，以至于很多人搞不清楚怎么设置学习率，怎么使用优化器，两者到底有什么区别。不同的学习率对模型训练过程中的损失值lo…

人工智能 2023年7月26日
0088
pandas的DataFrame中出现多数据类型的检查(一列中有多个类型）

在pandas中，如果需要查看column的类型，一般使用 df.dtypes 方法，它将返回每个列的数据类型，但是如果涉及到多个类型，该方法只能返回一个类型，比如 frame =…

人工智能 2023年7月8日
0074
流媒体开源服务 MediaSoup 初识

目录前言正文一、简单介绍二、关键特色 1. 超强 SFU 功能 2. Node.js 模块 3. 客户端 SDK 三、架构组成 1. 关键实例 2. 重要模块四、发展现状…

人工智能 2023年7月30日
0050
正态分布（高斯分布）、Q函数、误差函数、互补误差函数（定义，意义及互相之间的关系）高斯分布的分布概率反解

1.正态分布参考博客：https://www.cnblogs.com/htj10/p/8621771.html 概率密度函数的意义：理解概率密度函数 – 知乎 (z…

人工智能 2023年7月28日
0079
Cycle GAN（复现）—笔记

因为目前的课题了解到了Cycle GAN,所以最近去学习了相关的一些知识。目前网上绝大多数的代码都是https://github.com/junyanz/pytorch-Cycl…

人工智能 2023年6月25日
00108
4. 语法分析

早期：检查输入的记号中包含的语法是否合法后期：生成的抽象语法树便于语义分析器或者代码生成器进一步的处理输入：记号流输出：抽象语法树中间表示研究给定记号流输入是否合法：满足语…

人工智能 2023年6月10日
0062
数据科学你得知道的几种分布（下）[泊松分布，卡方分布，Beta分布]

一、泊松分布泊松分布是一种在随机时间空间中的概率分布经典的应用场景有”一本书一页中的印刷错误””某地区在一天内邮递遗失的信件数”…

人工智能 2023年7月17日
0094
轻量级图卷积网络LightGCN介绍和构建推荐系统示例

推荐系统是当今业界最具影响力的 ML 任务。从淘宝到抖音，科技公司都在不断尝试为他们的特定应用程序构建更好的推荐系统。而这项任务并没有变得更容易，因为我们每天都希望看到更多可供选择…

人工智能 2023年7月17日
0063
K-means及FCM的聚类实验

算法简介聚类算法是一种无监督学习，简单来讲就是依靠样本间聚类通过不断迭代聚类中心的方式来完成样本聚类。常见的单层聚类方式有K-means聚类和FCM聚类等。 K-means算法简…

人工智能 2023年5月31日
0061
pytorch中.numpy()、.item()、.cpu()、.detach()及.data的使用

目录 * – + .numpy() + .item() + .cpu() + .detach()和.data（重点） .numpy() Tensor.numpy()将T…

人工智能 2023年7月4日
0099

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习：银行贷款违约预测模型

一种数据科学方法，用于预测和了解申请人的个人资料，以最大程度地降低未来贷款违约的风险。

; 功能描述

特征：dti（债务收入比）

大家都在看