阿里云天池大数据长期赛：金融风控-贷款违约预测（含代码）

2023年6月19日上午10:39 • 人工智能 • 阅读 73

前言

2.6.查看训练集与测试集的特征分布是否一致

2.7 查看数据相关性

三、数据清洗

3.1.分类变量处理

3.1.1 grade及subGrade处理

3.1.2 employmentLength处理

3.1.3 issueDate及earliesCreditLine处理

4.2 Toad：基于 Python 的标准化评分卡模型

4.2.1 toad_quality

4.2.2 toad.selection.select

4.2.3 psi：比较训练集和测试集的变量分布之间的差异

五、数据建模

总结

前言

通过本次比赛的学习，让自己在数据分析及挖掘的技能上又有了进一步提高，虽然最终成绩只有0.7346，但这个过程的经验积累价值是不可估量的，本人是第一次处理这么大量的数据，自己摸索的同时，又不断学习许多前辈的经验，让自己在大数据处理方面又有了新的认知。

一、赛题介绍

赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。

该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

数据变量特征解释如下

; 二、数据描述性统计

2.1.读取数据

import pandas as pd     # &#x6570;&#x636E;&#x5206;&#x5E03;&#x7EDF;&#x8BA1;
df=pd.read_csv("/train.csv")
test=pd.read_csv("/testA.csv")
df.shape

(800000, 47)  训练集有80万个样本，47个变量

2.2.查看重复值

df[df.duplicated()==True]#&#x6253;&#x5370;&#x91CD;&#x590D;&#x503C;

0 rows × 47 columns 无重复值

2.3.统计目标变量比例

(df['isDefault'].value_counts()/len(df)).round(2)

0    0.8
1    0.2

目标变量比例1：4，样本类别不平衡

2.4.查看数据的统计量

df.describe().T

n系列特征都有缺失，贷款金额及年收入等涉及金额的数据标准差都比较大，波动性大。

2.5.统计每个变量的种类

df.nunique()
df=df.drop(['id','policyCode'],axis=1) # &#x5220;&#x9664;ID&#x5217;&#x53CA;&#x53EA;&#x6709;&#x4E00;&#x4E2A;&#x503C;&#x7684;policyCode&#x5217;

2.6.查看训练集与测试集的特征分布是否一致

&#x5206;&#x79BB;&#x6570;&#x503C;&#x53D8;&#x91CF;&#x4E0E;&#x5206;&#x7C7B;&#x53D8;&#x91CF;
Nu_feature = list(df.select_dtypes(exclude=['object']).columns)  # &#x6570;&#x503C;&#x53D8;&#x91CF;
Ca_feature = list(df.select_dtypes(include=['object']).columns)
&#x67E5;&#x770B;&#x6570;&#x503C;&#x578B;&#x8BAD;&#x7EC3;&#x96C6;&#x4E0E;&#x6D4B;&#x8BD5;&#x96C6;&#x5206;&#x5E03;
Nu_feature.remove('isDefault') # &#x79FB;&#x9664;&#x76EE;&#x6807;&#x53D8;&#x91CF;
&#x753B;&#x56FE;
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
plt.figure(figsize=(30,30))
i=1
for col in Nu_feature:
    ax=plt.subplot(8,5,i)
    ax=sns.distplot(df[col],color='violet')
    ax=sns.distplot(test[col],color='lime')
    ax.set_xlabel(col)
    ax.set_ylabel('Frequency')
    ax=ax.legend(['train','test'])
    i+=1
plt.show()

由于变量较多，只展示了部分变量，分布是一致的，如果训练集与测试集分布不一致，会影响模型泛化性能，就好比训练的是老人的特征，结果是预测小孩的特征。

2.7 查看数据相关性

plt.figure(figsize=(10,8))
train_corr=df.corr()
sns.heatmap(train_corr,vmax=0.8,linewidths=0.05,cmap="Blues")

部分特征相关性比较高，目标变量与特征变量之间没有特别高的相关性

三、数据清洗

3.1.分类变量处理

Ca_feature:['grade', 'subGrade', 'employmentLength', 'issueDate', 'earliesCreditLine']

3.1.1 grade及subGrade处理

from sklearn.preprocessing import LabelEncoder
lb = LabelEncoder()
cols = ['grade','subGrade']
for j in cols:
    df[j] = lb.fit_transform(df[j])
df[cols].head()

#grade&#x53CA;subGrade&#x662F;&#x6709;&#x4E25;&#x683C;&#x7684;&#x5B57;&#x6BCD;&#x987A;&#x5E8F;&#x7684;&#xFF0C;&#x4E0E;&#x6D4B;&#x8BD5;&#x96C6;&#x76F8;&#x5BF9;&#x5E94;&#xFF0C;&#x53EF;&#x4EE5;&#x76F4;&#x63A5;&#x7528;&#x7F16;&#x7801;&#x8F6C;&#x6362;&#xFF0C;&#x8F6C;&#x6362;&#x7ED3;&#x679C;&#x5982;&#x4E0B;
  grade subGrade
0   4     21
1   3     16
2   3     17
3   0     3
4   2     11

3.1.2 employmentLength处理

&#x5E74;&#x9650;&#x8F6C;&#x5316;&#x4E3A;&#x6570;&#x5B57;&#xFF0C;&#x5728;&#x8FDB;&#x884C;&#x7F3A;&#x5931;&#x503C;&#x586B;&#x5145;
df['employmentLength']=df['employmentLength'].str.replace(' years','').str.replace(' year','').str.replace('+','').replace('< 1',0)

&#x968F;&#x673A;&#x68EE;&#x6797;&#x586B;&#x8865;&#x5E74;&#x9650;&#x7F3A;&#x5931;&#x503C; &#x7531;&#x4E8E;&#x5206;&#x7C7B;&#x53D8;&#x91CF;&#x53EA;&#x6709;&#x5E74;&#x9650;&#x6709;&#x7F3A;&#x5931;&#xFF0C;&#x6240;&#x4EE5;&#x8FD9;&#x6837;&#x586B;&#x5145;
from sklearn.tree import DecisionTreeClassifier
DTC = DecisionTreeClassifier()
empLenNotNull = df.employmentLength.notnull()
columns = ['loanAmnt','grade','interestRate','annualIncome','homeOwnership','term','regionCode']
regionCode&#x53D8;&#x91CF;&#x52A0;&#x5165;&#x540E;&#xFF0C;&#x51C6;&#x786E;&#x5EA6;&#x4ECE;0.85&#x63D0;&#x5347;&#x81F3;0.97
DTC.fit(df.loc[empLenNotNull,columns], df.employmentLength[empLenNotNull])
print(DTC.score(df.loc[empLenNotNull,columns], df.employmentLength[empLenNotNull]))
DTC.score&#xFF1A;0.9828872204324179

&#x586B;&#x5145;
for data in [df]:
    empLen_pred = DTC.predict(data.loc[:,columns])   # &#x5BF9;&#x5E74;&#x9650;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x9884;&#x6D4B;
    empLenIsNull = data.employmentLength.isnull()    # &#x5224;&#x65AD;&#x662F;&#x5426;&#x4E3A;&#x7A7A;&#x503C;&#xFF0C;isnull&#x8FD4;&#x56DE;&#x7684;&#x662F;&#x5E03;&#x5C14;&#x503C;
    data.employmentLength[empLenIsNull] = empLen_pred[empLenIsNull] # &#x5982;&#x679C;&#x662F;&#x7A7A;&#x503C;&#x8FDB;&#x884C;&#x586B;&#x5145;

&#x8F6C;&#x5316;&#x4E3A;&#x6574;&#x6570;
df['employmentLength']=df['employmentLength'].astype('int64')

3.1.3 issueDate及earliesCreditLine处理

import datetime
df['issueDate']=pd.to_datetime(df['issueDate'])
df['issueDate_year']=df['issueDate'].dt.year.astype('int64')
df['issueDate_month']=df['issueDate'].dt.month.astype('int64')
df['earliesCreditLine']=pd.to_datetime(df['earliesCreditLine'])  # &#x5148;&#x5728;EXCEL&#x4E0A;&#x8F6C;&#x5316;&#x4E3A;&#x65E5;&#x671F;
df['earliesCreditLine_year']=df['earliesCreditLine'].dt.year.astype('int64')
df['earliesCreditLine_month']=df['earliesCreditLine'].dt.month.astype('int64')
df=df.drop(['issueDate','earliesCreditLine'],axis=1)
issueDate&#x53CA;earliesCreditLine&#x4E24;&#x4E2A;&#x53D8;&#x91CF;&#x5C06;&#x65E5;&#x671F;&#x5206;&#x89E3;&#xFF0C;&#x5206;&#x522B;&#x63D0;&#x53D6;&#x2018;&#x5E74;&#x2019;&#x548C;&#x2018;&#x6708;&#x2019;&#x5E76;&#x8F6C;&#x5316;&#x4E3A;&#x6574;&#x6570;&#x4FBF;&#x4E8E;&#x8BA1;&#x7B97;&#xFF0C;&#x7531;&#x4E8E;&#x6D4B;&#x8BD5;&#x96C6;&#x8FD9;&#x4E24;&#x4E2A;&#x53D8;&#x91CF;&#x7684;&#x2018;&#x65E5;&#x2019;&#x90FD;&#x662F;1&#xFF0C;&#x5BF9;&#x76EE;&#x6807;&#x53D8;&#x91CF;&#x6CA1;&#x6709;&#x5F71;&#x5411;&#xFF0C;&#x6240;&#x4EE5;&#x8BAD;&#x7EC3;&#x96C6;&#x4E0D;&#x63D0;&#x53D6;&#xFF0C;&#x63D0;&#x53D6;&#x5B8C;&#x540E;&#x5C06;&#x8FD9;&#x4E24;&#x4E2A;&#x539F;&#x59CB;&#x53D8;&#x91CF;&#x5220;&#x9664;

3.2 数值变量填充

df[Nu_feature] = df[Nu_feature].fillna(df[Nu_feature].median())
&#x8003;&#x8651;&#x5E73;&#x5747;&#x503C;&#x6613;&#x53D7;&#x6781;&#x503C;&#x5F71;&#x54CD;&#xFF0C;&#x6570;&#x503C;&#x53D8;&#x91CF;&#x7528;&#x4E2D;&#x4F4D;&#x6570;&#x586B;&#x5145;

3.3 保存数据

df.to_csv("/df2.csv")

说明：测试集也需要做相同的处理

四、特征探索

4.1 PCA主成分分析

from sklearn.decomposition import PCA
pca = PCA()
X1=df2.drop(columns='isDefault')
df_pca_train = pca.fit_transform(X1)
pca_var_ration = pca.explained_variance_ratio_
pca_cumsum_var_ration = np.cumsum(pca.explained_variance_ratio_)
print("PCA &#x7D2F;&#x8BA1;&#x89E3;&#x91CA;&#x65B9;&#x5DEE;")
print(pca_cumsum_var_ration)
x=range(len(pca_cumsum_var_ration))
plt.scatter(x,pca_cumsum_var_ration)
###################
PCA &#x7D2F;&#x8BA1;&#x89E3;&#x91CA;&#x65B9;&#x5DEE;
[0.6785479  0.96528967 0.99287836 0.99667955 0.9999971  0.99999948
 0.99999985 0.99999993 0.99999995 0.99999996 0.99999998 0.99999998
 0.99999999 0.99999999 0.99999999 1.         1.         1.

 1.         1.         1.         1.         1.         1.

 1.         1.         1.         1.         1.         1.

 1.         1.         1.         1.         1.         1.

 1.         1.         1.         1.         1.         1.

 1.         1.         1.        ]

可以看到前两个变量累计就达到接近1的方差贡献率，降维效果明显，但不适用于建模。

4.2 Toad：基于 Python 的标准化评分卡模型

4.2.1 toad_quality

import toad
toad_quality = toad.quality(df2, target='isDefault', iv_only=True)
&#x8BA1;&#x7B97;&#x5404;&#x79CD;&#x8BC4;&#x4F30;&#x6307;&#x6807;&#xFF0C;&#x5982;iv&#x503C;&#x3001;gini&#x6307;&#x6570;&#xFF0C;entropy&#x71B5;&#xFF0C;&#x4EE5;&#x53CA;unique values&#xFF0C;&#x7ED3;&#x679C;&#x4EE5;iv&#x503C;&#x6392;&#x5E8F;
                 iv
subGrade        0.485106565
interestRate    0.463530061
grade           0.463476859
term            0.172635079
ficoRangeLow    0.125252862
ficoRangeHigh   0.125252862
dti             0.072902752
verificationStatus  0.054518912
n14             0.045646121
loanAmnt        0.040412211
installment     0.039444828
title           0.034895535
issueDate_year  0.034170341
homeOwnership   0.031995853
n2              0.031194387
n3              0.031194387
annualIncome    0.030305725
n9              0.029678353
employmentTitle 0.028019829
revolUtil       0.025677543

上面展示了IV值大于0.02的特征，IV值小于0.02的特征对目标变量几乎没有作用，本人已测试仅用上述特征建模，模型效果没有全部特征好

4.2.2 toad.selection.select

selected_data, drop_lst= toad.selection.select(df2,target = 'isDefault', empty = 0.5, iv = 0.02, corr=0.7,return_drop=True)
&#x7B5B;&#x9009;&#x7A7A;&#x503C;&#x7387;>0.5&#xFF0C;IV<0.02，相关性大于0.7的特征 # (800000, 15) 保留了15个特征 以下是删除的特征，通过return_drop="True&#x663E;&#x793A;" {'empty': array([], dtype="float64)," 'iv': array(['employmentlength', 'purpose', 'postcode', 'regioncode', 'delinquency_2years', 'openacc', 'pubrec', 'pubrecbankruptcies', 'revolbal', 'totalacc', 'initialliststatus', 'applicationtype', 'n0', 'n1', 'n4', 'n5', 'n6', 'n7', 'n8', 'n10', 'n11', 'n12', 'n13', 'issuedate_month', 'earliescreditline_year', 'earliescreditline_month'], 'corr': array(['n9', 'grade', 'n3', 'installment', 'ficorangehigh', 'interestrate'],></0.02，相关性大于0.7的特征>

通过筛选的特征用于建模，效果也不好

4.2.3 psi：比较训练集和测试集的变量分布之间的差异

psi = toad.metrics.PSI(df2,testA)   # psi&#x6CA1;&#x6709;&#x5927;&#x4E8E;0.25&#x7684;&#xFF0C;&#x90FD;&#x6BD4;&#x8F83;&#x7A33;&#x5B9A;
psi.sort_values(0,ascending=False)
##############&#x90E8;&#x5206;&#x7ED3;&#x679C;&#x5C55;&#x793A;##############
revolBal                   2.330739e-01
installment                1.916890e-01
employmentTitle            1.513944e-01
employmentLength           6.919465e-02
annualIncome               4.075954e-02
dti                        2.810131e-02
title                      1.875967e-02

特征工程是机器学习中不可或缺的一部分，也是十分庞杂的工程，本人也只是做了简单的尝试。

五、数据建模

本人对比了xgboost及catboost，最终选择了catboost，尝试结果如下：
RandomForestClassifier+xgboost AUC 测试0.721/线上0.71 xgboost+toad AUC 测试0.722 catboost+toad AUC 测试0.727 catboost+类别变量AUC 测试0.736/线上0.72 catboost+5KFold+500iterations AUC 测试0.734/线上0.728 catboost+3KFold+300iterations+增加类别变量AUC 测试0.738/线上0.7346

from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
from catboost import CatBoostClassifier
from sklearn.model_selection import KFold
train=pd.read_csv("/df2.csv")
testA2=pd.read_csv("/testA.csv")
&#x9009;&#x53D6;&#x76F8;&#x5173;&#x53D8;&#x91CF;&#x505A;&#x5206;&#x7C7B;&#x53D8;&#x91CF;&#x5E76;&#x8F6C;&#x5316;&#x4E3A;&#x5B57;&#x7B26;&#x4E32;&#x683C;&#x5F0F;
col=['grade','subGrade','employmentTitle','homeOwnership','verificationStatus','purpose','issueDate_year','postCode','regionCode','earliesCreditLine_year','issueDate_month','earliesCreditLine_month','initialListStatus','applicationType']
for i in train.columns:
    if i in col:
        train[i] = train[i].astype('str')
for i in testA2.columns:
    if i in col:
        testA2[i] = testA2[i].astype('str')
&#x5212;&#x5206;&#x7279;&#x5F81;&#x53D8;&#x91CF;&#x4E0E;&#x76EE;&#x6807;&#x53D8;&#x91CF;
X=train.drop(columns='isDefault')
Y=train['isDefault']
&#x5212;&#x5206;&#x8BAD;&#x7EC3;&#x53CA;&#x6D4B;&#x8BD5;&#x96C6;
x_train,x_test,y_train,y_test=train_test_split(X,Y,test_size=0.2,random_state=123)
&#x6A21;&#x578B;&#x8BAD;&#x7EC3;
clf=CatBoostClassifier(
            loss_function="Logloss",
            eval_metric="AUC",
            task_type="CPU",
            learning_rate=0.1,
            iterations=300,
            random_seed=2022,
            od_type="Iter",
            depth=7)
result = []
mean_score = 0
n_folds=3
kf = KFold(n_splits=n_folds ,shuffle=True,random_state=2022)
for train_index, test_index in kf.split(X):
    x_train = X.iloc[train_index]
    y_train = Y.iloc[train_index]
    x_test = X.iloc[test_index]
    y_test = Y.iloc[test_index]
    clf.fit(x_train,y_train,verbose=300,cat_features=col)
    y_pred=clf.predict_proba(x_test)[:,1]
    print('&#x9A8C;&#x8BC1;&#x96C6;auc:{}'.format(roc_auc_score(y_test, y_pred)))
    mean_score += roc_auc_score(y_test, y_pred) / n_folds
    y_pred_final = clf.predict_proba(testA2)[:,-1]
    result.append(y_pred_final)
&#x6A21;&#x578B;&#x8BC4;&#x4F30;
print('mean &#x9A8C;&#x8BC1;&#x96C6;Auc:{}'.format(mean_score))
cat_pre=sum(result)/n_folds
&#x7ED3;&#x679C;
0:  total: 3.13s    remaining: 15m 35s
299:    total: 9m 15s   remaining: 0us
&#x9A8C;&#x8BC1;&#x96C6;auc:0.7388007571702323
0:  total: 2.08s    remaining: 10m 20s
299:    total: 9m 45s   remaining: 0us
&#x9A8C;&#x8BC1;&#x96C6;auc:0.7374681864389327
0:  total: 1.73s    remaining: 8m 38s
299:    total: 9m 22s   remaining: 0us
&#x9A8C;&#x8BC1;&#x96C6;auc:0.7402961974320663
mean &#x9A8C;&#x8BC1;&#x96C6;Auc:0.7388550470137438

说明：catboost能高效合理地处理类别型特征，只需要使用cat_features 参数指定分类特征即可，加入的类别特征越多，计算也越耗时，但效果也有一定提升。可以看出3次交叉验证跑完就耗时接近半小时，还只是在iterations=300的情况下，由于本人PC能力有限，所以参数方面就没有过多的调整测试，对于大数据目标变量的预测，交叉验证是必不可少的，可以通过训练集与测试集的不同划分，让模型进行更多的学习，同时通过每一次的预测结果最后平均，使结果更加稳定。

总结

1.关于样本平衡的问题，imbalanced_ensemble是个不错的尝试，该库有很多平衡样本的方法，本人已经试过OverBoostClassifier、BorderlineSMOTE、SPE的方法来平衡类别，过采样容易增加噪声，导致训练集表现不错，测试集一般，同时会导致小样本量预测失准，降采样容易导致对大样本量学习不足，但并不代表平衡样本的方法就不适用，还需要不断摸索。

2.对于缺失值的问题，一般都是数值型变量用中位数填充，类别变量用众数填充，还可以通过回归模型选取相关变量进行预测，可能会有惊喜。

3.此类风控预测如果能够结合业务人员的经验对变量进行筛选和补充，相信会有不一样的结果。

4.关于特征降维还有很多方法可以尝试，PCA只是其中一种，特征工程也是一个庞杂的体系，需要不断学习。

5.关于模型调参，可以适当提高预测精度，如果时间允许，可以组合测试参数。

6.参赛的过程大于结果，从中学到的知识和经验会为我今后大数据处理打下基础。

Original: https://blog.csdn.net/weixin_46685991/article/details/125836476
Author: wjzeroooooo
Title: 阿里云天池大数据长期赛：金融风控-贷款违约预测（含代码）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638819/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Transformer是什么？看完这篇你就醍醐灌顶

前言由谷歌团队提出的预训练语言模型BERT近年来正在各大自然语言处理任务中屠榜（话说学者们也挺有意思的，模型名都强行凑个芝麻街的人物名，哈哈哈）。 BERT算法的最重要的部分便是…

人工智能 2023年5月27日
0089
2021-11-23-GPU版本Tensorflow+Keras环境安装与配置

前言本文仅供备案使用，方便您日后查阅。已标记内容引用和引用。 [En] this article is only for record use, which is conveni…

人工智能 2023年5月24日
00102
从Anaconda到TensorFlow到Jupyter一路踩坑一路填平

1.安装anaconda可能遇到的坑下载地址：https://repo.continuum.io/archive/index.html我安装的Anaconda3-5.2.0，为了匹…

人工智能 2023年5月25日
0075
二分类模型的评价指标

性能指标的意义当我们在考虑评价分类模型好坏时，通常是采用一个测试数据集来测试模型。那么有哪些什么指标才能说明模型的好坏呢？最直接的想法是观察模型在测试数据集上的准确率，如果都正确…

人工智能 2023年6月4日
0082
车道线检测数据集介绍

1.Tusimple数据集特点：位于高速路，天气晴朗，车道线清晰，特点是车道线以点来标注。(ground_truth:json格式) （提供带有实例级车道注释的大规模图像数据。 …

人工智能 2023年7月27日
0076
【深度学习】(2) Transformer 网络解析，代码复现，附Pytorch完整代码

大家好，今天和各位分享一下如何使用 Pytorch 构建 Transformer 模型。本文的重点在代码复现，部分知识点介绍的不多，我会在之后的四篇博文中详细介绍 Encoder…

人工智能 2023年7月13日
0084
SPSS参数检验、非参数检验、方差分析

参数检验、非参数检验、方差分析 1.导语 2.参数检验 2.1 数据分布 * 2.1.1 正态分布 – 1.有总体数据 2.没有总体数据，用样本 3.统计参数 2.1….

人工智能 2023年7月15日
0088
知识问答领域方法概述

1. 构建模板的问答方法思想：人工构建大量带变量的问题模板，根据问题的相关部分选取模板形成查询表达式，查询结构化数据库以生成答案。后期有研究工作可以自动生成模板。优点：不需要…

人工智能 2023年6月1日
0080
手撕 CNN 经典网络之 VGGNet（PyTorch实战篇）

大家好，我是红色石头！在上一篇文章：详细介绍了 VGGNet 的网络结构，今天我们将使用 PyTorch 来复现VGGNet网络，并用VGGNet模型来解决一个经典的Kaggl…

人工智能 2023年7月22日
0067
强化学习—— 蒙特卡洛树（Monte Carlo Tree Search, MCTS）

强化学习—— 蒙特卡洛树（Monte Carlo Tree Search, MCTS） 1. 单一状态蒙特卡洛规划 * 1.1 特点 1.2 数学模型 2. 上限置信区间策略 3….

人工智能 2023年7月27日
0073
解决分类中样本分布不平衡问题

目录一、什么是样本分布不平衡二、哪些运营场景中容易出现样本不均衡三、怎么处理样本不均衡 1. 通过过采样或欠采样解决样本不均衡 2. 通过正负样本的惩罚权重解决样本不均衡 3…

人工智能 2023年6月30日
00118
windows使用GPU2060配置cuda11.1和pytorch

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、安装anaconda 二、安装cuda11.1 * 1.确定自己电脑显卡对应的cuda版本 2…

人工智能 2023年7月22日
0068
【深度学习】模型过拟合的原因以及解决办法

【深度学习】模型过拟合的原因以及解决办法 1、背景 2、模型拟合 3、简述原因 4、欠拟合解决办法 5、过拟合解决办法 1、背景所谓模型过拟合现象：在训练网络模型的时候，会发现模…

人工智能 2023年7月27日
0084
立体匹配（视差估计）评价指标（MiddleBurry、KITTI 2012、KITTI 2015、Scene Flow、ETH3D)

评估区域： dics(Depth Discontinuity Region)：视差不连续区域 all(All Region)：全部区域 non-occ（Non-Occlusion …

人工智能 2023年6月25日
0065
Brain:一种用于阿尔兹海默症(AD)分类的可解释的深度学习框架

《本文同步发布于”脑之说”微信公众号，欢迎搜索关注~~》阿尔茨海默病是全球范围内痴呆症的主要原因，随着人口老龄化，其发病率负担日益加重，可能超过诊断和管理能…

人工智能 2023年7月1日
00119
（名字不透露）电气制造智能车间可视化项目

某制造业企业 – 电气制造智能车间可视化项目 Wyn Enterprise 用户案例一、客户介绍某企业是一家专业生产各类工业电机及其自动化、微电机、家用电机、电源电…

人工智能 2023年6月11日
00107

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

阿里云天池大数据长期赛：金融风控-贷款违约预测（含代码）

2.1.读取数据

2.2.查看重复值

2.3.统计目标变量比例

2.4.查看数据的统计量

2.5.统计每个变量的种类

2.6.查看训练集与测试集的特征分布是否一致

2.7 查看数据相关性

3.1.分类变量处理

3.1.1 grade及subGrade处理

3.1.2 employmentLength处理

3.1.3 issueDate及earliesCreditLine处理

3.2 数值变量填充

3.3 保存数据

4.1 PCA主成分分析

4.2 Toad： 基于 Python 的标准化评分卡模型

4.2.1 toad_quality

4.2.2 toad.selection.select

4.2.3 psi：比较训练集和测试集的变量分布之间的差异

大家都在看

4.2 Toad：基于 Python 的标准化评分卡模型