2021 CCF大数据与计算智能大赛个贷违约预测top 73 解决方案

2023年7月15日下午1:05 • 人工智能 • 阅读 73

这是我第二次参加大数据类型的竞赛，也是第一次接触金融类的题目，这一题可以称作CCF BDCI这一年的究极卷王题，3200个队伍参加，1300多个队伍提交，比其他赛题多了几倍，最后尽力也只拿下B榜73/3246的名次。
在次记录自己的解题过程以及所思所想。
赛题地址：https://www.datafountain.cn/competitions/530

; 二、解题过程

2.1 数据

本次的数据由3个表组成，分别为个人贷款违约记录数据train_public.csv，某网络信用贷产品违约记录数据train_internet_public.csv，测试集test_public.csv。
数据说明请参考：https://www.datafountain.cn/competitions/530/datasets

通过查看数据，我们可以得知，这三个表可以大致理解为：和测试集分布较为接近的训练集（一万条）train_public，和测试集分布不同的训练集补充train_inte（70多万条），测试集。
很显然，本题的意思在于从补充测试集中找寻合适的数据扩充到原本的数据集中进行训练，然后预测提分，怎么样找到合适的数据成为本题的关键。

对于原始的数据，有一些初步的处理：

对于时间类型的数据，转化为统一的time格式，并可以细化为年，月，周等
对于string类型表达的数据，如工作类型等编码为数字类型
将空值用均值进行填充

对三张表均进行上述操作，构建最基本的三张表

2.2 构建基线

参考社区分享的基线，构建LGBM模型

        clf = LGBMClassifier(
            n_estimators=4000,
            learning_rate=0.03,
            num_leaves=2 ** 5,
            colsample_bytree=.65,
            subsample=.9,
            max_depth=5,

            reg_alpha=.3,
            reg_lambda=.3,
            min_split_gain=.01,
            min_child_weight=2,
        )

首先测试仅将train_public一万条数据导入lgbm中进行训练并测试，采用5折交叉验证，最终的结果为0.8786，这即为最初的基线，在我看来，跑通代码是比赛的第一步，也是较为关键的一步o(╥﹏╥)o

2.3 进阶思路一

同样参考社区提出的方法，第一个思路在于先使用train_public训练lgbm，然后使用训练得到的lgbm预测扩充数据集train_inte，设定一个筛选阈值，从中选择预测较为准确的样本。举个例子，我们根据原始训练集训练了lgbm，然后使用该lgbm预测train_inte，发现预测值

Original: https://blog.csdn.net/qq_43601378/article/details/121892074
Author: 锌a
Title: 2021 CCF大数据与计算智能大赛个贷违约预测top 73 解决方案

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/694316/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【踩坑教程】win10环境下RTX3050Ti安装Tensorflow-gpu2.5+CUDA11.2.1+cudnn8.1.0

人工智能 2023年5月26日
0065
v-on的修饰符

1.stop修饰符的使用——阻止冒泡事件按钮 const app=new Vue({ el:"#app", data://注意此处的花括号 { message…

人工智能 2023年6月26日
0079
深度学习五大神经网络 1

深度学习五大神经网络（CNN、RNN、GAN、GNN、LSTM）参考7-前向传播整体流程_哔哩哔哩_bilibili 目录一、深度学习要解决的问题二、计算机视觉任务 ◼ 图形分…

人工智能 2023年7月14日
0071
【目标检测】YOLOv5遇上知识蒸馏

前言模型压缩方法主要4种：网络剪枝(Network pruning) 稀疏表示(Sparse representation) 模型量化(Model quantification…

人工智能 2023年7月25日
0054
Java之JvisualVM简介

一、工具： JvisualVM，安装JDK时自带的，不需要额外安装；下面条目展示在本地使用的步骤。二、打开方法： 1、本地启动Java服务后，保持运行；打开终端，输入jps命令回…

人工智能 2023年6月28日
0064
史上最全解决ModuleNotFoundError: No module named ‘cv2‘等错误

解决 ModuleNotFoundError: No module named ‘XXXXX’ 以opencv为例子，别的错误类似解决：在安装opevnc…

人工智能 2023年6月18日
0072
Pytorch3D Linux环境下安装（踩坑）记录

Pytorch3D Linux环境下安装（踩坑）记录文章目录一、准备工作二、极简安装（Installing prebuilt binaries） 1.创建环境 2.安装Pyt…

人工智能 2023年6月24日
0070
[阅读记录]《数据分析师求职面试指南》-2

又是写在前面的一些碎碎念，大家都去读这本书！！(●’◡’●) 第三章基础知识考察统计及数据分析知识假设检验贝叶斯统计概览模型及数据挖掘知识第四章…

人工智能 2023年6月11日
00157
【云原生 Kubernetes】基于 Minikube 搭建第一个k8s集群

对于k8s来说，搭建方式有多种，如果是生产环境，一般来说，至少需要3台节点确保服务的高可用性，常用的搭建方式列举如下（提供参考）： kubeadm搭建（推荐）一个K8s部署工具，…

人工智能 2023年7月30日
0043
知识图谱：图数据库neo4j安装与使用

知识图谱知识图谱：在Linux中安装图数据库neo4j * 前言一. 下载 – + 1. 国外官网（不推荐，下载速度慢）： 2. 国内下载官网： * –…

人工智能 2023年6月10日
00112
Construction and exploitation of an historical knowledge graph to deal with the evolution of ontolog

名称：Construction and exploitation of an historical knowledge graph to deal with the evoluti…

人工智能 2023年6月1日
0081
Packet Tracer – 在单区域中配置 OSPFv2

地址分配表设备接口 IP 地址子网掩码默认网关 R1 G0/0 172.16.1.1 255.255.255.0 不适用 S0/0/0 172.16.3.1 255.255…

人工智能 2023年6月26日
0057
【力扣题解】石子游戏

🔗 题目链接题目描述 Alice 和 Bob 用几堆石子在做游戏。一共有偶数堆石子，排成一行；每堆都有正整数颗石子，数目为 piles[i] 。游戏以谁手中的石子最多来决…

人工智能 2023年6月28日
00133
MD5计算，一个扩展类，哪里都能用

最近有同学问到如何计算一个字节数组的MD5值，现在分享一个扩展类，有了它，MD5计算再也不用其他了。先看示例： csharp;gutter:true; string s = &q…

人工智能 2023年6月4日
0059
知识蒸馏(Knowledge Distillation)

知识蒸馏(Knowledge Distillation) 从大型、深层的教师网络中提炼知识并转移到小型、简单的学生网络中更深更广→更浅更薄 ; 知识(Knowledge) 基于响…

人工智能 2023年6月1日
0061
halcon 条形码识别（持续更新）

达到识别目的的最简化结构 *创建条码识别&amp…

人工智能 2023年6月20日
0060

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

2021 CCF大数据与计算智能大赛个贷违约预测top 73 解决方案

目录

2.1 数据

2.2 构建基线

2.3 进阶思路一

大家都在看