使用OPTUNA对LightBGM自动调试参数，并进行绘图可视化

2023年6月6日下午4:40 • 人工智能 • 阅读 118

1.optuna基本使用

Optuna是一个自动帮助我们调试参数的工具，使用起来十分方便。比sklearn的gridsearchcv好用很多，一是因为optuna相比于sklearn能够快速进行调参，二是因为它可以将调试参数的过程进行可视化。同时可以如果没训练完，下次继续训练。而optuna内部使用贝叶斯调试参数的机制，可以在最短的时间之内，给我们一个较为优秀的结果，甚至可能会得到一个最优的结果。我们可以根据贝叶斯调参给我们确定的参数范围，自行使用gird search再次验证最佳参数，当然这在大部分情况下没必要了。

我们首先先在函数里使用k折交叉验证，这里使用5折交叉验证，对我们的结果进行优化，当然你也可以使用10折交叉验证。

在函数train_model_category当中，我们一共有三个参数，trail，data，y。trail是optuna自带的一个传入参数，我们在调用train_model_category会使用到它。data是我们训练集的数据，y是训练集的label。函数return的变量则是当前k折交叉验证得到的一个auc（accuracy）的值，因此你可以在这里完全自定义你用来评价的指标，可以是 auc，mse，也可以是 accuracy均可。optuna完全是一个开放的框架。

在我们的字典 param_grid当中，传入了lightbgm常用的参数，

其中，例如：

"n_estimators": trial.suggest_int("n_estimators", 5000,10000,step=1000),

这里使用调试了n_estimator的参数，suggest_int表示我们在后面的参数是int型变量。因为有些参数可能是小数，也就是浮点型的数据，这个时候我们就需要考虑使用 suggest_float 了。step表示，参数可以从5000-10000之间波动，每一次波动的step为1000.因此我们的n_estimator的参数可能的范围是（5000，6000，7000，8000，9000，10000）.

import optuna
from optuna.integration import LightGBMPruningCallback

from sklearn.model_selection import KFold

def train_model_category(trial,data_,y_):   #使用sklearn建立fold
    folds_ = KFold(n_splits=5, shuffle=True, random_state=546789)
    param_grid = {
        "n_estimators": trial.suggest_int("n_estimators", 5000,10000,step=1000),
        "learning_rate": trial.suggest_float("learning_rate", 0.01, 0.3,step=0.05),
        "num_leaves": trial.suggest_int("num_leaves", 2**2, 2**5, step=4),
        "max_depth": trial.suggest_int("max_depth", 3, 12,step=2),
        "min_data_in_leaf": trial.suggest_int("min_data_in_leaf", 200, 10000, step=100),
        "lambda_l1": trial.suggest_int("lambda_l1", 0, 100, step=5),
        "lambda_l2": trial.suggest_int("lambda_l2", 0, 100, step=5),
        "min_gain_to_split": trial.suggest_float("min_gain_to_split", 0, 15),
        "bagging_fraction": trial.suggest_float("bagging_fraction", 0.2, 0.95, step=0.1),
        "bagging_freq": trial.suggest_categorical("bagging_freq", [1]),
        "feature_fraction": trial.suggest_float("feature_fraction", 0.2, 0.95, step=0.1),
        "colsample_bytree":trial.suggest_float("colsample_bytree", 0.2, 0.9, step=0.1),
        "subsample":trial.suggest_float("subsample", 0.2, 1, step=0.1),
        "reg_alpha":trial.suggest_float("reg_alpha", 0.2, 1, step=0.1),
        "random_state": 2021,
    }
    oof_preds = np.zeros(data_.shape[0])
    sub_preds = np.zeros(test_.shape[0])
    feature_importance_df = pd.DataFrame()　　#这里去除无关的特征，load id，user id，is default
    feats = [f for f in data_.columns if f not in ['loan_id', 'user_id', 'isDefault'] ]
    for n_fold, (trn_idx, val_idx) in enumerate(folds_.split(data_)):
        trn_x, trn_y = data_[feats].iloc[trn_idx], y_.iloc[trn_idx]
        val_x, val_y = data_[feats].iloc[val_idx], y_.iloc[val_idx]
        clf = LGBMClassifier(**param_grid)

        clf.fit(trn_x, trn_y,
                eval_set= [(trn_x, trn_y), (val_x, val_y)],
                eval_metric='auc', verbose=100,
                early_stopping_rounds=40  #30
               )

        oof_preds[val_idx] = clf.predict_proba(val_x, num_iteration=clf.best_iteration_)[:, 1]　　　　 del clf, trn_x, trn_y, val_x, val_y
        gc.collect()

    print('Full AUC score %.6f' % roc_auc_score(y, oof_preds))

    return roc_auc_score(y, oof_preds)

然后定义优化函数：

study = optuna.create_study(direction="maximize", study_name="LGBM Classifier")
func = lambda trial: train_model_category(trial,train, y)
study.optimize(func, n_trials=20)

这里传入的参数trial，train和y。同时自定义 direction=”maximize”，如果是mse，则可以定义为 “minimize”。

现在运行代码，就可以调试参数啦！

2.optuna超参数空间可视化

首先导入相关的包：

from optuna.visualization import plot_contour
from optuna.visualization import plot_edf
from optuna.visualization import plot_intermediate_values
from optuna.visualization import plot_optimization_history
from optuna.visualization import plot_parallel_coordinate
from optuna.visualization import plot_param_importances
from optuna.visualization import plot_slice

绘制参数优化的历史图像：

plot_optimization_history(study)

绘制参数之间高纬度关系：

#绘制高纬关系
plot_parallel_coordinate(study)

绘制经验分布函数：

#绘制经验分布函数
plot_edf(study)

这就是今天的optuna绘制教程啦！觉得有收获的别忘记点下方的赞和推荐呀！

Original: https://www.cnblogs.com/geeksongs/p/15580209.html
Author: Geeksongs
Title: 使用OPTUNA对LightBGM自动调试参数，并进行绘图可视化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/576929/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

阿里云天池task4

数据分析首先task4是一个项目做一个数据分析的题目是关于2020美国选举的。数据集所有候选人信息 CAND_ID 候选人IDCAND_NAME 候选人姓名CAND_PTY_AF…

人工智能 2023年7月17日
0052
ubuntu20.04+cuda11+kaldi 安装

方案：ubuntu20.04+cuda11+kaldi 本人多次安装实践总结，安装kaldi最佳时间为北京时间早上6点-9点，这段时间安装成功率最高，不会遇到卡死，断网，下载包失…

人工智能 2023年5月25日
0071
高通modem启动过程_cdma voice call 通话过程涉及模块分析

Voice Software Architecture MSM 8996平台为了支持多模语音，新设计了Voice Agent、Voice Adapter、IMS Voice Ada…

人工智能 2023年5月27日
0097
pandas 实现无关联key数据交叉连接（cross join）

有两个数据帧，分别有一列col1，col2，他们没有相同的key： left = pd.DataFrame({‘col1’ : [‘A’, ‘B’, ‘C’]}) right = …

人工智能 2023年7月8日
0068
长期稳定的项目—steam搬砖

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月30日
0050
[GNN图神经网络]普通邻接矩阵和 Adjacency Matrix 与 COO稀疏矩阵（edge_index, 和edge_w）相互转化

导言: 本文主要使用Pytorch 和 Numpy 实现图的 Adjacency Matrix 与 COO稀疏矩阵（edge_index, 和edge_w）相互转化 1. 图的两种…

人工智能 2023年7月13日
0056
K-Means聚类分析广告投放效果的改进（数据标准化、最佳K值的确定）

业务场景：甲公司投放广告的渠道很多，每个渠道的客户性质也可能不同，比如在优酷视频投广告和今日头条投放广告，效果可能会有差异。现在需要对广告效果分析实现有针对性的广告效果测量和优化工…

人工智能 2023年6月16日
0076
语音识别入门第一节：语音识别概述

目录语音识别的定义语音识别的重要性语音交互语音识别的挑战性语音识别的发展历史语音识别的深度学习时代现代语音识别框架语料库与工具包语音识别的定义语音识别：Auto…

人工智能 2023年6月24日
0081
ImageNet1K的下载与使用

0、前言 2、val集 * 2.1 下载 2.2 处理 0、前言 ImageNet不用多说，它包含了非常多的图片，总共有2w多个分类，但是显然太多。所以一般更常用的是ImageNe…

人工智能 2023年6月23日
0081
[附源码]计算机毕业设计JAVAssm实验教学资源管理系统

[附源码]计算机毕业设计JAVAssm实验教学资源管理系统项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstorm也…

人工智能 2023年6月29日
0075
【数学建模】最小二乘回归+Java代码实现

文章目录一、最小二乘法的历史二、最小二乘法的原理三、最小二乘法的公式四、Java代码实现最小二乘法五、输出预测结果一、最小二乘法的历史 1801年，意大利天文学家朱赛普…

人工智能 2023年6月18日
0073
数据投毒攻防对抗技术-1.数据投毒简介

文章目录前言课程简介大数据和机器学习 * 大数据机器学习大数据和机器学习结合大数据和机器学习潜在的安全威胁 * 数据分析流程机器学习流程及安全威胁数据投毒 * 什么…

人工智能 2023年6月25日
0088
卷积神经网络进行Boston房价预测

Boston房价预测问题常采用多元线性回归，或者采用前馈神经网络，我这篇博客是采用卷积神经网络的，就是想看一下，卷积神经网络对此类问题的效果。卷积神经网络（Convolutiona…

人工智能 2023年7月13日
0079
B产品的分析

%matplotlib inline import numpy as np import pandas as pd import matplotlib.pyplot as plt …

人工智能 2023年7月17日
0057
python数据框常用操作_python pandas dataframe基本使用整理

dataframe是一种表格型的数据存储结构，可以看作是几个serie的集合。dataframe既有行索引，也有列索引。以下代码环境为google colab/jupyter n…

人工智能 2023年7月8日
0065
机器学习之过拟合和欠拟合

文章目录前言什麽是过拟合和欠拟合? 过拟合和欠拟合产生的原因： * 欠拟合(underfitting)：过拟合(overfitting)：解决欠拟合(高偏差)的方法 * &…

人工智能 2023年7月31日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用OPTUNA对LightBGM自动调试参数，并进行绘图可视化

1.optuna基本使用

2.optuna超参数空间可视化

大家都在看