【sklearn学习】集成算法之XGBoost

2023年7月15日上午2:06 • 人工智能 • 阅读 58

XGBoost是一个以提升树为核心的算法系统

XGBoost中包含Boosting三要素

损失函数：用以衡量模型预测结果与真实结果的差异
弱评估器：决策树，不同的boosting算法使用不同的建树流程
综合集成结果：集成算法具体如何输出集成结果

原生代码必须使用XGBoost自定义的数据结构DMatrix，能够保证xgboost算法运行更快，并且能够迁移到GPU上运行。

以字典形式设置参数

使用xgboost中自带的方法xgb.train或xgb.cv进行训练

lightgbm原生接口
import xgboost as xgb
基于scikit-learn接口
from xgboost import XGBClassifier
from xgboost import XGBRegressor

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_absolute_error, mean_squared_error
import pandas as pd
import numpy as np
from sklearn.model_selection import KFold

from sklearn.datasets import load_boston, load_breast_cancer, load_wine
import warnings
warnings.simplefilter("ignore")
bonston = load_boston()
cancer = load_breast_cancer()
wine = load_wine()

data_train, data_test, target_train, target_test = train_test_split(cancer.data, cancer.target, test_size = 0.2, random_state = 0)

params = {
    'eta': 0.02,  #lr
    'max_depth': 6,
    'min_child_weight':3,#最小叶子节点样本权重和
    'gamma':0, #指定节点分裂所需的最小损失函数下降值。
    'subsample': 0.7,  #控制对于每棵树，随机采样的比例
    'colsample_bytree': 0.3,  #用来控制每棵随机采样的列数的占比 (每一列是一个特征)。
    'lambda':2,
    'objective': 'binary:logistic',
    'eval_metric': 'auc',
    'silent': True,
    'nthread': -1
}

xgb_train  = xgb.DMatrix(data_train, target_train)
xgb_test = xgb.DMatrix(data_test, target_test)
xgb_model = xgb.train(dtrain = xgb_train, params=params)
xgb_predict = xgb_model.predict(xgb_train)
xgb_predict[xgb_predict > .5] = 1
xgb_predict[xgb_predict

data_train, data_test, target_train, target_test = train_test_split(wine.data, wine.target, test_size = 0.2, random_state = 0)

params = {
    'eta': 0.02,  #lr
    'num_class':3,
    'max_depth': 6,
    'min_child_weight':3,#最小叶子节点样本权重和
    'gamma':0, #指定节点分裂所需的最小损失函数下降值。
    'subsample': 0.7,  #控制对于每棵树，随机采样的比例
    'colsample_bytree': 0.3,  #用来控制每棵随机采样的列数的占比 (每一列是一个特征)。
    'lambda':2,
    'objective': 'multi:softmax',
    'eval_metric': 'mlogloss',
    'silent': True,
    'nthread': -1
}

xgb_train  = xgb.DMatrix(data_train, target_train)
xgb_test = xgb.DMatrix(data_test, target_test)
xgb_model = xgb.train(dtrain = xgb_train, params=params)
xgb_predict = xgb_model.predict(xgb_train)
xgb_test_pred = xgb_model.predict(xgb_test)

data_train, data_test, target_train, target_test = train_test_split(bonston.data, bonston.target, test_size = 0.2, random_state = 0)

params = {
  'eta': 0.02,  #lr
  'max_depth': 6,
  'min_child_weight':3,#最小叶子节点样本权重和
  'gamma':0, #指定节点分裂所需的最小损失函数下降值。
  'subsample': 0.7,  #控制对于每棵树，随机采样的比例
  'colsample_bytree': 0.3,  #用来控制每棵随机采样的列数的占比 (每一列是一个特征)。
  'lambda':2,
  'objective': 'reg:linear',
  'eval_metric': 'rmse',
  #   'silent': True,
  'nthread': -1}

xgb_train  = xgb.DMatrix(data_train, target_train)
xgb_test = xgb.DMatrix(data_test, target_test)
xgb_model = xgb.train(dtrain = xgb_train, params=params, num_boost_round=100)
xgb_train_predict = xgb_model.predict(xgb_train)
train_mae_score = mean_absolute_error(xgb_train_predict, target_train)
print('train mae score:', train_mae_score)
xgb_test_predict = xgb_model.predict(xgb_test)
test_mae_score = mean_absolute_error(xgb_test_predict, target_test)
print('test mae score:', test_mae_score)

result = xgb.cv(params, xgb_train, num_boost_round=300, nfold=5, seed=2022)

plt.figure(dpi=90)
plt.plot(result["train-rmse-mean"])
plt.plot(result["test-rmse-mean"])
plt.legend(["train","test"])
plt.title("xgboost 5 fold cv")

XGBoost的目标函数

经验风险：模型对数据学习越深入，损失越小（经验风险越小），模型对数据学习越浅显，损失越大（经验风险越大）

结构风险：树结构越复杂，模型复杂度越高，过拟合风险越大（结构风险越大），树模型结构越简单，模型复杂度越低，过拟合风险越小（结构风险越小）

叶子权重：是XGBoost数学体系中非常关键的因子，实际上就是当前叶子j的预测值

参数gamma：调大gamma可以控制过拟合

XGBoost默认使用L2正则化

参数alpha和lambda：调大这两个参数可以控制过拟合

参数作用num_boost_round集成算法中弱分类器数量，对Boosting算法而言为实际迭代次数etaBoosting算法中的学习率，影响弱分类器结果的加权求和过程objective选择需要优化的损失函数base_score初始化预测结果H0的设置max_delta_step一次迭代中所允许的最大迭代值gamma乘在叶子数量前的系数，放大可控制过拟合lambdaL2正则化系数，放大可控制过拟合alphaL1正则化系数，放大可控制过拟合

弱评估器的分枝

XGBoost使用的弱评估器是改进后的CART树，在CART树的基础上，XGBoost创新的全新的分枝策略：结构分数和结构分数增益，保证CART树向减小目标函数的方向增长。

类型参数迭代过程/目标函数弱评估器结构CART树弱评估器的训练数据提前停止其它

控制复杂度：弱评估器的剪枝

min_child_weight：被广义理解为任意节点上所允许的样本量，如果一个节点上的样本量小于该参数中设置的值，该节点就会被剪枝，min_child_weight越大，模型越不容易过拟合

gamma：允许分枝的最低结构分数增益，当分枝时结构增益不足gamma中设置的值，该节点被剪枝。gamma在剪枝中的作用相当于sklearn 中的min_impurity_

参数lambda和alpha：正则化系数，位于结构分数中间接影响树的生长和分枝

弱评估器的训练数据

样本的抽样

subsample：对样本进行抽样的比例，默认为1

sampling_method：对样本进行抽样时所使用的抽样方法，默认均匀抽样

特征的抽样

colsample_bytree

colsample_bylevel

colsample_bynode

类型参数booster选择迭代过程中的弱评估器类型，包括gbtree、DART和线性模型sample_typeDART树中随机抽样树的具体方法rate_dropDART树中使用的抛弃率one_drop每轮迭代时至少需要抛弃的树的数量skip_drop在迭代中不进行抛弃的概率normalized_type根据被抛弃的树的权重控制新增树权重max_depth允许的弱评估器的最大深度min_child_weight广义上叶子节点上的最小样本权重/最小样本量gamma目标函数中叶子数量T的系数，同时也是分枝所需的最小结构分数增益值lambda与alpha正则项系数，同时也位于结构分数的公式中，间接影响模型的剪枝sample_type对样本进行抽样的具体方式subsample对样本进行抽样的具体比例

colsample_bytree,

colsample_bylevel,

colsample_bynode

在建树过程中对特征进行抽样的比例

Original: https://blog.csdn.net/qq_41807261/article/details/123969995
Author: jaeden_xu
Title: 【sklearn学习】集成算法之XGBoost

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/693321/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

人工智能 —— 知识图谱

引言初学者刚开始学习人工智能时，面对铺天盖地的概念，如，人工智能、机器学习、深度学习、计算机视觉等等，一时间可能就被这些”高深”的名称给唬住了，不知道如何…

人工智能 2023年7月26日
0069
12.帖子模块——使用peewee创建多表关联的结构,使用Tornado创建查询接口、增加接口

1.模型建立与数据初始化 1.1分析建立表所需要的字段本次主要是添加一个帖子展示时，所需要的内容，这里就得创建一个mysql的数据表去存储它的内容。 ; 1.2 使用peewee…

人工智能 2023年6月28日
0077
java 连接janusgraph_JanusGraph技术总结

1 图数据库现状图数据库产品可以分为原生和多模两类。原生指专门针对图数据存储和计算研发的产品，包括neo4jjanusGraph等，多模指多个大厂推出的数据库产品中能够兼容处理图…

人工智能 2023年6月1日
0063
数据可视化实战：数据处理

电影数据集处理数据拆分 * 数据的读取数据的分割行列的转换索引的重置列的替换缺失值填充分组计算数据去重条件排序新增一列数据拆分在电影数据集的数据可视化实战中…

人工智能 2023年6月19日
0086
使用亚博智能K210实现人脸特征提取和识别

使用亚博智能K210实现人脸特征提取和识别亚博智能K210开发板自带有使用C语言编程实现的人脸检测代码，即可以检测到摄像头范围内的人脸并将人脸框定出来，不能实现人脸的特征提取和人…

人工智能 2023年5月26日
0076
OpenCV中Mat对象及其创建

在opencv中，Mat用来存储图像的数据结构。由两部分构成：矩阵头：包含矩阵尺寸、存储方法和存储地址等信息指针：一个指向存储所有像素值的矩阵的指针 002程序： #includ…

人工智能 2023年7月20日
0076
成分句法分析&依存文法分析

Syntactic Structure 句法结构其实是语言学中非常重要的一个分支。同样，在NLP领域，句法结构也是很重要的。如果能在模型中考虑到句法特征，那么对于例如说文本生成任务…

人工智能 2023年6月1日
00104
02 【nodejs开发环境安装】

02 【nodejs开发环境安装】 1.版本介绍在命令窗口中输入 node -v 可以查看版本 0.x 完全不技术 ES6 4.x 部分支持 ES6 特性 5.x 部分支持ES6…

人工智能 2023年6月28日
0070
#Paper Reading#Contrastive Learning for Representation Degeneration Problem in Sequential Recommenda

论文题目：Contrastive Learning for Representation Degeneration Problem in Sequential Recommenda…

人工智能 2023年7月17日
0049
手机进销存网站

开发工具(eclipse/idea/vscode等)：数据库(sqlite/mysql/sqlserver等)：功能模块(请用文字描述，至少200字)：功能模块包括：员工模块、手…

人工智能 2023年7月31日
0064
使用Pytorch框架自己制作做数据集进行图像分类（二）

第二章：Pytorch框架构建残差神经网络(ResNet) 第一章： Pytorch框架制作自己的数据集实现图像分类第二章： Pytorch框架构建残差神经网络(ResNet)第三…

人工智能 2023年6月18日
0055
[机器学习] 一文了解欠拟合与过拟合

过拟合：在模型训练中，如果一味追求对训练数据拟合的准确性，所得到的模型往往参数过于复杂，此时的模型学习能力太强，以至于将训练集单个样本自身的特点都能捕捉到，并将其认为是&#822…

人工智能 2023年7月17日
0073
Python百日进阶-数据分析】Day111 – PowerBI Desktop – 起式

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月11日
0064
【人工智能】无人车系统仿真软件-PreScan

自重驾驶的核心不是传感器，不是导航、不是自动控制，而是仿真。——无水先生一、前言二、计算机仿真器软件 2.1 常见仿真器种类 Original: https://blog.cs…

人工智能 2023年7月28日
0056
今天面了个阿里拿27k出来的小哥，让我见识到了什么是天花板

2022年堪称大学生就业最难的一年，应届毕业生人数是1076万。失业率超50%！但是我观察到一个数据，那就是已经就业的毕业生中，计算机通信等行业最受毕业生欢迎！计算机IT行业薪资…

人工智能 2023年7月29日
0048
利用朴素贝叶斯原理过滤垃圾邮件（TF-IDF算法）

本人是新手，为了还原该过程用了自己的方法，可能时间复杂度较高，并且在训练数据时也没有用到SKlearn模块中的贝叶斯分类器，是为了尝试自己去还原求后验条件概率这个过程。目录一、…

人工智能 2023年7月5日
0041

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【sklearn学习】集成算法之XGBoost

大家都在看