python XGboost回归预测算法实现和原理讲解（比赛青睐）

2023年7月5日上午5:20 • 人工智能 • 阅读 171

对经典问题波士顿房价进行回归预测

交流学术思想，加入Q群号：815783932

一、加载波士顿数据集并观察数据的shape。

from sklearn.model_selection import train_test_split
def del_data():
    (train_data, train_targets), (test_data, test_targets) = boston_housing.load_data()
    print(train_data.shape)
    print(train_targets.shape)
    print(test_data.shape)
    print(test_targets.shape)

由图像可知道，波士顿训练集的房价特征集是404个 13个维度的特征集，测试集为102。

二、xgboost回归是否需要归一化

答案：否，xgboos底层还是根据决策树去做的，是通过最优分裂点进行优化的。和树有关的决策算法过程是不需要进行归一标准化的。

三、xgboost可调节参数

答案：任何一个机器学习的算法中都存在自己的Parameters，参数集可以调节。

XGboost的管方文档对于python的 api调用接口可以看下方的网址：

https://xgboost.readthedocs.io/en/latest/python/python_api.html

参数名解释含义max_depth-基本学习器的最大树深度, 通过这个值避免过拟合，默认值是6learning_rate-学习率，评价训练的速度，若值设置过低学习慢，设置低影响迭代最优值n_estimators-决策树的数量，这些都是决定过拟合和欠拟合objective-基于此函数去进行求解最优化回归树gamma-惩罚项系数，指定节点分裂所需的最小损失函数下降值alpha-L1正则化系数……-……

从官方文档中能看到可以调节的参数有非常的多，但是在实际试验中，调用算法除了较为重要的一些参

数可以采用网格搜索的方法进行调参，其他系数，若没有强大的数学功底和理解底层的思想，用默认的

参数就是最有的解。

max_depth,learning_rate,n_estimators 是可以调节的参数。

四、下面是代码实现的过程

from sklearn.metrics import mean_squared_error
import xgboost as xgb
from keras.datasets import boston_housing

def main():
    (train_data, train_targets), (test_data, test_targets) = boston_housing.load_data()

    model = xgb.XGBRegressor(max_depth=6,learning_rate=0.05,n_estimators=100,randam_state=42)
    model.fit(train_data,train_targets)
    test_predict=model.predict(test_data)
    train_predict = model.predict(train_data)

    msetest=mean_squared_error(test_targets,test_predict)
    msetrain=mean_squared_error(train_targets,train_predict)
    print(msetest)
    print(msetrain)
    print(test_targets)
    print(abs(test_predict-test_targets))

model 是构建的模型。通过对训练集的学习来做对未来的预测。
msetest，msetrain是你自己的评估结果可以通过这两个值来判断你的模型构建是否优秀。
msetest 是模型对测试集预测得到结果的mse值， msetrain 是模型对训练集预测得到结果的mse值。

由此能看出，在训练集表现的非常好，测试集表现还比较差。需要通过优化模型来进行调参。这里我就

不做累述去调参，后期会更新如何调参的文章，这篇主要是说原理。

五、原理通俗解释。

obj是目标函数，整个算法就是通过最优化这个目标函数来实现的。

这个是正则项为了防止模型的复杂度，抑制模型复杂度。

这个的优化，本算法采取已知第t-1步回归树的形成，去推导第t步回归树的形成，进而可以优化目标函数。

优化到这样的形式，具体也可以看官方文档和论文讲的非常详细，我就是从简单理解和实现的角度去讲述。

最终的展示结果为

六、简单理解

其实就是根据决策树的思想将n个样例m个特征，划分每一个特征的回归决策树，找到最优点进行分割，最终得到n个样例m个特征的最优划分点。由最初迭代至最终的算法。
整体的思路框架大概就是这样的。欢迎讨论
文章不易希望能够。。。。。。。。。。。。

Original: https://blog.csdn.net/weixin_47324594/article/details/120819585
Author: 普普通通研究生学代码
Title: python XGboost回归预测算法实现和原理讲解（比赛青睐）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/671158/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一文让你完全弄懂逻辑回归和分类问题实战《繁凡的深度学习笔记》第 3 章分类问题与信息论基础（上）（DL笔记整理系列）

好吧，只好拆分为上下两篇发布了>_< 终于肝出来了，今天就是除夕夜了，祝大家新快乐！^q^ 《繁凡的深度学习笔记》第 3 章分类问题与信息论基础（上）（逻辑回归、S…

人工智能 2023年7月1日
0090
lombok插件各个注解介绍

内容參考網址：https://blog.csdn.net/sunsfan/article/details/53542374 文章目录 lombok插件各个注解介绍 * 一、IDEA…

人工智能 2023年6月26日
0084
使用 Python 第三方库 xlrd 读取 Excel 中的数据

使用 Python 第三方库 xlrd 读取 Excel 中的数据 1. 安装 xlrd 库 2. 使用 xlrd 库 * 2.1 打开 Excel 工作表对象 2.2 读取单个单…

人工智能 2023年7月5日
0080
TimedCache 带时间缓存工具类，附加监听回调 | Java工具类

简述我们在工作中会碰到需要使用带过期时间的缓存场景。但是使用redis有太重了，毕竟缓存的数据很小，放在内存够够的。hutools提供了TimedCache时间缓存工具，可以实现…

人工智能 2023年6月4日
0070
使用yolov5训练自己的数据集（苹果成熟度检测）

先从Github上下载YOLOv5，下载好解压配置好就可以使用，地址： https://github.com/ultralytics/yolov5 1.训练数据集的准备工作在yo…

人工智能 2023年7月9日
0050
【综述】一文读懂卷积神经网络(CNN)

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Netwo…

人工智能 2023年7月28日
0049
Python基本数据类型字符串操作总结

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月5日
0065
图像处理(1)灰度直方图实验

文章目录 * – + 直方图的基础： + * 一、定义 * 二、特征 * 三、形成灰度直方图实验直方图的基础：一、定义以空间位置(x,y)为自变量的二维函数f(x…

人工智能 2023年6月21日
0066
Transformer、BERT等模型学习笔记

记录一下刷B站教学视频的一些笔记，目前主刷：李沐老师的【跟李沐学AI】公众号-【NLP从入门到放弃】的视频文章目录 1 Transformer从零详细解读(可能是你见过最通…

人工智能 2023年5月28日
0058
Ubuntu Linux 安装配置JDK17开发环境

Ubuntu Linux 安装配置JDK17开发环境 1、查看linux系统信息，并升级系统 $ cat /etc/os-release$ lsb_release -a$ unam…

人工智能 2023年6月10日
0072
【交互作用】01. 加法交互 & 乘法交互(R包 epiR)

【交互作用】01. 加法交互 & 乘法交互 [R包 epiR] 1. 交互作用概述 2. 二分类解释变量交互作用 * 2.1 相乘交互作用 2.2 相加交互作用 2.3 计…

人工智能 2023年6月16日
0065
matlab目标跟踪目标检测项目系统源码合集【33套】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0070
C++调用OpenCV实现图像反转处理

1 前言我们有时会看到这样的一幅图像或图片其对应的原图是上边图片转换过程叫做图像反转，其目的就是增强了图像的暗区中白色或灰色的细节，特别是原图中的阴影黑色区域。原理就是用值…

人工智能 2023年7月18日
0066
如何处理图像数据的尺寸变化问题？例如，如何处理输入图片大小不一致的情况

如何处理图像数据的尺寸变化问题？在图像处理领域，处理输入图像的尺寸变化是一个常见的问题。当我们处理图像分类、目标检测、图像生成等任务时，输入的图像往往具有不同的尺寸。为了解决这个…

人工智能 2024年1月5日
0049
数据导入和整理模块—pandas

pandas 前言 (一)、Series创建一维数组 (二)、二维数组表格DataFrame的创建与索引的修改 * 一、DataFrame的创建 – 1、通过列表来创建…

人工智能 2023年7月8日
0091
Mythril自动化测试智能合约并进行分类存储

1、Mythril介绍 mythril工具是由以太坊开源社区所提供的安全分析工具，并且它是免费的，能够检测出Solidity智能合约中的安全漏洞并实现深入分析，是用以分析以太网智能…

人工智能 2023年6月30日
00104

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python XGboost回归预测 算法实现和原理讲解（比赛青睐）

对经典问题 波士顿房价进行回归预测

交流学术思想，加入Q群 号：815783932

大家都在看

python XGboost回归预测算法实现和原理讲解（比赛青睐）

对经典问题波士顿房价进行回归预测

交流学术思想，加入Q群号：815783932