机器学习——梯度提升决策树（GBDT）

2023年6月25日下午12:45 • 人工智能 • 阅读 104

相关文章链接：

机器学习——决策树（decision tree）

机器学习——随机森林（Random forest）

机器学习——XGboost模型

一、提升树（Boosting Decision Tree ）

提升树（Boosting Decision Tree）是以CART决策树为基学习器的集成学习方法。

GBDT提升树

提升树实际上就是加法模型和前向分布算法，表示为：

在前向分布算法第m步，给定当前的模型fm-1（x），求解：

得到第m棵决策树

。不同问题的提升树的区别在于损失函数的不同，如分类用指数损失函数，回归用平方误差损失。

当提升树采用平方损失函数时，第m次迭代表示为：

称r为残差，所以第m棵决策树

是对该残差的拟合。

要注意的是提升树算法中的基学习器CART是回归树，

二、GBDT概念

GBDT 的全称是 Gradient Boosting Decision Tree，梯度提升决策树，理解为梯度提升 + 决策树 。GB代表的是Gradient Boosting，意为梯度提升，梯度是一种数学概念，一个函数的梯度方向是函数上升最快的方向，相反的，负梯度方向是函数下降最快的方向。GBDT中所有的树都是回归树，而不是分类树，也就是说DT独指Regression Decision Tree。

GBDT是通过采用加法模型（即基函数的线性组合），以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。

GBDT同样由许多决策树组成，但它于随机森林有许多不同。其中之一是 GBDT中的树都是回归树。决策树分为两大类，分类树和回归树。分类树用于分类标签值，如将苹果单纯的分为好与坏的是分类树；回归树用于预测实数值，如能为苹果的好坏程度打个分就是回归树。另一个不同是 每棵树都是建立在前一棵树的基础上实现的。

Friedman提出了利用最速下降的近似方法，利用 利用损失函数的负梯度在当前模型的值，作为回归问题中提升树算法的残差的近似值，拟合一个回归树。

在GBDT中使用负梯度作为残差进行拟合。

GBDT梯度提升流程

GBDT与提升树的区别在于是残差使用梯度代替， 而且每个基学习器有对应的参数权重 。

三、 GBDT的流程

GBDT的训练过程

GBDT通过多轮迭代,每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度，（此处是可以证明的）。

弱分类器一般会选择为CART TREE（也就是分类回归树）。由于上述高偏差和简单的要求每个分类回归树的深度不会很深。最终的总分类器是将每轮训练得到的弱分类器加权求和得到的（也就是加法模型）。

步骤：

针对每个类别都先训练一个回归树。
对每个类别分别计算残差。
重复直到迭代M轮，就得到了最后的模型。预测的时候只要找出概率最高的即为对应的类别。

四、GBDT工作过程实例

如年龄预测，假设训练集只有4个人A、B、C、D，他们的年龄分别是14，16，24，26.其中A，B分别是高一和高三学生；C，D分别是应届毕业生和工作两年的员工，若用一颗传统的回归决策树来训练，会得到如下图结果：

如果使用GBDT来训练，由于数据太少，限定叶子节点最多有两个，并且限定只学两棵树，会得到下图结果：

两图最终效果相同，为何还需要GBDT呢？答案是过拟合。过拟合是指为了让训练集精度更高，学到了很多”仅在训练集上成立的规律”导致换一个数据集当前规律就不适用了。只要允许一棵树的叶子节点足够多，训练集总是能训练到100%准确率的。在训练精度和实际精度之间，后者才是更重要的。

五、GBDT的优缺点

优点：

相对少的调参时间情况下可以得到较高的准确率 。
可灵活处理各种类型数据 ， 包括连续值和离散值 ， 使用范围广 。
可使用一些健壮的损失函数 ， 对异常值的鲁棒性较强 。

缺点：

弱学习器之间存在依赖关系， 难以并行训练数据 。

Original: https://blog.csdn.net/beiye_/article/details/123923178
Author: 白天数糖晚上数羊
Title: 机器学习——梯度提升决策树（GBDT）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/650935/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【教学】图像分类算法中的召回率recall、精准率precision和f1score得分等计算。

首先我们来介绍一下这些名称的含义。 TP: 预测为1(Positive)，实际也为1(Truth-预测对了) TN: 预测为0(Negative)，实际也为0(Truth-预测对了…

人工智能 2023年7月3日
0059
数据分析day5之pandas

数据合并之join join:默认情况下他是把行索引相同的数据合并到一起数据合并之merge merge:按照指定的列把数据按照一定的方式合并到一起分组和聚合在pandas …

人工智能 2023年7月6日
0087
【Python/数据分析】Pandas

文章目录 * – + pandas简介 + pandas基本数据结构 + * Series * – 使用list初始化Series – 自定义S…

人工智能 2023年7月8日
0074
相机和livox激光雷达外参标定：ROS功能包—livox_camera_lidar_calibration 介绍

相机和livox激光雷达外参标定：ROS功能包—livox_camera_lidar_calibration 相机与激光雷达外参标定功能包介绍环境配置及功能包安装 …

人工智能 2023年6月2日
00104
为何要花费精力琢磨人工意识?

人工意识的人工智能的区别大概我不用解释什么是人工意识，但是这个概念其实跟AI有一些细微差别，叫强人工智能也可以，但是最近我认识到 “智能” 跟&#8221…

人工智能 2023年6月4日
0068
Tensorflow Data Adapter Error: ValueError: Failed to find data adapter that can handle input 解决方案

Tensorflow Data Adapter Error: ValueError: Failed to find data adapter that can handle inp…

人工智能 2023年5月23日
0074
pip安装遇到问题：You are using pip version 21.1.1； however, version 21.3.1 is available.You should consider

根据公众号教程，打开文件资源管理器，进入到 Python（Python3.9版本）安装目录中的 scripts 下，查看是否有 pip.exe, 如果用就可以使用 Python …

人工智能 2023年7月6日
0093
机械臂手眼标定手眼矩阵 eye-in-hand 原理、实践及代码

1.手眼标定所谓手眼系统，就是人眼睛看到一个东西的时候要让手去抓取，就需要大脑知道眼睛和手的坐标关系。而相机知道的是像素坐标，机械手是空间坐标系，所以手眼标定就是得到像素坐标系…

人工智能 2023年6月18日
0065
基于MATLAB的汽车出入库计时计费系统

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月22日
0088
传统直线检测算法与基于深度学习的直线检测算法

传统直线检测算法与基于深度学习的直线检测算法 提示：科大&#x…

人工智能 2023年6月17日
00145
计算机视觉(YOLO算法系类)—集合版本

前言： ✌ 作者简介：CC++Edge淇，大家可以叫我– 斯淇。(CSDN优质博主建议加这一条！) 📑 个人主页： CC++Edge淇主页 📫 如果文章知识点有错误的…

人工智能 2023年5月28日
00101
如何看待第三代神经网络SNN？详解脉冲神经网络的架构原理、数据集和训练方法原创

作者丨科技猛兽编辑丨极市平台本文首发于极市平台公众号，转载请获得授权并标明出处。本文目录 1 脉冲神经网络简介2 脉冲神经网络原理3 脉冲神经网络数据集4 脉冲神经网络训练方法5…

人工智能 2023年5月26日
0065
基于matlab的图像形状与分类毕业设计(含源文)

基于matlab的图像形状与分类摘要数字图像处理是一门新兴技术，随着计算机硬件的发展，数字图像的实时处理已经成为可能，由于数字图像处理的各种算法的出现，使得其处理速度越来越快…

人工智能 2023年7月2日
00102
【Unity】UnityThread 脚本源代码（记录）

如下： #define ENABLE_UPDATE_FUNCTION_CALLBACK #define ENABLE_LATEUPDATE_FUNCTION_CALLBACK #d…

人工智能 2023年6月4日
0085
学习笔记——深度学习模型LSTM做Stock预测

LSTM实现stock trend的预测一、数据集 Quandl世界经济金融数据平台，拥有海量的经济和金融数据使用quandl提供的数据集安装库导入即可，pip install…

人工智能 2023年5月25日
0082
数据驱动科技赋能，东吴证券打造数据中台“九大能力”

公司简介东吴证券股份有限公司作为首家上市的地级市券商，扎根苏州，布局全国，树立”坚持根据地、融入长三角、服务中小微”战略导向，致力于为实体经济增添活力，为…

人工智能 2023年6月11日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习——梯度提升决策树（GBDT）

大家都在看