机器学习之分类回归树（CART）

2023年6月16日下午8:51 • 人工智能 • 阅读 73

前言

写这一章本来是想来介绍GBDT-LR这一个推荐模型的。但是这里面就涉及到了很多机器学习的基础树形算法，思前想后还是决定分成几篇文章来写，这里先介绍一下CART数，因为在GBDT中用来分类回归的树形结构就是CART，为了更好的理解这个推荐模型，首选需要的就是打好基础，介绍完CART之后，我就会介绍XGBoost等一些集成学习的东西，然后就是GBDT，当然了还有Xgboost。的确是一个大家族啊，当然了这些并不是全部的东西，还有LightGBM 、catboost这几大巨头算法。这些之后再介绍吧。

一、CART简介

分类回归树（classification and regression tree, CART）模型由Breiman等人在1984年提出，是应用广泛的决策树学习方法。CART同样由特征选择、树的生成及剪枝组成，既可以用于分类也可以用于回归。

具体的实现方法其实就类似于在刷算法题的时候的二叉搜索树，如下图所示：

二、理论推导

那么我们图和对输入空间Y进行划分呢，我们可以用过遍历X中的特征来获取它对应的Y特征，在这里用s来表示，从而作为切分变量和切分点，由此而来定义两个区域：

然后就是如何寻求最有切分点了，首先就用到上面我们说的平方误差，先看公式：

那么选定的最优切分点c_1和c_2的求解则是：

遍历所有输入变量，找到最优的切分变量j，构成一个对（j, s）。依此将输入空间划分为两个区域。接着，对每个区域重复上述划分过程，直到满足停止条件为止。这样就生成一颗回归树。这样的回归树通常称为最小二乘回归树（least squares regression tree）。

然后贴一下算法的具体流程吧：

三、具体实例

首先先看一下李航老师书上的例子：

假设这里有10个训练样本的某个特征取值范围区间[0.5, 10.5], y的取值范围[5.0, 10.0]，我们学习一个提升树模型。

首先需要求出区域R以及c来：

并且

遍历全部的特征值x之后得到下表：

将c带入到均值方差中去得到

显然取s=5时，m(s)最小。因此，第一个最优切分变量为j=x、最优切分点为s=5。

Original: https://blog.csdn.net/qq_38375203/article/details/124633206
Author: Aliert
Title: 机器学习之分类回归树（CART）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/626532/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

java计算机毕业设计二手车交易平台源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月26日
0054
演化博弈及Python实现

目录一、写在前面二、演化博弈三、模型构建 3.1博弈收益矩阵 3.2综合期望 3.3复制动态方程 3.4可能的均衡点 3.5局部稳定分析法四、理论分析 4.1演化相位图 4…

人工智能 2023年6月23日
00103
DataFrame行列表查询操作详解+代码实战

上文详细介绍了Series和DataFrame作为两种Pandas基本数据结构中的创建、转换和操作。由于数据处理和分析基本都是用DataFrame实现多表操作，故关于DataFra…

人工智能 2023年7月7日
0069
基于公用通信网络的区域级 C-V2X应用系统技术要求应用系统技术要求

1 范围本文件规定了基于公用通信网络的区域级C-V2X应用系统的技术、功能和场景要求。本文件适用于基于公用通信网络的区域级C-V2X应用系统技系统设计和建设，为智能网联汽车与产…

人工智能 2023年6月30日
0077
模式识别期末复习【湘潭大学】

目录写在前面的话问题 * 简答题计算题选择题答案 * 简答题答案 – K-means 算法的步骤？如何确定 K 的值？什么是模式识别？模式识别有什么意义？ …

人工智能 2023年7月28日
0082
yolov5训练—VOC数据集划分（训练集、验证集、测试集）和转换YOLO格式

更新提醒 2023.04.01最新更新 1、修改了 VOC数据集划分和转YOLO格式处理部分下第2部分数据集划分的 split_train_val.py代码，也不算修改，是感觉新…

人工智能 2023年6月16日
00134
OCR文字识别技术总结（三）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0057
python: float64与float32转换、压缩比较与转换偏差

python原生类型中只有float,并没有float64和float32，但是在numpy中是有float64和32区分的。因此，互转是需要在特定的库下面进行，比如，numpy和…

人工智能 2023年7月6日
0089
pytorch构建的深度学习模型（pt文件）转换为onnx格式，并支持batch输入，以bert模型为例

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月22日
0064
Metabase的基本使用：10分钟快速入门

Metabase使用手册初始配置按提示一步步填写相关信息即可，注意第一个创建的账户默认即为管理员账户 ; 数据分析接下来就可以正式使用了，右上角各功能如下：下面就以具体场…

人工智能 2023年7月16日
0077
Android语音播报、后台播报、语音识别，android程序开发

《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》 > > 【docs.qq.com/doc/DSkNLaERkbnFoS0ZF】完…

人工智能 2023年5月23日
0079
数据处理代码记录

数据处理记录在处理数据阶段用到的代码块及其拓展。主要使用pandas库 1. 文件路径 (1) os库 import os os.getcwd() os.path.dirname…

人工智能 2023年7月7日
0055
想学爬虫么？这里给你全准备好了

目录一. 爬虫总复习 1.1 爬虫四步骤 1.2 最简请求方式：requests.get() 二. 工具 2.1 Network 2.2 XHR和Doc 三. 解析与提取——Be…

人工智能 2023年7月17日
0059
python面试题汇总（史上最全）

python面试题 ✅作者简介：大家好我是编程ID📃个人主页：编程ID的csdn博客系列专栏：python💬推荐一款模拟面试、刷题神器👉点击跳转进入网站 对&…

人工智能 2023年7月4日
0063
【基于Paddle框架的行车环境下天气及时间分类】

此项目基于Paddle框架，且是在 BML CodeLab中开发，目的是熟悉Paddle框架的使用，该项目也同时发布在了AI Studio平台。一、项目简介在自动驾驶场景中，天…

人工智能 2023年7月2日
0083
TensorFlow深入了解损失函数Categorical Cross-Entropy Loss、Binary Cross-Entropy Loss等

深度学习中各种各样的损失函数容易让人混淆，根据任务对它们分门别类便于理解。损失函数又称成本函数或目标函数，它用于寻找真实值与预测值之间的差异，帮助模型最小化它们之间的距离。 pi…

人工智能 2023年5月26日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习之分类回归树（CART）

前言

一、CART简介

二、理论推导

三、具体实例

大家都在看