机器学习之分类回归树(CART)

前言

写这一章本来是想来介绍GBDT-LR这一个推荐模型的。但是这里面就涉及到了很多机器学习的基础树形算法,思前想后还是决定分成几篇文章来写,这里先介绍一下CART数,因为在GBDT中用来分类回归的树形结构就是CART,为了更好的理解这个推荐模型,首选需要的就是打好基础,介绍完CART之后,我就会介绍XGBoost等一些集成学习的东西,然后就是GBDT,当然了还有Xgboost。的确是一个大家族啊,当然了这些并不是全部的东西,还有LightGBM catboost这几大巨头算法。这些之后再介绍吧。

一、CART简介

分类回归树(classification and regression tree, CART)模型由Breiman等人在1984年提出,是应用广泛的决策树学习方法。CART同样由特征选择、树的生成及剪枝组成,既可以用于分类也可以用于回归。

具体的实现方法其实就类似于在刷算法题的时候的二叉搜索树,如下图所示:

机器学习之分类回归树(CART)

二、理论推导

机器学习之分类回归树(CART)

机器学习之分类回归树(CART)

机器学习之分类回归树(CART)

机器学习之分类回归树(CART)

那么我们图和对输入空间Y进行划分呢,我们可以用过遍历X中的特征来获取它对应的Y特征,在这里用s来表示,从而作为切分变量和切分点,由此而来定义两个区域:

机器学习之分类回归树(CART)

然后就是如何寻求最有切分点了,首先就用到上面我们说的平方误差,先看公式:

机器学习之分类回归树(CART)

机器学习之分类回归树(CART)

机器学习之分类回归树(CART)

那么选定的最优切分点c_1和c_2的求解则是:

机器学习之分类回归树(CART)

遍历所有输入变量,找到最优的切分变量j,构成一个对(j, s)。依此将输入空间划分为两个区域。接着,对每个区域重复上述划分过程,直到满足停止条件为止。这样就生成一颗回归树。这样的回归树通常称为最小二乘回归树(least squares regression tree)。

然后贴一下算法的具体流程吧:

机器学习之分类回归树(CART)

三、具体实例

首先先看一下李航老师书上的例子:

机器学习之分类回归树(CART)

假设这里有10个训练样本的某个特征取值范围区间[0.5, 10.5], y的取值范围[5.0, 10.0], 我们学习一个提升树模型。

机器学习之分类回归树(CART)

首先需要求出区域R以及c来:

机器学习之分类回归树(CART)

并且

机器学习之分类回归树(CART)

机器学习之分类回归树(CART)

机器学习之分类回归树(CART)

遍历全部的特征值x之后得到下表:

机器学习之分类回归树(CART)

将c带入到均值方差中去得到

机器学习之分类回归树(CART)

显然取s=5时,m(s)最小。因此,第一个最优切分变量为j=x、最优切分点为s=5。

机器学习之分类回归树(CART)

Original: https://blog.csdn.net/qq_38375203/article/details/124633206
Author: Aliert
Title: 机器学习之分类回归树(CART)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/626532/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球