sklearn中的决策树（回归）

2023年6月17日上午10:31 • 人工智能 • 阅读 109

本文在我的知乎上同步分享：sklearn中的决策树（分类） – 知乎

前面提到，sklearn中的tree模组有DecisionTreeClassifier与DecisionTreeRegressor，前者我们已经详细讨论过了其原理与代码，本文则承接前文的思路，结合具体代码分析回归树的原理。

1 Regression Tree基本概念

相较于分类任务，回归任务的标签是连续的值，所以，我们的目标是利用数据训练出一个好的函数

，其有着：

的形式，其中，

，

为输入数据特征的维度，

是

空间的一个子空间，

为示性函数，

是

在

上的取值，但由于是估计，并不知道真值，所以最后其实是求得：

综上，类比分类问题决策树，我们需要一个算法来确定两件事：

1.区域

如何划分？

2.区域

上的值

如何确定？

2 回归问题决策树生成原理

2.1 区域上的值的确定

我们先来看第二个问题，即在已知区域划分下，我们应该如何确定

？

由前一篇文章知，在分类问题决策树中，我们根据Gini指数或者信息增益，对于每个特征的每个分类界限值，计算其”纯度”，把能分出最高纯度的那个特征的界限值作为这一步分裂的依据。同理，我们在回归问题中也需要这样一个判断标准，去衡量我们构造的函数与真实值之间的差距。那么对于连续的值，常常选取的标准就是均方误差MSE或平方误差SSE。

设原始数据集为

，

，在给定第一个区域划分之后，如果区域被划分为

与

，那么，我们的函数就变为：

我们的目标就是求解下述优化问题：

等价于求解(

与

是变量)：

上式左右两边在区域分割确定之后互不相关，所以可以分别求最小值，而左右两边都是关于

的二次函数，所以取其对称轴达最小：

，其中

等于1或2，

表示在区域

中的样本个数。

那么根据上述公式，我们就确定了区域

上的值

的取值。

2.2 区域的划分

前面一节我们知道了如果区域划分确定，那么

的估计值

就是该区域样本标签的平均值。现在考虑如何二分区域。

类似于分类树，假设

是

维行向量，那么每个样本有

种特征，

我们以每个特征的n个值作为划分区域的界限，计算这

种划分对应的SSE，取SSE最小的那种分类对应的特征的值作为当前步的分类标准，即定义：

求解：

得到

坐标对应的划分界限，然后不断进行下去直到某种结束条件触发(达到最大深度、叶子结点样本数达下界等)，最终得到一棵完整的回归树。

3 回归树的python代码

其实，回归树并不适合做回归问题，因为当标签变成连续值后，为了拟合标签，回归树要很茂盛才能在训练集上表现得很好，但是会在测试集上表现得非常差，即过拟合。所以，在尝试用回归树做回归问题时一定要注意剪枝操作，提前设定树的最大深度，ccp_alpha等参数，防止过拟合。

为了方便可视化回归树的一些内容，我这里数据集选取为：

这一函数在(0,10]区间上的50个点，

为一服从标准正态分布的随机变量，相当于是对原函数的扰动。其散点图如下：

原数据散点图

利用下面的代码，我们可以拟合一个最小二乘回归树，并做可视化：

undefined

from sklearn import tree
from sklearn.model_selection import train_test_split
import numpy as np
import matplotlib.pyplot as plt
from io import StringIO
import pydotplus
def f(x, noise=True):
    y = 3*np.sin(x) + 4*np.cos(x) + x
    if noise:
        return y + np.random.randn(len(x))
    else:
        return y
X = np.linspace(0,10,50)
y = f(X,)
plt.scatter(X,y)
plt.savefig('original.png')
X = np.reshape(X,(-1,1))
X_train, X_test, y_train, y_test =
    train_test_split(X, y,test_size=0.2)
tree_model = tree.DecisionTreeRegressor(max_depth=5,
                                        min_samples_leaf=1,
                                        ccp_alpha=0.0,
                                        random_state=111)
tree_model.fit(X_train, y_train)
print(tree_model.score(X_test, y_test))
plt.plot(X, tree_model.predict(X))
plt.savefig('model.png')
dot_data = StringIO()
feature_names = 'x'
tree.export_graphviz(tree_model,
                     out_file=dot_data,
                     feature_names=feature_names,
                     filled=True, rounded=True,
                     special_characters=True)
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
graph.write_png("regression_tree.png")

得到的回归树函数图像如下：

回归树拟合的函数图像

我们代码中有一步打印score对应的值是0.83，拟合效果还不错。由于得到的回归树很大，我这里就不贴图了。

4 拓展讨论

对于回归树，我们可以去固定训练集、测试集，改变一系列关于回归树的参数，比如最大深度、ccp_alpha的值等，去寻找一个最优的回归树，在前几年有一篇文章提出的AutoML就是利用迭代法在预设定的超参数范围内选择最优机器学习模型，读者可以不妨可视化看看，什么样的树针对上面的数据集有最好的泛化能力。

主要参考

Microstrong：Regression Tree 回归树zhuanlan.zhihu.com

Original: https://blog.csdn.net/qq_33761152/article/details/123976106
Author: 登高望远，倚树听泉
Title: sklearn中的决策树（回归）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/629746/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SENT:Sentence-level Distant Relation Extraction via Negtive Training-ACL2021

Abstract Distant supervision for relation extraction provides uniform bag labels for each …

人工智能 2023年5月31日
0067
【魔改YOLOv5-6.x（4）】结合EIoU、Alpha-IoU损失函数

文章目录 * – 前言 – EIoU – + 论文简介 + 加入YOLOv5 – Alpha-IoU – + 论文简介 …

人工智能 2023年6月16日
0077
生成语音对抗样本

前言本实验来自于Github/Fraunhofer-AISEC/ towards-resistant-audio-adversarial-examples carlini / a…

人工智能 2023年5月25日
0080
用python爬取全国和全球疫情数据，并进行可视化分析(过程详细代码可运行)

用Python爬取最新疫情数据这次重大疫情，每时每刻数据都有可能变化，这篇博文将为大家讲解如何爬取实时疫情数据，并且分析数据，作出数据可视化的效果。报告梗概：对中国疫情分析 …

人工智能 2023年7月14日
0082
图机器学习——4.2 节点分类：迭代分类

迭代分类（Iterative classification） 1）方法介绍为了解决关系分类没有考虑节点自身特征的问题，迭代分类方法被提出。输入为一个图： f v f_{v}f …

人工智能 2023年7月3日
0078
社区发现算法——(Spectral Clustering)谱聚类算法

归一化的拉普拉斯(The unnormalized graph Laplacian):L = D − W L = D – W L =D −W其中D为对角度矩阵，W为权重…

人工智能 2023年5月31日
00111
torch tensorflow测试GPU配置是否成功以及相关问题

目录 torch * 问题 tensorflow-gpu * 问题参考 torch import torch ”’ 配置成功会输出一个device ID：0 未配置成功会输出F…

人工智能 2023年5月25日
00108
数据分析在银行业应用之欺诈检测

在本文中我们将通过探索一个很常见的用例——欺诈检测，从而了解数据分析在银行业是如何运用的。背景介绍银行业是最早应用数据科学技术的领域之一，收集了大量结构化数据。那么，数据分析…

人工智能 2023年7月16日
0070
【云原生】使用Docker commit的方式制作openGauss镜像

前面一期介绍了使用Dockerfile制作openGauss镜像，这种方式是根据打包脚本全新生成一个镜像，属于无中生有。本篇介绍使用docker commit的方式制作openGa…

人工智能 2023年5月30日
0074
【矩阵论】3. 矩阵运算与函数——张量积

矩阵论1. 准备知识——复数域上矩阵,Hermite变换)1.准备知识——复数域上的内积域正交阵1.准备知识——Hermite阵，二次型，矩阵合同，正定阵，幂0阵，幂等阵，矩阵的秩…

人工智能 2023年6月29日
0090
PyTorch 实现CycleGAN 风格迁移

目录一、前言二、数据集三、网络结构四、代码（一）net （二）train （三）test 五、结果（一）loss （二）训练可视化（三）测试结果六、完整代码一、前…

人工智能 2023年6月16日
0088
在线文本实体抽取能力，助力应用解析海量文本数据

随着信息化的发展，很多具有重要价值的知识隐藏分布在海量数据中，影响了人们获取知识的效率，如何处理繁杂的非结构化文本数据成为难题。近日，HMS Core 机器学习服务6.5.0版本…

人工智能 2023年6月1日
0089
基于区域和基于边缘的图像分割

1、图像分割的概念图像分割是将图像分割成不同的区域或类别，并使这些区域或类别对应于不同的目标或者局部目标。每个区域包含具有相似属性的像素，并且图像中的每个像素都分配给这些类别之一…

人工智能 2023年6月17日
0096
解决：RuntimeError: CUDA out of memory. Tried to allocate 128.00 MiB (GPU 0； 2.00 GiB total capacity； 1

1. 问题 2. 分析 3. 解决问题训练模型时报错：RuntimeError: CUDA out of memory. Tried to allocate 128.00 Mi…

人工智能 2023年7月14日
00116
Bert实现多标签文本分类

多标签文本分类 Bert简介两个任务 Bert是按照两个任务进行预训练的，分别是遮蔽语言任务(Masked Language Model)和句子预测任务(NextSentence…

人工智能 2023年7月21日
0042
语音分离Sepformer

链接：https://arxiv.org/pdf/2010.13154.pdf github:https://speechbrain.github.io/ 摘要 RNN…

人工智能 2023年5月27日
0097

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

sklearn中的决策树（回归）

2.1 区域 <img decoding="async" alt="sklearn中的决策树（回归）" src="https://latex.csdn.net/eq?R_i%5Ek"> 上的值 <img decoding="async" alt="sklearn中的决策树（回归）" src="https://latex.csdn.net/eq?%5Chat%7Bc_i%7D"> 的确定

2.2 区域 <img decoding="async" alt="sklearn中的决策树（回归）" src="https://latex.csdn.net/eq?R_i%5Ek"> 的划分

大家都在看

2.1 区域上的值的确定

2.2 区域的划分