def init(self,
*,
criterion: Any = “squared_error”,
splitter: Any = “best”,
max_depth: Any = None,
min_samples_split: Any = 2,
min_samples_leaf: Any = 1,
min_weight_fraction_leaf: Any = 0.0,
max_features: Any = None,
random_state: Any = None,
max_leaf_nodes: Any = None,
min_impurity_decrease: Any = 0.0,
ccp_alpha: Any = 0.0) -> None

1、criterion

criterion作为回归树的衡量分枝的指标，也是衡量回归树回归质量的指标，有三种标准：

（1）”mse”:均方误差，父节点和叶子节点之间的均方误差的差额来作为特征选择的标准，这种方法通过叶子节点的的均值来最小化L2损失

（2）”friedman_mse”：费尔德曼均方误差，针对潜在分枝问题改进后的均方误差

（3）”mae”:绝对平均误差，这种方法通过使用叶子节点的中值来最小化L1损失

计算机中默认用负均方误差（neg_mean_squared_error）来进行运算与存储。

2、接口

回归树中的重要接口仍然是apply，fit，score，predict，feature_importance_。

但是score返回的是R^2，即相关系数，而非MSE。

可以通过参数scoring来指定负均方误差返回。

score=cross_val_score(dtg
                      ,boston.data
                      ,boston.target
                      ,cv=10
                      ,scoring='neg_mean_squared_error')

3、交叉验证

交叉验证：通过将数据划分为n份，依次使用其中一份作为测试集，其他n-1份作为训练集，多次计算模型的精确性来评估模型的平均准确程度。由于训练集和测试集的划分会存在干扰模型的结果，因此多次进行交叉验证来求出平均值，能提升模型准确率。

二、用sklearn画回归树（基于波士顿房价训练模型）

1、导入库

from sklearn.datasets import load_boston                #导入波士顿房价数据集
from sklearn.model_selection import cross_val_score     #交叉验证函数
from sklearn.tree import DecisionTreeRegressor          #回归树
from sklearn import tree                                #导入tree

2、训练模型

boston=load_boston()
dtg=DecisionTreeRegressor(random_state=0)             #criterion默认为MSE
score=cross_val_score(dtg                             #十次交叉验证
                        ,boston.data
                        ,boston.target
                        ,cv=10
                        ,scoring='neg_mean_squared_error')

print(score)                                          #输出负均方误差

3、用Graphviz画回归树

import graphviz                            #导入graphviz库
feature_names=boston.feature_names         #标签使用boston房价特征
data_graph=tree.export_graphviz(dtg.fit(boston.data,boston.target)  #第一个参数是训练好的模型，不是回归树类
                                ,feature_names=feature_names
                                ,filled=True
                                ,rounded=True)
graph=graphviz.Source(data_graph)
graph.view()

回归树的图太庞大的，不便在此处演示。

三、回归树对正弦函数上的噪音点降噪

1、导入库

from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt
import numpy as np

2、生成带噪音点的正弦函数

rng=np.random.RandomState(1)            #随机数种子
x=np.sort(10*rng.rand(80,1),axis=0)     #生成0-10之间随机数x取值
y=np.sin(x).ravel()                     #生成正弦曲线y值
y[::5]+=1*(0.5-rng.rand(16))            #正弦函数上每过五个点生成一个随机噪音，共16个点

3、训练模型

regr_1=DecisionTreeRegressor(max_depth=5)            #分别生成深度为5和8的回归树
regr_2=DecisionTreeRegressor(max_depth=8)
regr_1=regr_1.fit(x,y)                               #训练模型
regr_2=regr_2.fit(x,y)

4、画plt图

x_test=np.arange(0,10,0.01)[:,np.newaxis]             #对x_test进行升维，其中':'在的位置为原始维度，np.newaxis为补充维度
y_1=regr_1.predict(x_test)
y_2=regr_2.predict(x_test)

plt.figure()                                          #展开画布
plt.scatter(x,y,s=20,color='r')
plt.plot(x_test,y_1,color='b',label='max_depth=5')
plt.plot(x_test,y_2,color='g',label='max_depth=8')    #过拟合
plt.legend()                                          #坐标显示
plt.show()

从图中可以看出max_depth=8时，过于依赖数据（包括噪音点），造成过拟合。

Original: https://blog.csdn.net/m0_60177079/article/details/126489363
Author: Struart_R
Title: 机器学习（8）sklearn画决策树（回归树）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630762/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytorch训练提示错误：“页面文件太小，无法完成操作”

在上周的一个Pytorch目标检测项目的训练过程中遇到了这个问题，经过排查，该提示所指”页面文件太小”是指系统虚拟内存所设置的页面大小过小，无法支持项目训练…

人工智能 2023年7月21日
0057
2021最新Win10+Nvidia显卡环境下CUDA、cuDNN以及TensorFlow安装教程

为了不耽误大家的时间，在阅读之前请注意： 1.如果你的电脑没有Nvidia显卡，那么请关闭本页面，本教程对你无用； 2.如果你的电脑配置不是Win10+Nvidia显卡，比如win…

人工智能 2023年5月24日
0056
python数据分析与可视化案例 python数据分析项目 python数据分析基础

python数据分析基础（一）该部分将对python数据结构、函数等基础内容进行回顾，python大牛和想要直接套用模板进行数据分析方法的朋友可以直接跳过此部分。一、基本数据结…

人工智能 2023年7月15日
0041
PaddleNLP–UIE（二）–小样本快速提升性能（含doccona标注）

NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏详细介绍：NLP专栏简介：数据增强、智能标注…

人工智能 2023年6月25日
00137
密度峰值聚类算法原理+python实现

密度峰值聚类（Density peaks clustering, DPC）来自Science上Clustering by fast search and find of den…

人工智能 2023年6月4日
0060
ROS2报错：SetuptoolsDeprecationWarning: setup.py install is deprecated. Use build and pip and other…

因为一直用c++，所以对ROS+python的调试相对较少，今天碰到一个用python玩的项目，发现报错， SetuptoolsDeprecationWarning: setup….

人工智能 2023年7月4日
0058
是时候该学会 MMDetection 进阶之非典型操作技能（一）

1 如何给不同 layer 设置不同的学习率以及冻结特定层 1.1 DefaultOptimizerConstructor 1.2 冻结特定层解决办法 2 如何在训练中优雅地使用多…

人工智能 2023年7月10日
0079
三、DMSP/OLS夜间灯光数据校正一相互校正、饱和校正

DMSP由于多代传感器，每一代传感器之间存在重叠年份，且未完成星上辐射校正，DN值存在异常情况。对其的预处理主要解决年份重叠、DN值异常、灯光饱和等问题，要完成相互校正、连续性校正…

人工智能 2023年6月11日
0073
Windows下使用Darknet训练自己的数据集（模型：yolov4-tiny、数据集：垃圾分类）

本文章主要介绍如何使用Darknet在windows下训练自己的数据集，其中模型使用的是yolov4-tiny，数据集使用的是自己垃圾分类数据集（需要的自取：在我上传的资源中有）P…

人工智能 2023年7月9日
0053
【Python语言】Python编程基础

Python编程基础一、简介 * 1.Python解释器 2.特点 – （1）语法简洁（2）与平台无关（3）粘性扩展（4）开源理念（5）通用灵活（6）强制可…

人工智能 2023年7月5日
0049
Qt+Yolo实时目标检测(带美化Gui界面和高帧率检测)(附带代码)

界面采用PyQt 检测使用了YoloV4的模型话不多说先康康效果使用白色的按钮是用来控制检测的开关的，检测到信息会在label控件上显示。注意事项检测过程中结束检测是不可…

人工智能 2023年7月9日
0063
Pandas进阶之DataFrame多级索引

多级索引：在一个轴上有多个(两个以上）的索引，能够以低维度形式来表示高维度的数据。单级索引是Index对象，多级索引是MultiIndex对象。一、创建多级索引方法一：隐式创建…

人工智能 2023年6月2日
0068
Win10下CUDA版OpenCV的编译过程

1.编译环境 1）系统环境：Win10( i7-8700 CPU, 16GB RAM)+RTX 2070+VS2017 Enterprise+CUDA 11.6+cuDNN v8….

人工智能 2023年6月19日
0081
Python数据分析与挖掘实战期末考复习（抱佛脚啦）

期末三天赛高考我真的会谢，三天学完数据挖掘……真的很极限了的。课本是那本绿色的Python数据分析与挖掘实战（第2版），作者张良均 … 图片…

人工智能 2023年7月15日
0045
Anaconda搭建环境（tensorflow+pytorch）

总结+问题汇总 Anaconda环境搭建 * 镜像源添加 tensorflow下载与测试 Pytorch以及cudnn安装 * cudnn下载和安装 – cudnn遇到…

人工智能 2023年7月23日
0071
Scrapy爬虫流程

参考：Scrapy框架实战（一）：Scrapy基础知识_Amo Xiang的博客-CSDN博客_scrapy框架主要流程 1. 创建项目 scrapy project xxx 2…

人工智能 2023年7月18日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习（8）sklearn画决策树（回归树）

1、criterion

2、接口

3、交叉验证

1、导入库

2、训练模型

3、用Graphviz画回归树

1、导入库

2、生成带噪音点的正弦函数

3、训练模型

4、画plt图

大家都在看