CART 分类决策树

2023年6月16日上午1:13 • 人工智能 • 阅读 57

1. Cart树简介

Cart模型是一种决策树模型，它即可以用于分类，也可以用于回归，其学习算法分为下面两步：

（1）决策树生成：用训练数据生成决策树，生成树尽可能大

（2）决策树剪枝：基于损失函数最小化的剪枝，用验证数据对生成的数据进行剪枝。

分类和回归树模型采用不同的最优化策略。Cart回归树使用平方误差最小化策略，Cart分类生成树采用的基尼指数最小化策略。

Scikit-learn中有两类决策树，他们均采用优化的Cart决策树算法。一个是DecisionTreeClassifier一个是DecisionTreeRegressor回归。

2. 基尼指数计算公式

3. 基尼指数计算举例

计算过程如下：根据是否有房将目标值划分为两部分：

是否有房，是否有房，Gini(是否有房，yes )=1−(03)2−(33)2=0

是否有房，是否有房，Gini⁡(是否有房，no )=1−(37)2−(47)2=0.4898

是否有房是否有房Gini-⁡index⁡(D, 是否有房 )=710∗0.4898+310∗0=0.343

结婚的基尼值，有 2、4、6、9 共 4 个样本，并且对应目标值全部为 no：

Gini_index⁡(D,{married})=0

不结婚的基尼值，有 1、3、5、7、8、10 共 6 个样本，并且对应 3 个 no，3 个 yes：

Gini_index⁡(D, {single,divorced} )=1−(36)2−(36)2=0.5

以 married 作为分裂点的基尼指数：

Gini_index⁡(D, married )=410∗0+610∗[1−(36)2−(36)2]=0.3

婚姻状况婚姻状况Gini_index⁡(D,婚姻状况)=410∗0.5+610∗[1−(16)2−(56)2]=0.367

婚姻状况婚姻状况Gini_index⁡(D, 婚姻状况 )=210∗0.5+810∗[1−(28)2−(68)2]=0.4

先将数值型属性升序排列，以相邻中间值作为待确定分裂点：

以年收入 65 将样本分为两部分，计算基尼指数:

节点为时年收入节点为时年收入节点为65时:年收入=110∗0+910∗[1−(69)2−(39)2]=0.4

以此类推计算所有分割点的基尼指数，我们发现最小的基尼指数为 0.3。

此时，我们发现：

最小基尼指数有两个分裂点，我们随机选择一个即可，假设婚姻状况，则可确定决策树如下：

重复上面步骤，直到每个叶子结点纯度达到最高.

4. Cart分类树原理

如果目标变量是离散变量，则是classfication Tree分类树。

分类树是使用树结构算法将数据分成离散类的方法。

（1）分类树两个关键点：

将训练样本进行递归地划分自变量空间进行建树‚用验证数据进行剪枝。

（2）对于离散变量X（x1…xn）处理：

分别取X变量各值的不同组合，将其分到树的左枝或右枝，并对不同组合而产生的树，进行评判，找出最佳组合。如果只有两个取值，直接根据这两个值就可以划分树。取值多于两个的情况就复杂一些了，如变量年纪，其值有”少年”、”中年”、”老年”，则分别生产{少年，中年}和{老年}，{少年、老年}和{中年}，{中年，老年}和{少年}，这三种组合，最后评判对目标区分最佳的组合。因为CART二分的特性，当训练数据具有两个以上的类别，CART需考虑将目标类别合并成两个超类别，这个过程称为双化。这里可以说一个公式,n个属性，可以分出(2^n-2)/2种情况。

CART树生成

输入：数据集 D ，特征 A ，样本个数阈值、基尼系数阈值

输出：CART决策树T

（1）对于当前节点的数据集为D，如果样本个数小于阈值或者没有特征，则返回决策子树，当前节点停止递归；

（2）计算样本集D的基尼系数，如果基尼系数小于阈值，则返回决策树子树，当前节点停止递归；

（3）计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数；

（4）在计算出来的各个特征的各个特征值对数据集D的基尼系数中，选择基尼系数最小的特征A和对应的特征值α。根据这个最优特征和最优特征值，把数据集划分成两部分D1和，D2同时建立当前节点的左右节点，左节点的数据集D为D1，右节点的数据集D为D2；

（5）对左右的子节点递归的调用前面1-4步，生成决策树。

CART树剪枝

我们知道，决策树算法对训练集很容易过拟合，导致泛化能力很差，为解决此问题，需要对CART树进行剪枝。CART剪枝算法从”完全生长”的决策树的底端剪去一些子树，使决策树变小，从而能够对未知数据有更准确的预测，也就是说CART使用的是后剪枝法。一般分为两步：先生成决策树，产生所有可能的剪枝后的CART树，然后使用交叉验证来检验各种剪枝的效果，最后选择泛化能力好的剪枝策略。

import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets

iris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.target

from sklearn.tree import DecisionTreeClassifier

#&#x6CE8;&#x610F;&#xFF1A;&#x6B64;&#x5904;&#x4F20;&#x5165;&#x7684;&#x662F;"gini"&#x800C;&#x4E0D;&#x662F;"entropy"&#xFF0C;&#x9ED8;&#x8BA4;criterion='gini'
tree = DecisionTreeClassifier(max_depth=2,criterion="gini")
tree.fit(X,y)

def plot_decision_boundary(model,axis):
    x0,x1 = np.meshgrid(
        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1)
    )
    X_new = np.c_[x0.ravel(),x1.ravel()]
    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap
    custom_map = ListedColormap(["#EF9A9A","#FFF59D","#90CAF9"])

    plt.contourf(x0,x1,zz,linewidth=5,cmap=custom_map)

plot_decision_boundary(tree,axis=[0.5,7.5,0,3])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
plt.show()

分析上图可知:

X[1]
X[1]>0.8的，依据 X[1]

Original: https://blog.csdn.net/weixin_46556352/article/details/123924545
Author: AI耽误的大厨
Title: CART 分类决策树

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618755/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【建议收藏】机器学习数据预处理（五）——特征选择（内附代码）

📌引言本节我们开始介绍特征选择的相关内容，好的特征对后续的机器学习模型构建有很大的帮助，很有可能会大大提高模型的准确率。 📌特征选择在进行了数据预处理以及特征构造后，我们需要对…

人工智能 2023年6月25日
0074
集成学习-偏差与方差

偏差与方差偏差(Bias) 用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异。含义：度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法…

人工智能 2023年6月4日
0077
列数据种类数量统计

列数据种类数量统计主要基于pandas的unique函数这个函数是为了方便分析数据的时候写出来的一个想法（大佬轻喷）数量统计函数的代码 def Catg_stati(array…

人工智能 2023年7月8日
0067
特斯拉阀：被遗忘的天才之阀

特斯拉阀是特斯拉发明的一个让人疑惑的物品，之所以让人疑惑，是因为它长得很奇怪，它长这样（如视频所示）按特斯拉的说法，这个东西既能当水管又能做阀门，是一个两用的天才设计。工作原理如…

人工智能 2023年6月4日
0065
数据分析中判断数据类型常用方法汇总（pandas）

目录 * – + * 1、空值判断 * 2、其他数据类型判断 * – 2.1 判断Serise或DataFrame中某一列的数据类型 – 2….

人工智能 2023年7月6日
0074
使用Torch-TensorRT在PyTorch中将推理速度提高6倍

使用Torch-TensorRT在PyTorch中将推理速度提高6倍我对Torch-TensorRT感到兴奋，这是PyTorch与NVIDIA TensorRT的新集成，它用一行…

人工智能 2023年7月13日
0070
Sequential模型、Flatten层、Dense层

Sequential模型顺序模型核心操作是添加layers,有两种方法第一种:通过add()添加 model = Sequential() model.add(tf.keras….

人工智能 2023年7月28日
00102
Linux（ubantu16.04）下安装、配置、测试OpenCV（C++）；更新源问题；安装过程常见问题

PS：开始先在公司内网服务器上尝试安装OpenCV，但是很多命令需要root特权权限、普通用户无法执行。所以这条路就放弃了（在服务器上安装请参考其他博文~），直接就在本地主机上安装…

人工智能 2023年7月20日
0074
如何进行探索性数据分析

一般数据分析项目第一步都需要探索性数据分析。主要包括三个方面：使用描述性统计汇总数据使用图标可视化数据识别缺失值通过上述三个方面分析，可以在执行假设检验或统计模型之前对数据…

人工智能 2023年7月16日
0039
plotly 坐标轴(axes)设置

坐标轴设置 axes import plotly.io as pio import plotly.express as px import plotly.graph_objects…

人工智能 2023年7月5日
00311
基于opencv的模式识别——水果类别识别与计数

非常感谢那些有趣而又认真无私地在为知识普及做出贡献的网络博主们。此处特别感谢bilibili博主啥都会一点的研究生、CSDN博主YouCans、Pysource 博主Serjo以…

人工智能 2023年6月18日
0083
SSD算法解析

目标检测算法主要分为两类： Two-stage方法：如R-CNN系列算法，主要思路就是通过Selective Search或者CNN网络产生一系列的稀疏矩阵的候选区域，然后对这些候…

人工智能 2023年5月26日
0094
OpenMV 从入手到跑TensorFlow Lite神经网络进行垃圾分类

Original: https://blog.csdn.net/qq_36300069/article/details/118071444Author: 超级网吧Title: Op…

人工智能 2023年7月13日
0045
神经元模型 Hodgkin Huxley model

最近在接触脉冲神经网络的基础知识，于是准备先了解几个常见的神经元。首先便是最经典的Hodgkin Huxley模型了。目录一、介绍二、电路图三、离子电流表征四、代码实现 …

人工智能 2023年7月13日
00112
Pandas数据结构分析

一、pandas的基本数据结构 1、pandas中有两个主要的数据结构，分别是：Series和DataFrame。 2、Series:它是一个类似一维数组的对象，它能够保存任何类型…

人工智能 2023年7月15日
0086
基于Tensorflow、Keras实现Stable Diffusion

又搬运来了这个~~ 虽然不怎么用也要学学 ~~ 原谅我的搬运~~ 最近一段时间，文本转图像模型 Stable Diffusion 可谓是爆红 AI 圈，其是由慕尼黑大学和 Run…

人工智能 2023年7月30日
0035

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

CART 分类决策树

1. Cart树简介

2. 基尼指数计算公式

3. 基尼指数计算举例

4. Cart分类树原理

大家都在看