一棵决策树包括一个根结点、若干内部结点、若干叶结点；叶结点对应于决策结果，其它每个结点则对应于一个属性测试；每个父结点所包含的样本集根据属性测试的结果，被划分到子结点中；根结点包含样本全集，从根结点到每个叶结点对应一个判定测试序列。
决策树学习的关键之一是如何选择最优划分特征，对于连续型特征还要找到最优切分点。随着划分过程不断进行，希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的”纯度”(purity)越来越高。
信息熵(information entropy)和基尼指数(Gini index)是度量样本集合不纯度(impurity)的常用指标。
假设当前样本集合D中第k类样本所占比例为（ k=1，2，3，……，K ），则D 的信息熵定义为

上述定义中的概率由数据估计得到，故称为样本集的经验熵。样本的类别分布越均匀，熵越大，样本集越混杂，纯度越低，不纯度越高；当样本属于每个类别的比例相同时，熵值最大，当所有样本都属于同一类别时，熵值为0。

使用特征A对于对样本集D进行划分所获得的信息增益定义为

计算信息增益

原始样本集共8个样本，标签”是”有3个，标签”否”有5个

原始样本集8个样本，按照特征”拥有房产” ，可划分成2个子集

列表如下：

使用房产特征划分原始样本集后所得信息增益=0.9544-0.6068= 0.3476

决策树学习算法ID3(Iterative Dichotomizer 3)就是按信息增益最大准则来选取划分特征。
信息增益最大准则倾向于选择具有大量不同取值的特征，从而产生许多小而纯的子集。例如，若把客户ID作为划分特征，切分后的条件信息熵为零，能获得最大信息增益，但是这样做毫无意义。
但信息增益比最大准则对可取值数目较少的特征有所偏好。因此，C4.5算法先从候选划分属性中找出信息增益高于平均水平的特征，再从中选择增益比最高的特征作为划分特征。

样本集的基尼值

取V个离散值的特征A对于数据集D的基尼指数

基尼指数越大，样本的不确定性也就越大。决策树学习算法CART（Classification And Regression Tree）根据基尼指数最小来选择最优划分特征

决策树生成

三种算法对比

ID3决策树：使用信息增益作为特征选择标准
C4.5决策树在ID3决策树基础上有三点改进，其它部分相同。
(1)ID3容易偏向于优先选取取值种类较多的特征。为此，C4.5先从候选划分特征中找出信息增益高于平均水平的特征，再从中选择信息增益比最高的特征作为划分特征。
(2)ID3不能处理连续型特征。为此，C4.5对连续型特征的取值排序后按区间和阀值进行离散化。
(3)ID3决策树容易过拟合。决策树分叉过细会导致最后生成的决策树模型对训练集数据拟合特别好，但是对新数据的预测效果较差，即模型泛化能力不好。为此，C4.5引入了正则化系数进行初步的剪枝来缓解过拟合问题。
CART(Classification And Regression Tree分类回归树)
(1)ID3和C4.5计算熵值时需要计算对数，CART采用基尼系数，简化了计算。
(2)ID3和C4.5采用多叉树进行特征划分，即特征有几种类别取值就划分几棵子树，并且该特征在后续算法执行过程中被排除在候选特征之外，这种划分方式过于粗糙，特征信息的利用率较低；C4.5对连续值采用区间离散化，或多或少会损失一部分信息。CART采用二叉树对每个特征进行划分
例如某离散特征取值{1，2，3}，则分别对{1}和{2,3}，{2}和{1,3}，{3}和{1,2}三种情况计算，从中选择基尼系数最小的组合进行二切分，生成两个二叉子树。
对于连续特征，对其n个取值排序后，依次取每两个相邻值的中间值作为划分点，比较这n-1次划分对应的基尼系数，选最小基尼系数对应的划分点生成二叉子树。因此，每次进行特征选择的最小单位是某个特征下的某个最优二切分点，使得CART可以对同一特征进行多次利用。
(3)ID3和C4.5只能用于分类任务。CART则可用于分类和回归。CART用于回归预测时，采用平方误差最小的划分为最优划分
给定数据集D，m个样本，每个样本n个特征。对于每个特征，计算每种二叉划分对应的平方误差，取最小者对应的划分点；在所有特征上，选择最小者，从而得到最佳划分特征及其划分点。
(4)CART预测输出
分类预测：每个叶子结点所含全部样本中标签类别占多数者作为它对应的标签类别预测输出。
回归预测：每个叶子结点所含全部样本对应标签值的平均值或中位数作为它对应的标签值预测输出。

决策树剪枝

如果不限制树的规模，决策树将会一直分裂下去，直到每个叶子结点只包含一个样本为止。在理想情况下，这样做能够把训练集中的所有样本完全分开，因为每个样本各自占据一个叶子结点。这样的决策树出现完全过拟合，在测试集上的效果会很差。
剪枝策略对决策树影响巨大，是优化决策树算法的核心。有两种常见方法

预剪枝(pre-pruning)

在生成决策树的过程中提前停止树的增长。

预剪枝思想：在树中结点进行分裂之前，先计算当前划分是否能够带来模型泛化能力的提升，如果不能，则不再继续生长。此时结点中可能包括不同类别的样本，按照多数投票的原则判断该结点所属类别。停止决策树生长的常用判断条件有：树达到一定深度；当前结点的样本数量小于某个阀值；计算每次分裂对测试集的准确率提升，当小于某个阀值时，不再继续扩展。

后剪枝(post-pruning)

在已生成的过拟合决策树上进行剪枝，得到简化版的剪枝决策树。

后剪枝思想：生成一颗完全生长的决策树后，从最底层向上计算是否剪枝。剪枝过程就是把子树删除，用一个叶结点替代，该结点的类别同样按多数投票原则确定。若剪枝后在测试集上准确率有所提升，则进行剪枝。

案例—红酒分类

调参没有固定方法，一切都是看数据本身。
如果数据集非常巨大，你已经预测到无论如何都是要剪枝的，那提前设定这些参数来控制树的复杂性和大小会比较好。

案例—带噪正弦曲线拟合

Sklearn回归树衡量最佳结点和分枝的指标有
(1)criterion= ” mse ” ，使用均方误差MSE，父节点和子节点之间的均方误差的差额被用来作为划分特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失。（不填该参数，则默认mse）
(2)criterion= ” friedman_mse ” ，使用费尔德曼均方误差(针对潜在分枝中的问题改进后的均方误差)
(3)criterion= ” mae “使用平均绝对误差MAE，使用叶节点的中值来最小化L1损失。

跟博主一起来学习吧点击跳转

Original: https://blog.csdn.net/weixin_50481708/article/details/125512061
Author: 跳楼梯企鹅
Title: 【人工智能】机器学习中的决策树

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/648389/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

matlab中interp2双线性插值算法的实现原理及使用python简单实现双线性插值interp2算法

双线性插值算法基本原理双线性插值算法的基本原理：图1 双线性插值示意图图中绿色的点P为待插值得到的点，对点P进行插值需要用到Q11(x1,y1), Q12(x1,y2), Q…

人工智能 2023年6月22日
00115
C. Bricks and Bags Codeforces Round #831 (Div. 1 + Div. 2)

在经历了几天的卡题和没思路+看题解没看懂中终于把这一道题给磕了出来，感觉这题做不出的原因的没有想好极值的处理关系和太看重特殊情况而忽略了一般情况。。。。。传送门题目有A和B两…

人工智能 2023年6月29日
0066
【HTML粉色跳动爱心】效果展示+源代码

目录 * – 一、源代码 – + 1.1 index.html + 1.2 style.css + 1.3 js文件 – 二、效果展示一、源代…

人工智能 2023年7月30日
0056
解决 nvcc: command not found

1.nvcc nvcc 是The main wrapper for the NVIDIA CUDA Compiler suite. Used to compile and link…

人工智能 2023年7月26日
0056
Python：物联网数据分析课程设计动态新闻标题热点挖掘

一、设计内容及目的（一）设计内容通过爬取学校新闻网页，获取新闻标题，通过词频统计制作出词云并生成图片。（二）设计目的新闻标题是新闻的主旨，从新闻标题中可以进行多种内容的挖掘…

人工智能 2023年7月15日
0045
pytorch搭建MobileViT网络——一种用于移动设备的轻量级通用视觉 transformer

MobileViT介绍论文地址：https://arxiv.org/pdf/2110.02178.pdf来自苹果的研究者提出了一种用于移动设备的轻量级通用视觉 transform…

人工智能 2023年5月28日
0067
参数化建模 vs. 直接建模【CAD】

1987年发布的 Pro/ENGINEER（现为 PTC Creo）是计算机辅助设计 (CAD) 历史上的一个重要里程碑，它将 CAD 行业引入了基于历史的参数化建模。从那时起，几…

人工智能 2023年6月26日
0073
R语言临床预测模型的评价指标与验证指标实战：净重新分类指数NRI（Net Reclassification Index, NRI）

答案：H264 RTP完整代码如下：#includeNRI :2; //NALU优先级 unsigned char F:1; //是否有起始前缀} NALU_HEADER;//FU…

人工智能 2023年7月18日
0054
彻底卸载并重装Anaconda环境与Python的方法

本文介绍在 Windows平台下，彻底删除 Anaconda环境与其自带 Python版本，并进行重新安装的方法。最近，由于原有 Anaconda环境中的部分第三方库出现了冲突的…

人工智能 2023年7月29日
0082
预积分的理解

常见的视惯解算系统中应用到的两种传感器是相机和IMU惯性测量单元，IMU频率很高，可能有200Hz的频率，而相机的频率明显要低很多，可能只有大约30Hz。而且视觉图像帧常常会采用关…

人工智能 2023年6月10日
0071
深度学习 pytorch手写数字识别 MNIST数据集解析+详细注释

1 模型构建 2 训练 train.py 3 测试 eval.py 4 工程文件、数据集、源码下载文件结构 ①存放训练之后导出的模型； ②存放数据集； ; 1 模型构建神经网络…

人工智能 2023年6月27日
0078
librosa 语音库（二）STFT 的实现

librosa是一个应用广泛的音频处理python库。在 librosa中有一个方法叫做 stft，功能是求音频的短时傅里叶变换, librosa.stft 返回是一个矩阵短时…

人工智能 2023年5月27日
0052
激活函数(sigmoid、tanh、ReLU、softmax)

文章目录 * – 1.1、sigmoid函数 – 1.2、tanh函数 – 1.3、ReLU函数 – 1.4、softmax函数激…

人工智能 2023年6月17日
0064
基于Matlab的极限学习机(ELM)实现

最近打算做一些参数预测相关内容，选基学习器的时候注意到了极限学习机。极限学习机简介极限学习机（Extreme Learning Machine, ELM）最早于2004年由南洋…

人工智能 2023年6月15日
0085
ADAS自动驾驶学习之–FCW（原理、传感器组成、软件结构、测试验证、模型代码）

文章目录 1、什么是FCW功能以及需要什么样的传感器 2、FCW软件架构的设计，模型搭建的规则以及单元测试的设计和实施过程 3、基于Prescan设计场景进行FCW功能验证 4、模…

人工智能 2023年6月10日
0069
无监督文本摘要，生成式文本摘要

论文：Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and Context-Aware …

人工智能 2023年5月30日
0046

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【人工智能】机器学习中的决策树

特征选择

树的生成

树的剪枝

特征如何选择

计算信息增益

样本集的基尼值

三种算法对比

预剪枝(pre-pruning)

后剪枝(post-pruning)

大家都在看