机器学习——决策树（decision tree）

2023年6月17日下午6:53 • 人工智能 • 阅读 93

相关文章链接：

机器学习——决策树（decision tree）

机器学习——随机森林（Random forest）

机器学习——梯度提升决策树（GBDT）

机器学习——XGboost模型

一、什么是决策树/判定树（decision tree）

为达到目的根据一定的条件进行选择的过程就是决策树 ， 是基于树形结构利用信息学中熵的概念构建出的监督学习算法模型 。 利用决策树可以解决基本的分类和回归问题 。

决策树算法在树形结构的基础上直接模仿现实生活中人类做决策的过程 ，如： 医学诊断 、 商业决策等 。

构成决策树的元素是节点和边 。 节点会根据样本的特征作出判断 ， 最初的分支点称为根节点 ， 其余的被称为子节点 ， 不再有分支的节点则被称为叶子节点 ， 这些节点代表了样本的分类结果 。 边则指示着方向 。

二、决策树的构造

为了构造决策树 ， 人们找到了一个衡量标准 — 熵。 在热力学中 ， 熵被用来描述一个系统内在的混乱程度 。 在决策树中 ， 熵代表分支样本种类的丰富性 ， 样本中种类越多越混乱 ， 熵就越大 ， 如果分支下的样本完全属于同一类 ， 熵就等于 0 .

条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)表示在已知随机变量X的条件下随机变量Y的不确定性，随机变量X给定的条件下随机变量Y的条件熵(conditional entropy) H(Y|X)，定义X给定条件下Y的条件概率分布的熵对X的数学期望：

构建树的基本思路 ， 是随着树的深度也就是层数的增加 ， 让熵快速降低 。 熵降低的速度越快 ， 代表决策树的分类效率越高 。

递归构建决策树 ：

得到原始数据集，然后基于最好的属性值划分数据集，由于特征值可能多于两个，因此可能存在大于两个分支的数据集划分，第一次划分之后，数据将被向下传递到树分支的下一个节点，在此节点在此划分数据，因此可以使用递归的原则处理数据集。

递归结束的条件 ：

程序完全遍历所有划分数据集的属性，或者每个分支下的所有实例都具有相同的分类，如果所有实例具有相同的分类，则得到一个叶子节点或者终止块，任何到达叶子节点的数据必然属于叶子节点的分类。

决策树学习的 3 个步骤 ：

1、特征选择

特征选择决定了使用哪些特征来做判断。在训练数据集中，每个样本的属性可能有很多个，不同属性的作用有大有小。因而特征选择的作用就是筛选出跟分类结果相关性较高的特征，也就是分类能力较强的特征。

特征选择的目的是选取能够对训练集分类的特征。特征选择的关键是准则：信息增益、信息增益比、Gini 指数 。

2、决策树生成

选择好特征后，就从根节点触发，对节点计算所有特征的 熵， 选择合适 特征作为节点特征，根据该特征的不同取值建立子节点；对每个子节点使用相同的方式生成新的子节点 。

通常是利用信息增益最大、信息增益比最大、Gini 指数最小作为特征选择的准则。从根节点开始，递归的生成决策树。相当于是不断选取局部最优特征，或将训练集分割为基本能够正确分类的子集；

3、决策树剪枝

剪枝（pruning）：从已经生成的树上裁掉一些子树或叶节点，并将其根节点或父节点作为新的叶子节点，从而简化分类树模型。剪枝的主要目的是对抗”过拟合”，通过主动去掉部分分支来降低过拟合的风险。包括预剪枝和后剪枝。

预剪枝是在训练开始前规定条件 ，如： 树达到某一深度就停止训练 。

后剪枝树先找到树 ， 再根据一定条件去掉一部分分支 ，如： 限制叶子节点的个数 。

总结：

在一棵决策树中 1、 将面临的因素也就是问题的特征构建为树的内部节点 ；

2、 因素的特征值均构建为该因素特征节点中的分支指针 ；

3、 最终的类别结果树树的叶子节点 ；

这样就构成了一棵决策树 。

三、决策树的优缺点

优点：

易于理解和解释 ， 决策树可以可视化 。
几乎不需要数据预处理 ， 决策树不支持缺失值 。
可以同时处理数值变量和分类变量。其他方法大都适用于分析一种变量的集合 。
可以处理多值输出变量问题 。
使用白盒模型。如果一个情况被观察到，使用逻辑判断容易表示这种规则。相反，如果是黑盒模型（例如人工神经网络），结果会非常难解释 。

缺点：

决策树学习可能创建一个过于复杂的树，并不能很好的预测数据。也就是过拟合。修剪机制，设置一个叶子节点需要的最小样本数量，或者数的最大深度，可以避免过拟合。
决策树可能是不稳定的，因为即使非常小的变异，可能会产生一颗完全不同的树。这个问题通过decision trees with an ensemble来缓解。
学习一颗最优的决策树是一个NP-完全问题under several aspects of optimality and even for simple concepts。因此，传统决策树算法基于启发式算法，例如贪婪算法，即每个节点创建最优决策。这些算法不能产生一个全家最优的决策树。对样本和特征随机抽样可以降低整体效果偏差。
如果某些分类占优势，决策树将会创建一棵有偏差的树。因此，建议在训练之前，先抽样使样本均衡。

Original: https://blog.csdn.net/beiye_/article/details/123738195
Author: 白天数糖晚上数羊
Title: 机器学习——决策树（decision tree）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631510/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

知识表示学习神器OpenKE：快速获取KG表示

©PaperWeekly 原创 · 作者｜西南交一枝花单位｜西南交通大学CCIT实验室博士生研究方向｜NLP、时空数据挖掘导读最近使用到清华大学 NLP 组开发的知识图谱表…

人工智能 2023年6月1日
0070
ChatGPT掀起狂热潮，人类发展与突破点在哪？

博主此文讲述到：在往后的日子里，人类突破点在于创新，人的创造力会更加受到重视! https://mp.weixin.qq.com/s/aH8RUpFpAMBzBmTjJhOjiQ …

人工智能 2023年7月31日
0071
计算机网络：网络层

网络层的目的是实现两个端系统之间的数据透明传送，具体功能包括寻址和路由选择、连接的建立、保持和终止等。它提供的服务使传输层不需要了解网络中的数据传输和交换技术。网络层提供两种服务…

人工智能 2023年5月30日
0097
R语言 xlsx 读写Excel数据

【基础】简单读取excel文件数据【基础】简单写入数据到excel文件【进阶】随心所欲读取excel中的各种信息【进阶】随心所欲将数据写入excel文件感谢Adrian A. Dr…

人工智能 2023年7月18日
0047
python中list列表删除元素的4种方法

在python列表中删除元素主要分为以下3种场景：根据目标元素所在的索引位置进行删除，可以使用del关键字或pop()方法；根据元素本身的值进行删除，可使用列表（list类型）…

人工智能 2023年7月4日
00103
RepVGG论文详解（结合代码）

目录 1.简介 2.RepVGG详情 2.1 RepVGG Block 2.2 结构重参数化 2.2.1融合Conv2d和BN，将三个分支上的卷积算子和BN算子都转化为卷积算子（包…

人工智能 2023年7月28日
0086
Matlab-数字图像处理-获取图片rgb颜色分量及截取子图

Matlab-数字图像处理基础实验-获取图片rgb颜色分量及截取子图 Problem Statement 问题描述 1.Proficient in Matlab tools and…

人工智能 2023年6月22日
0076
数学建模（二）：优化

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
0070
Pandas数据分析基础

一）安装Pandas库使用之前确保已经安装了Pandas库，Pycharm有非常简单的操作，将下面代码粘贴到Pycharm的第一行，然后安ALT+回车，install即可。imp…

人工智能 2023年7月6日
0062
Matlab中如何使用appdesigner设计工具建立一个简单的界面

Matlab中如何使用appdesigner设计工具建立一个简单的界面（数据的输入、处理和保存）以使用不同算法处理图像的功能为例建立一个新的空白界面，matlab中输入 app…

人工智能 2023年5月26日
00148
深度学习模型试跑(十三):stylegan3

目录前言一.解读 * 1.1 论文解读 – 1.1.1 整体逻辑 1.1.2 动机 1.1.3 方法 1.1.4 部分代码二.模型搭建(以win 10为例) 三….

人工智能 2023年6月17日
0091
fbprophet-时间序列预测模型安装技巧和原理讲解

报错的方法 pip install pbprophet发现只是安装某些包后，安装出错，报红，提示你安装某些依赖包pip install pystan安装之后又报错所以不得不搜集资料…

人工智能 2023年7月16日
0054
【OpenCV 例程200篇】231. 特征描述之灰度共生矩阵（GLCM）

『youcans 的 OpenCV 例程200篇 – 总目录』【youcans 的 OpenCV 例程 300篇】231. 特征描述之灰度共生矩阵（GLCM） 4.2…

人工智能 2023年6月17日
00123
TensorFlow中如何进行模型的超参数调优

介绍在机器学习中，超参数调优是指找到最佳的超参数组合，以提高模型的性能和泛化能力。在TensorFlow中，超参数调优非常关键，可以通过调整学习率、批量大小、迭代次数等参数来改善…

人工智能 2023年12月30日
0048
pandas模块的基本使用

numpy能够帮助我们处理数值，但是pandas除了能处理数值之外(基于numpy)，还能够帮助我们处理其他类型的数据pandas技术文档：https://pandas.pydat…

人工智能 2023年7月8日
0097
人工智能笔记

第一章：绪论 1956年正式提出人工智能（artificial intelligence, AI）这个术语并把它作为一门新兴科学的名称。 20世纪三大科学技术成就：空间技术、原子能…

人工智能 2023年6月10日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习——决策树（decision tree）

1、特征选择

2、决策树生成

3、决策树剪枝

优点 ：

缺点 ：

大家都在看

优点：

缺点：