【决策树】深入浅出讲解决策树算法（原理、构建）

2023年6月15日下午1:34 • 人工智能 • 阅读 98

1、决策树的背景

最早的决策树算法是由Hunt等人于1966年提出，Hunt算法是许多决策树算法的基础，包括ID3、C4.5和CART等。

决策树算法是一种有监督学习算法，利用分类的思想，根据数据的特征构建数学模型，从而达到数据的筛选，决策的目标。

2、决策树的原理

决策树( Decision Tree) 又称为判定树，是数据挖掘技术中的一种重要的分类与回归方法，它是一种以树结构（包括二叉树和多叉树）形式来表达的预测分析模型。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。

一般，一棵决策树包含 一个根节点，若干个内部结点和若干个叶结点。

叶结点对应于决策结果，其他每个结点对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果划分到子结点中，根结点包含样本全集，从根结点到每个叶结点的路径对应了一个判定的测试序列。决策树学习的目的是产生一棵泛化能力强，即处理未见示例强的决策树。

使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

3、决策树的构建

特征选择：选取有较强分类能力的特征。
决策树生成：典型的算法有 ID3 和 C4.5，它们生成决策树过程相似， ID3 是采用信息增益作为特征选择度量，而 C4.5 采用信息增益比率。
决策树剪枝：剪枝原因是决策树生成算法生成的树对训练数据的预测很准确，但是对于未知数据分类很差，这就产生了过拟合的现象。涉及算法有CART算法。

4、决策树的划分选择

熵：物理意义是体系混乱程度的度量。

信息熵：表示事物不确定性的度量标准，可以根据数学中的概率计算，出现的概率就大，出现的机会就多，不确定性就小（信息熵小）。

（1）信息增益（ID3使用的划分方式）

假设训练数据集

和特征

，根据如下步骤计算信息增益：

第一步：计算数据集

的经验熵：

其中，

为第

类样本的数目，

为数据集D的数目。

第二步：计算特征

对数据集

的经验条件熵

：

第三步：计算信息增益：

一般而言，信息增益越大，则意味着使用属性

来进行划分所获得的”纯度提升” 越大。因此，我们可使用信息增益来进行决策树的划分属性选择。ID3决策树学习算法就是以信息增益为准则来选择划分属性的。

（2）信息增益率（C4.5所用划分准则）

特征

对于数据集

的信息增益比定义为：

其中，

称为数据集

关于

的取值熵。

增益率准则就可取值数目较少的属性有所偏好，因此，C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

（3）基尼指数

分类问题中，假设有

个类，样本点属于

的概率

，则概率分布的基尼指数：

二分类问题：

对给定的样本集合

，基尼指数：

CART决策树使用”基尼指数”来选择划分属性。数据集

的纯度可用基尼值来度量，【决策树】深入浅出讲解决策树算法（原理、构建）

越小，则数据集的纯度越高。CART生成的是二叉树，计算量相对来说不是很大，可以处理连续和离散变量，能够对缺失值进行处理。

5、决策树的剪枝

剪枝：顾名思义就是给决策树 “去掉” 一些判断分支，同时在剩下的树结构下仍然能得到不错的结果。之所以进行剪枝，是为了防止或减少 “过拟合现象” 的发生，是决策树具有更好的泛化能力。

具体做法：去掉过于细分的叶节点，使其回退到父节点，甚至更高的节点，然后将父节点或更高的叶节点改为新的叶节点。

剪枝的 两种方法：

预剪枝：在决策树构造时就进行剪枝。在决策树构造过程中，对节点进行评估，如果对其划分并不能再验证集中提高准确性，那么该节点就不要继续王下划分。这时就会把当前节点作为叶节点。

后剪枝：在生成决策树之后再剪枝。通常会从决策树的叶节点开始，逐层向上对每个节点进行评估。如果剪掉该节点，带来的验证集中准确性差别不大或有明显提升，则可以对它进行剪枝，用叶子节点来代填该节点。

注意：决策树的生成只考虑局部最优，相对地，决策树的剪枝则考虑全局最优。

6、决策树的优缺点

优点:

&#x901F;&#x5EA6;&#x5FEB;:&#x8BA1;&#x7B97;&#x91CF;&#x76F8;&#x5BF9;&#x8F83;&#x5C0F;&#xFF0C;&#x4E14;&#x5BB9;&#x6613;&#x8F6C;&#x5316;&#x6210;&#x5206;&#x7C7B;&#x89C4;&#x5219;&#x3002;&#x53EA;&#x8981;&#x6CBF;&#x7740;&#x6811;&#x6839;&#x5411;&#x4E0B;&#x4E00;&#x76F4;&#x8D70;&#x5230;&#x53F6;&#xFF0C;&#x6CBF;&#x9014;&#x7684;&#x5206;&#x88C2;&#x6761;&#x4EF6;&#x5C31;&#x80FD;&#x591F;&#x552F;&#x4E00;&#x786E;&#x5B9A;&#x4E00;&#x6761;&#x5206;&#x7C7B;&#x7684;&#x8C13;&#x8BCD;&#x3002;
&#x51C6;&#x786E;&#x6027;&#x9AD8;:&#x6316;&#x6398;&#x51FA;&#x7684;&#x5206;&#x7C7B;&#x89C4;&#x5219;&#x51C6;&#x786E;&#x6027;&#x9AD8;&#xFF0C;&#x4FBF;&#x4E8E;&#x7406;&#x89E3;&#xFF0C;&#x51B3;&#x7B56;&#x6811;&#x53EF;&#x4EE5;&#x6E05;&#x6670;&#x7684;&#x663E;&#x793A;&#x54EA;&#x4E9B;&#x5B57;&#x6BB5;&#x6BD4;&#x8F83;&#x91CD;&#x8981;&#x3002;
&#x975E;&#x53C2;&#x6570;&#x5B66;&#x4E60;&#xFF0C;&#x4E0D;&#x9700;&#x8981;&#x8BBE;&#x7F6E;&#x53C2;&#x6570;&#x3002;

缺点：

&#x51B3;&#x7B56;&#x6811;&#x5F88;&#x5BB9;&#x6613;&#x8FC7;&#x62DF;&#x5408;&#xFF0C;&#x5F88;&#x591A;&#x65F6;&#x5019;&#x5373;&#x4F7F;&#x8FDB;&#x884C;&#x540E;&#x526A;&#x679D;&#x4E5F;&#x65E0;&#x6CD5;&#x907F;&#x514D;&#x8FC7;&#x62DF;&#x5408;&#x7684;&#x95EE;&#x9898;&#xFF0C;&#x56E0;&#x6B64;&#x53EF;&#x4EE5;&#x901A;&#x8FC7;&#x8BBE;&#x7F6E;&#x6811;&#x6DF1;&#x6216;&#x8005;&#x53F6;&#x8282;&#x70B9;&#x4E2D;&#x7684;&#x6837;&#x672C;&#x4E2A;&#x6570;&#x6765;&#x8FDB;&#x884C;&#x9884;&#x526A;&#x679D;&#x63A7;&#x5236;&#xFF1B;
&#x51B3;&#x7B56;&#x6811;&#x5C5E;&#x4E8E;&#x6837;&#x672C;&#x654F;&#x611F;&#x578B;&#xFF0C;&#x5373;&#x4F7F;&#x6837;&#x672C;&#x53D1;&#x751F;&#x4E00;&#x70B9;&#x70B9;&#x6539;&#x52A8;&#xFF0C;&#x4E5F;&#x4F1A;&#x5BFC;&#x81F4;&#x6574;&#x4E2A;&#x6811;&#x7ED3;&#x6784;&#x7684;&#x53D8;&#x5316;&#xFF0C;&#x53EF;&#x4EE5;&#x901A;&#x8FC7;&#x96C6;&#x6210;&#x7B97;&#x6CD5;&#x6765;&#x89E3;&#x51B3;&#xFF1B;

关注微信公众号【有梦想的程序星空】，了解软件系统和人工智能算法领域的前沿知识，让我们一起学习、一起进步吧！

Original: https://blog.csdn.net/kevinjin2011/article/details/125147134
Author: 程序遇上智能星空
Title: 【决策树】深入浅出讲解决策树算法（原理、构建）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614865/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据分析（3）数据重构

task3——数据重构学习参考资料：datawhale动手学数据分析学习链接：https://github.com/datawhalechina/hands-on-data-a…

人工智能 2023年7月8日
0088
张量如何用于自监督学习算法中的表示学习

人工智能 2024年1月1日
0040
数据包络分析（DEA）详解（以第八届宁夏省赛为例）

目录一、基本介绍 1.1原理 1.2CCR模型 1.3BCC模型二、代码 2.1MATLAB代码 2.2Python代码三、案例分析 3.1案例介绍 3.2案例分析 3.3案…

人工智能 2023年6月17日
0091
机器学习之逻辑回归（Logistic Regression）

在公众号「 python风控模型」里回复关键字：学习资料大家好！大家好，今天我们将看到机器学习技术中一个有趣的算法，称为逻辑回归。因此，在进入主题之前，我们需要复习一些基本术语…

人工智能 2023年6月13日
0098
手机在线提取视频中的音频方法

随着互联网的普及，使用率越来越高，在观看视频时，如果遇到视频中最喜欢的伴奏或背景音乐，这时用户往往想把这些音频提取成一个独立的音频。以下文章将介绍一种快速、易操作的音频提取方法&#…

人工智能 2023年5月23日
0058
uniapp开发微信小程序报错：[system] API getUserProfile is not yet implemented

在用uniapp开发微信小程序时，想获取用户的微信头像和微信用户名首先想到的是 uni.login({ provider: ‘weixin’, success: function…

人工智能 2023年5月30日
00100
SQL介绍

目录一、什么是SQL？ 1、SQL的概念 2、SQL的特点 3、SQL发展简史二、openGauss数据库的”SQL” 1、数据类型（常用）数值类型 …

人工智能 2023年6月2日
00111
不同缺失值(missing)填充(imputation)方法回归模型（Regressor）效果对比

不同缺失值(missing)填充(imputation)方法回归模型（Regressor）效果对比缺失值可以使用0，均值、中位数、众数、KNN、回归、插值等多种方法进行填充； s…

人工智能 2023年6月18日
0092
FaceSwap安装后在win10下无法打开GUI

FaceSwap安装后在win10下无法打开GUI 一、前言：本来根据GitHub上的项目，想通过setup.py来配置，但是尝试了很多次都很难解决。但是faceswap集合了一…

人工智能 2023年5月26日
00148
实操针对房屋数据集“house_prices.csv”的多元线性回归

文章目录 * – 1、、数据清洗 – + * 1.1、数据缺失，即存在某些数据等于0 * 1.2、存在重复数据 * 1.3、存在非数值性属性 –…

人工智能 2023年6月17日
00175
第三章：数据库系统（软件设计师备考）

文章目录第一节：三级模式——两级映射第二节：数据库设计过程第三节：E-R模型第四节：关系代数第五节：规范化理论 * 1. 函数依赖 2. 价值与用途 3. 键 4. 求候…

人工智能 2023年6月10日
0044
【目标检测-YOLO】YOLOv5-6.0-P6 1280 Models(第三篇)

5.0 版本发布了 YOLOv5-P6 模型。 This release implements YOLOv5-P6 models and retrained YOLOv5-P5 m…

人工智能 2023年7月10日
0073
CVPR2022目标检测文章汇总+创新点简要分析

大概总结了一下CVPR2022目标检测领域的文章，并未包括跨域和3D目标检测。个人总结，难免有疏漏，大家参考一下就好。 CVPR 2022 一、常规目标检测 1. MViTv2: …

人工智能 2023年7月28日
0063
多任务学习模型MTL: MMoE、PLE

常见的监督学习包括：回归：预测值是连续的，比如销售额 [En] regression: the predicted value is continuous, such as sa…

人工智能 2023年5月25日
00115
2021电赛F题智能送药小车方案分析(openMV数字识别,红线循迹,STM32HAL库freeRTOS,串级PID快速学习,小车自动返回）

2021全国大学生电子设计竞赛F题智能送药小车前提：本篇文章重在分享自己的心得与感悟，我们把最重要的部分，摄像头循迹，摄像头数字识别问题都解决了，有两种方案一种是openARTm…

人工智能 2023年6月23日
0080
Opencv基础（二）：使用OpenCV读取和写入视频

在OpenCV中读写视频与读写图像非常相似。视频就是一系列通常被称为帧的图像。所以，你需要做的就是循环播放视频序列中的所有帧，然后一次处理一帧。在这篇文章中，我们将演示如何从一个文…

人工智能 2023年5月28日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【决策树】深入浅出讲解决策树算法（原理、构建）

（1）信息增益（ID3使用的划分方式）

（2）信息增益率（C4.5所用划分准则）

（3）基尼指数

优点:

缺点：

大家都在看