决策树总结

2023年7月16日下午10:51 • 人工智能 • 阅读 83

根据训练数据是否拥有标记信息，可以把机器学习分为以下几类：

决策树（decision tree ）模型常常用来解决分类和回归问题。常见的算法包括 CART (Classification And Regression Tree)、ID3、C4.5等。

二分类学习：

属性+属性值

决策树学习的目的：为了产生一颗泛化能力强的决策树，即 处理未见示例能力强。

决策树学习的关键是算法的第8行：选择最优划分属性

什么样的划分属性是最优的？

我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的”纯度”越来越高，可以高效地从根结点到达叶结点，得到决策结果。

三种度量结点”纯度”的指标：

信息增益
增益率

3.基尼指数

1. 信息增益

信息熵

香农提出了”信息熵”的概念，解决了对 信息的量化度量问题。

香农用”信息熵”的概念来描述信源的不确定性。

假设我们已经知道衡量不确定性大小的这个量已经存在了，不妨就叫做” 信息量”
• 不会是负数

• 不确定性函数 f 是概率 p 的单调递减函数；

• 可加性：两个独立符号所产生的不确定性应等于各自不确定性之和，即

同时满足这三个条件的函数f 是负的对数函数，即

一个事件的 信息量就是这个事件发生的概率的负对数。

信息熵是跟所有事件的可能性有关的，是平均而言发生一个事件得到的信息量大小。所以信息熵其实是信息量的期望。

信息增益

一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的”纯度提升”越大。

著名的ID3 决策树算法

举例：求解划分根结点的最优划分属性

数据集包含17 个训练样例：

以属性”色泽”为例计算其信息增益

根结点的信息熵：

用”色泽”将根结点划分后获得3 个分支结点的信息熵分别为：

属性”色泽”的信息增益为：

若把”编号”也作为一个候选划分属性，则属性”编号”的信息增益为：

用”编号”将根结点划分后获得17 个分支结点的信息熵均为：

则”编号”的信息增益为：

远大于其他候选属性

信息增益准则对可取值数目较多的属性有所偏好

2. 增益率

增益率准则对可取值数目较少的属性有所偏好

著名的C4.5 决策树算法综合了 信息增益准则和 信息率准则的特点：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

3. 基尼指数

基尼指数

著名的CART 决策树算法

• 过拟合 ：学习器学习能力过于强大，把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，导致泛化性能下降。

• 欠拟合 ：学习器学习能力低下，对训练样本的一般性质尚未学好。

过拟合无法彻底避免，只能做到”缓解”。

剪枝，即通过主动去掉一些分支来降低过拟合的风险。

决策树的剪枝策略: 预剪枝 / 后剪枝

预剪枝：在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点

后剪枝：先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

留出法：将数据集D划分为两个互斥的集合：训练集S和测试集T

预剪枝

精度：正确分类的样本占所有样本的比例,

训练集：好瓜坏瓜 1 , 2 , 3 , 6 , 7 , 10 , 14 , 15 , 16 , 17

验证集：4,5,8,9,11,12,13

预剪枝使得决策树的很多分支都没有”展开”

优点：

• 降低过拟合的风险

• 减少了训练时间开销和测试时间开销

不足：

• 基于”贪心”本质禁止某些分支展开，带来了欠拟合的风险

后剪枝

先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

训练集：好瓜坏瓜 1 , 2 , 3 , 6 , 7 , 10 , 14 , 15 , 16 , 17

验证集：4,5,8,9,11,12

后剪枝决策树

• 保留了更多的分支

• 欠拟合风险很小

• 泛化能力优于预剪枝决策树

• 训练时间开销比未减枝和预剪枝决策树大得多

生产完全决策树
所有非叶节点逐一考察

预剪枝决策树

总结

四类学习任务

●

Hunt 算法 3 种递归返回情形、第 8 行

●

3 种度量结点”纯度”的指标：

• 信息增益 ID3

• 增益率 C4.5

• 基尼指数 CART

•

过拟合、欠拟合

●

决策树剪枝

• 预剪枝

• 后剪枝

Original: https://blog.csdn.net/m0_65532100/article/details/123976599
Author: 古道西风瘦码
Title: 决策树总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697384/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AI-机器学习，概率统计，NLP，高性能神经网与AI芯片应用研修，计算机视觉

机器学习作为当代最火的话题之一，作为程序员的一员，肯定也要跟上时代的步伐。什么是概率统计，概率统计是通过机器学习，人工智能，计算机科学的基石。了解详情：链接: https://p…

人工智能 2023年5月28日
0093
DataLoader的collate_fn参数 default_collate 与自定义的 collate_fn

import torch import numpy as np import torch.utils.data as Data from sklearn.datasets impo…

人工智能 2023年7月22日
0042
Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection

Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection H…

人工智能 2023年7月12日
0055
【IoU loss】IoU损失函数理解

文章目录 1 引言 2 问题分析 3 IoU Loss 4 代码演示IoU 5 感谢链接 1 引言目标检测任务的损失函数由Classificition Loss和Bounding…

人工智能 2023年7月9日
0092
计算机硕士研究生毕设选题方向推荐 – 题目推荐

文章目录 0 前言 1 如何寻找合适的题目 – 几点建议 2 国内外差异 3 选题领域 4 选题推荐 5 最后 0 前言这段时间，来问计算机硕士研究生毕设选题的学弟学…

人工智能 2023年6月16日
00104
句子生成算法python实现

问题背景给定一组特定的语法规则、语料单词，而后依此，不断替换所有概念词，直到生成一句具体的句子。概念词包括：句子、主语、主语s、代号等，这些指向某一个语法概念，实际不应出现在最…

人工智能 2023年6月1日
0080
【无标题】

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月7日
0054
如何将一节课转成文字文稿

如何将课文免费转换为文本 [En] How to convert a lesson into text for free 文章目录如何免费将一节课转成文字文稿准备工作一、录制…

人工智能 2023年5月23日
00105
目标检测算法——YOLOV7——详解

1、主要贡献主要是现有的一些trick的集合以及模块重参化和动态标签分配策略，最终在 5 FPS 到 160 FPS 范围内的速度和准确度都超过了所有已知的目标检测器。当前目标…

人工智能 2023年6月16日
0080
循环神经网络详解(RNN原理和实现代码)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月23日
0075
YOLOv5的anchor设定

前言 yolo算法作为one-stage领域的佼佼者，采用anchor-based的方法进行目标检测，使用不同尺度的anchor直接回归目标框并一次性输出目标框的位置和类别置信度。…

人工智能 2023年6月17日
00157
R语言对dataframe行数据进行筛选（row selection）、筛选数据行、基于条件筛选数据行

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月25日
0081
2023最新SSM计算机毕业设计选题大全（附源码+LW）之java扶贫产品和扶贫物资捐赠系统r32rk

如果你自己基础不好或者是小白的情况下那就建议你选择网站、系统类的去做，但是还得问问你们导师，如果你们导师没问题就可以，因为有的导师是不愿意你们选择做网站、系统的，毕竟做的人比较多，…

人工智能 2023年6月28日
0094
生成扩散模型漫谈：一般框架之SDE篇

©PaperWeekly 原创 · 作者 |苏剑林单位 | 追一科技研究方向 |NLP、神经网络在写的第一篇文章时，就有读者在评论区推荐了宋飏博士的论文《Score-Base…

人工智能 2023年6月25日
0083
ubuntu20编译opencv4.5.4+opencv_contrib4.5.4记录

ubuntu20编译opencv4.5.4+opencv_contrib4.5.4记录第一章：更新环境和安装Cmake 1.更新一下 sudo apt-get update su…

人工智能 2023年7月20日
0064
数据分析与挖掘———SPSS Moderler

数据分析与挖掘———SPSS Moderler 一、Modeler给概述 1、SPSS Modeler基本认识 IBM SPSS Modeler是一组 数&a…

人工智能 2023年7月16日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

决策树总结

1. 信息增益

举例：求解划分根结点的最优划分属性

2. 增益率

3. 基尼指数

预剪枝

后剪枝

大家都在看