情形 1:如果当前子集中所有数据有完全相同的输出类别，那么终止
情形 2:如果当前子集中所有数据有完全相同的输入特征，那么终止
比如：晴天-无风-湿度正常-温度合适，最后有的去了有的没去。此时即使不终止也没办法了，因为能用的信息已经用完了。这意味着： 1、数据有噪声noise。需要进行清理，如果噪声过多说明数据质量不够好。 2、漏掉了重要的Feature，比如漏掉了当天是否有课，有课就没办法出去玩。

可能的 情形3: 如果所有属性分裂的信息增益为0, 那么终止。但这不是一个好的想法，如果IG=0甚至在第一步就无法选择任何属性，无法生成一个树~

即ID3算法只有上面两种情况会停止分裂，如果IG=0就随便选一个好了。

1.2.3 优缺点、归纳偏置

我们还说了一些ID3决策树的优缺点：

假设空间是完备的（即能处理属性的析取又能处理属性的合取）
目标函数一定在假设空间里
输出单个假设（沿着树的一条路走下去）
不超过20个问题(根据经验，一般feature不超过20个，过于复杂树比较长也容易产生过拟合)
没有回溯（以A1做根节点，没办法退回去看A2做根节点怎么样）
局部最优
在每一步中使用子集的所有数据(比如梯度下降算法里权值的更新策略是每条数据更新一次的话，那就是每次只使用一条数据)
数据驱动的搜索选择
对噪声数据有鲁棒性

ID3中的归纳偏置（Inductive Bias）

假设空间 H 是作用在样本集合 X 上的
没有对假设空间作限制
偏向于在靠近根节点处的属性具有更大信息增益的树
该算法的偏置在于对某些假设具有一些偏好 (搜索偏置，尝试找到最短的树)，而不是对假设空间 H 做限制(描述偏置).
奥卡姆剃刀（Occam’s Razor）*：偏向于符合数据的最短的假设

1.3 处理过拟合问题->预剪枝-后剪枝

决策树过拟合的一个极端例子：

每个叶节点都对应单个训练样本 —— 每个训练样本都被完美地分类
整个树相当于仅仅是一个数据查表算法的简单实现

为了避免过拟合问题，我们介绍了 预剪枝 和 后剪枝

对决策树来说有两种方法避免过拟合

当数据的分裂在统计意义上并不显著(如样例少)时，就停止增长：预剪枝
构建一棵完全树，然后再做后剪枝

1.3.1 对于预剪枝

对于预剪枝我们很难估计最后树的大小

方式1：基于样本数量的预剪枝(按照特定比例停止)

通常一个节点不再继续分裂，当：

到达一个节点的训练样本数小于训练集合的一个特定比例 (例如 5%)，无论混杂度或错误率是多少，我们都让其停止分裂。
因为基于过少数据样本的决定会带来较大误差和泛化错误(盲人摸象)。

方式2：基于信息增益的阈值

我们一般设定一个较小的阈值，如果信息增益IG

Original: https://blog.csdn.net/suic009/article/details/126397432
Author: 老师我作业忘带了
Title: AI遮天传 ML-决策树(二)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/716746/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

案例分享 | CEVA 使用 TensorFlow Lite 在边缘设备部署语音识别引擎及前端

客座博文 / Ido Gus，来自 CEVA CEVA 是无线连接和智能传感技术的领先授权商。我们的产品可帮助原始设备制造商 (OEM) 为移动设备、消费者、汽车、机器人、工业和物…

人工智能 2023年5月25日
00102
真人语音朗读软件_【软件更新】文字转语音神器，基本接近真人配音！

免责声明此软件”仅限学习交流，不能用于商业用途”，如用于商业用途，请到官方购买正版软件，追究法律责任与本站无关。软件介绍我们的朋友大多文语转换工具很少，…

人工智能 2023年5月27日
0079
Pandas Tips: 关于列(名)的各种妖娆操作

0. 前言 1. 缺省设置下从文件中读入 2. 读入文件时自己对列进行命名 3. 获取列名 4. 列名的列表以及列遍历操作 5. 读入文件后修改列名 5.1 暴力方法 5.2 使用…

人工智能 2023年7月7日
0058
细粒度分类——数据集制作

本文为打印机数据集的处理方法，以拍摄条件为25cm、顶光、0°的一组数据集为例。目录 1.裁剪边框 2.分割数据集 3.切割（256×256） 4.筛除 5.图片重命名…

人工智能 2023年7月1日
0083
学习笔记：速腾聚创激光点云处理——地面分割和聚类

前言 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopp…

人工智能 2023年6月2日
0096
LSTM时间序列预测

文章目录 1、tensorflow张量的形状 2、RNN 3、LSTM * 3.1 深入了解LSTM结构 4、keras的LSTM – 4.1 参数return_seq…

人工智能 2023年5月24日
0095
世界坐标系、相机坐标系、图像坐标系、像素坐标系

四个坐标系都是什么？ 1.世界坐标系->相机坐标系->图像坐标系->像素坐标系 2.像素坐标系->图像坐标系->相机坐标系->世界坐标系图像处…

人工智能 2023年6月23日
0085
WAV格式文件分析

文章目录 WAV格式文件分析 * WAV格式简介 WAV格式组成 – RIFF Chunk Format Chunk Data Chunk + 8 bit 单声道 8 …

人工智能 2023年5月23日
0085
深度学习框架是否支持模型的压缩和量化，以减少模型的存储空间和计算资源消耗

深度学习框架支持模型的压缩和量化的问题在深度学习领域，由于深层神经网络模型的复杂性和大规模的参数数量，对计算资源的需求非常高，同时模型的存储空间也会非常庞大。因此，如何减少深度学…

人工智能 2024年1月1日
0033
Ubuntu20.04安装tensorflow2.8.0+CUDA11.4

Ubuntu20.04安装tensorflow2.8.0+CUDA11.4 * – 1. 创建虚拟环境 – 2. 安装tensorflow – …

人工智能 2023年5月24日
00161
Apollo学习笔记（1）：Ubantu20.04安装Apollo7.0

前言最近有实现Carla与Apollo联合仿真的想法,必备条件就是都两个软件部署到Ubantu20.04上，目前已经完成Carla 0.9.13的部署工作，详见Carla学习笔记…

人工智能 2023年6月24日
00118
vue+flask实现视频目标检测yolov5

开始做这个之前，了解一些vue的基础，然后对flask完全不知道。所以特别感谢很多博主的文章。主要参考的是这篇文章：在WEB端部署YOLOv5目标检测（Flask+VUE），博主在…

人工智能 2023年7月12日
0084
实体关系抽取学习笔记

1 关系抽取概述 1.1 简介信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。关系抽取是其中的重要子任务之一，主要目的是从文本中识别实体并抽取实体之间的语义关系…

人工智能 2023年6月1日
0093
云GPU（恒源云）训练的具体操作流程

简介这篇博客主要讲一下怎么使用云服务器上的GPU跑程序，主要是一些设置和操作步骤，具体的训练步骤可以看我的另一篇博客。以下步骤可能会有遗漏，也可能和你们有一些差别，有什么问题可…

人工智能 2023年6月23日
00254
文献学习02-Effective Modeling of Encoder-Decoder Architcture for Joint Entity and Relation Extraction

论文信息（1）题目：Effective Modeling of Encoder-Decoder Architecture for Joint Entity and Relatio…

人工智能 2023年6月1日
0086
【全网最详细yolov6】yoloV6调试记录（含训练自己的数据集及常见报错及解决方法）–持续更新ing

本文手把手教你如何调试最新的yolov6，复现运行COCO2017及训练自己的数据集，目前该项目刚发布，BUG会比较多，调起来一般不会那么顺利，本文含windows+ubuntu，…

人工智能 2023年7月4日
00107

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

AI遮天传 ML-决策树(二)

1.1 基础认识

1.2 决策树ID3算法

1.2.1 最佳决策属性->Impurity->IG

1.2.2 停止分裂

1.2.3 优缺点、归纳偏置

1.3 处理过拟合问题->预剪枝-后剪枝

1.3.1 对于预剪枝

大家都在看