决策树分类

2023年7月1日上午12:26 • 人工智能 • 阅读 91

决策树

先构造树形结构，再进行一系列决策，决策树是分类算法，也能做回归。
比如有五个人(样本数据)，打算分类谁愿意打篮球，根据年龄和性别进行决策分类。
第一次先通过其中特征进行部分选择，再在子类中根据另一个特征再分类。最后一个叶子节点就是最终分类结果。

决策树算法以树状结构表示数据分类的结果。每个决策点实现一个具有离散点输出的测试函数，记为分支。
决策树分类

训练阶段
从给定的训练数据集DB，构造出一棵决策树。
Class = DecisionTree(DB)
分类阶段
从根开始，按照决策树的分类属性逐层往下划分，直到叶节点，获得概念（决策、分类）结果。
y = DecisionTree(x)

; 衡量模型的标准

熵
越大分类效果不好（等概的时候信息熵最大，为了尽可能分类，那么需要一方的概率尽可能大，另一方尽可能小，这样信息熵和也会更小）

Gini系数

越大分类效果不好

; 构造决策树的基本思想

构造树的基本思想就是随着树深度的增加，节点的熵迅速降低，熵降低速度越快越好，这样有望得到最矮的决策树。
假设有如下样本，如何决定哪个节点开始划分，这个时候就需要看熵了。

什么都没做的时候统计熵值，从play这个label来看

基于属性划分之后，计算熵值之和

根节点选取使得信息增益最大的。现在把1当成根节点，那么接下来的选择就是选择2，3，4使得信息增益最大。
决策树分类

ID3（信息增益）

决策树存在的问题：如果有ID属性，最终分类结果每个ID编号都只有一个，所以分类后的熵达到最小，这样信息增益就达到最大了，但是选择ID属性作为划分显然是无效的。
所以提出了一个新的值。

C4.5：信息增益率

让算法的信息增益除以自身的熵值（以ID举例，它的自身熵值很大，所以除法之后得到的信息增益率就会变小）

如何衡量最终的决策树分类效果如何

评价函数：（希望它越小越好，作用类似于损失函数）

Nt属于叶子节点样本总数，用H(t)表示当前叶子节点熵值。
如果是连续型的属性。首先将连续型属性离散化，把每个连续型属性的值分成不同的区间，依据是比较各个分裂点Gian值（信息增益）的大小。比如如下的年龄用区间划分

下面数字序列，如果进行”二分”，那么有9个可能的分界点

在构建决策树时，可以简单地忽略缺失数据，在计算增益时，仅考虑具有属性值的记录。

X[2]表示特征，特征分类按照小于等于2.45和大于2.45来划分。
决策树分类

决策树高度太高，说明有很多分支，最终所有叶子节点熵为0，每一个样本都分对，在训练集上分类效果100%。切得太碎，被异常点影响，造成 过拟合的问题。

所以要剪枝！！！防止过拟合

; 剪枝

预剪枝

在构建决策树的过程时，提前停止，边构建边剪枝
例如指定决策树深度为3，或者构建过程中，手动停止；或者样本数小于五十就提前停止。

; 后剪枝

决策树建好后，然后才开始裁剪。
构造新的损失函数，加入叶子节点个数作为约束项。

Tleaf表示叶子节点的个数，C(T)是前面讲述的评价函数。
α大，叶子节点就约束要更少一点，α小，叶子节点数量可以相对大一点。比较不分叶子节点之前和之后的损失值。就是比较剪枝和不剪枝的损失。

随机森林

构建多棵决策树，用这一片决策树去共同进行最终决策。
双重随机性：1.样本选择随机，决策树的构建从原始训练集随机选择（可能就只随机选择样本中的60%的数据，有放回采样）；2.特征选择随机，也可能有异常特征，特征选择不是有放回的。决策树均选择部分特征。

Bootstraping：有放回采样
Bagging：有放回采样n个样本一共建立分类器

; 通过花萼和花瓣的长度和宽度对鸢尾花分类

from sklearn import datasets
import pandas as pd
from sklearn.tree import DecisionTreeClassifier

from sklearn.model_selection import train_test_split

iris = datasets.load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.75, random_state=1)

iris_data = pd.read_csv("iris.xls",error_bad_lines=False)

decision_tree_classifier = DecisionTreeClassifier()

decision_tree_classifier.fit(X_train,y_train)
m = decision_tree_classifier.score(X_test,y_test)

Original: https://blog.csdn.net/weixin_42882887/article/details/124452324
Author: Juily家的小蜜果
Title: 决策树分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662362/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tf2.6 OOM：tensorflow/core/framework/op_kernel.cc:1680] Resource exhausted: failed to allocate memory

2022-04-27 17:16:35.834265: I tensorflow/core/common_runtime/bfc_allocator.cc:1074] total_…

人工智能 2023年7月10日
0068
体育外交类毕业论文文献包含哪些？

本文是为大家整理的体育外交主题相关的10篇毕业论文文献，包括5篇期刊论文和5篇学位论文，为体育外交选题相关人员撰写毕业论文提供参考。 1.[期刊论文]我国体育外交研究热点与演化分析…

人工智能 2023年6月10日
0079
Python报错：Variable conv1/weights does not exist, or was not created with tf.get_variable().

报错完整版：Variable conv1/weights does not exist, or was not created with tf.get_variable(). Di…

人工智能 2023年5月25日
0075
机器学习入门iris数据加载

调用sklearn模块里的datasets from sklearn import datasets iris=datasets.load_iris() 把iris的参数数据赋值给…

人工智能 2023年6月16日
0094
将DataFrame转化为Excel

学习pandas第三天，将会每天坚持打卡学习就学习，如果觉得有帮助可以点赞一哈！！！ # 1.将DataFrame保存为Excel 1）下面是DataFrame文件 2）通过下面这…

人工智能 2023年7月6日
0081
ModuleNotFoundError: No module named ‘dataset‘–《深度学习入门》3.6.1节错误的解决方案

通过《深度学习入门》这本书学习3.6.1节NMIST数据集的时候，输入以下代码 import sys,os sys.path.append(os.pardir)#&#x4E…

人工智能 2023年6月17日
0079
我在STM32单片机上跑神经网络算法—CUBE-AI

摘要：为什么可以在STM上面跑人工智能？简而言之就是通过X-Cube-AI扩展将当前比较热门的AI框架进行C代码的转化，以支持在嵌入式设备上使用，目前使用X-Cube-AI需要在S…

人工智能 2023年6月24日
0083
Boss直聘招聘数据分析岗位小分析

嗨喽! 大家好，我是”流水不争先，争得滔滔不绝”的翀，18双非本科生一枚，正在努力！欢迎大家来交流学习，一起学习数据分析，希望我们一起好好学习，天天向上，目…

人工智能 2023年7月17日
0056
近期全球知识图谱相关行业动态、会议讲座、综述推荐

行业动态速报 1.耶鲁大学和 IBM 研究人员推出核图神经网络 (KerGNNs) 耶鲁大学和 IBM 研究人员提出了核图神经网络 (KerGNNs)。KerGNN 是将图形内核…

人工智能 2023年6月1日
0092
Latex中也能展示动态图？

技术背景在学术领域，很多文档是用Latex做的，甚至有很多人用Latex Beamer来做PPT演示文稿。虽然在易用性和美观等角度来说，Latex Beamer很大程度上不如Po…

人工智能 2023年6月4日
00105
门槛回归模型_动态面板门槛模型及stata操作：xthenreg

来源：参考自Estimation of Dynamic Panel Threshold Model using Stata，作者： Myung Hwan Seo, Sueyoul…

人工智能 2023年6月18日
0079
Bert实战：使用Bert实现文本分类。

1、简介最近使用Bert实现了文本分类，模型使用的是bert的base版本。本文记录一下实现过程。数据集：cnews，包含三个文件，分别是cnews.train.txt、cne…

人工智能 2023年5月27日
0078
Mask R-CNN讲解

文章目录一：Mask R-CNN的横空出世二：网络架构 * 【Backbone】【RPN】【ProposalLayer】【DetectionTargetLayer】【R…

人工智能 2023年6月23日
0086
哈工大2022机器学习实验一：曲线拟合

这个实验的要求写的还是挺清楚的（与上学期相比），本博客采用python实现，科学计算库采用 numpy，作图采用 matplotlib.pyplot，为了简便在文件开头import…

人工智能 2023年7月5日
0067
python取dataframe某行某列_python：pandas之DataFrame取行列（df.loc(),df.iloc()）以及索引…

import pandas as pd import numpy as np df = pd.DataFrame(np.arange(24).reshape(6,4),index=…

人工智能 2023年7月6日
0086
【OpenCV学习】（十）特征点检测与匹配

【OpenCV学习】（十）特征点检测与匹配背景提取图像的特征点是图像领域中的关键任务，不管在传统还是在深度学习的领域中，特征代表着图像的信息，对于分类、检测任务都是至关重要的；…

人工智能 2023年7月20日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31