机器学习——决策树

2023年7月6日上午4:50 • 人工智能 • 阅读 84

一、决策树定义：

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。

结点有两种类型：内部结点（internal node）和叶结点（leaf node）。内部结点表示一个特征或属性，叶结点表示一个类。

⚪：内部结点

正方形：叶结点

二、决策树特征选择

2.1 特征选择问题

特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。如果用一个特征去分类，得到的结果与随机的分类没有很大差别，那么这次分类是无意义的。因此，我们要选取有意义的特征进行分类。

举个例子吧~

如上述表格所示，决定买房子要不要贷款的因素有年龄、有无工作、有无房子、信贷情况四个因素。那么如何选取合适的特征因素呢？

特征选择就是决定用哪个特征来划分特征空间。

直观上来讲，如果一个特征具有更好的分类能力，或者说，按照各以特征将训练数据集分割成子集，使得各个子集在当前条件下有最好的分类，那么就应该选择这一特征。

信息增益（information gain）就能够很好的表示这一直观准则。

2.2 信息增益

2.2.1 熵

在统计学中，熵是表示随机变量不确定性的度量。

设X是一个取有限个值的离散随机变量，其概率分布为

则随机变量X的熵定义为：

其中如果pi = 0，则0log0 = 0.

单位为bit或者nat。

上只依赖于X的分布，而与X的取值无关，所以也可将X的熵记作H（p）。

熵越大，随机变量的不确定性越大，从定义可以验证：

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

2.2.2 信息增益

选择方法：

计算方法：

输入：训练数据集D和特征值A:

输出：特征A队训练数据集D的信息增益g(D,A)，

step1：计算数据集D的经验熵H(D)：

step2：计算特征A对数据集D的经验条件熵H(D|A)：

step3：计算信息增益：

举个栗子吧~：

用上面的表，计算每个特征的信息增益！！！！

所以A3的信息增益值最大，选择A3做最优特征。

三、决策树的生成

3.1 ID3算法

ID3算法的核心是在决策树上各个结点上应用信息增益准则选择特征，递归地构建决策树。

3.1.1理论推导

对上表用ID3算法建立决策树：

3.1.2代码实现

https://blog.csdn.net/colourful_sky/article/details/82056125

3.2 C4.5 算法

C4.5算法与ID3类似，C4.5算法对ID3算法进行了改进，C4.5在生产的过程中，用信息增益比来选择特征。

3.2.1理论推导

https://www.cnblogs.com/wsine/p/5180315.html

四、决策树的剪枝

4.1 原理

决策树生成算法递归地产生决策树，直到不能继续下去为止。这样产生的结果容易出现过拟合现象。因为这样生成的决策树过于复杂，所以我们需要对决策树进行简化——剪枝。

剪枝：在决策树学习中将已生成的树进行简化的过程。

本次介绍 损失函数最小原则进行剪枝，即用 正则化的极大似然估计进行模型选择。

公式这里参考 李航老师的书：

4.2 算法思路：

五、CART算法

分类与回归树模型（CART, classification and regression tree)是应用广泛的决策树学习方法。

CART由特征选择、树的生成及剪枝组成，既可以用于回归也可以用于分类。

5.1 CART生成

step1：决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大。

step2：决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

5.1.1 回归树的生成

回归树用平方误差最小化准则，选择特征，生成二叉树。

5.1.2 分类树的生成

分类树用基尼指数最小化准则，选择特征，生成二叉树。

比较：

5.1.3 CART生成算法

原理：

例子：

还是用上面的的表格吧

step1：计算各个特征的基尼指数，选择最有特征以及其最优切分点。

step2：选择基尼指数最小的特征及其对应的切分点

5.2 CART剪枝

六、代码

sklearn中决策树都在’tree’这个模块中，这个模块总共包含五类：

tree.DecisionTreeClassifier 分类树
tree.DecisionTreeRegressor 回归树
tree.export_graphviz 画图专用
tree.ExtraTreeClassifier 高随机版本的分类树
tree.ExtraTreeRegressor 高随机版本的回归树

这里用分类树举例子

6.1 代码

#数据准备
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()

#分离数据
breast_cancer
x=breast_cancer.data
y=breast_cancer.target

#训练数据
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=33,test_size=0.3)

#数据标准化
from sklearn.preprocessing import StandardScaler
breast_cancer_ss = StandardScaler()
x_train = breast_cancer_ss.fit_transform(x_train)
x_test = breast_cancer_ss.transform(x_test)

#分类树
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier()
dtc.fit(x_train,y_train)

dtc_y_predict = dtc.predict(x_test)

from sklearn.metrics import classification_report
k=0
j=0
for i in y_test:
    if i!=dtc_y_predict[j]:
        k=k+1
    j=j+1
print(k)
print('预测结果:\n：',dtc_y_predict)
print('真是结果:\n:',y_test)
print('Accuracy:',dtc.score(x_test,y_test))
print(classification_report(y_test,dtc_y_predict,target_names=['benign','malignant']))

6.2 结果

Original: https://blog.csdn.net/maggieyiyi/article/details/123774872
Author: maggieyiyi
Title: 机器学习——决策树

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/673237/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【魔改YOLOv5-6.x（4）】结合EIoU、Alpha-IoU损失函数

文章目录 * – 前言 – EIoU – + 论文简介 + 加入YOLOv5 – Alpha-IoU – + 论文简介 …

人工智能 2023年6月23日
00115
使用唯创知音WT588F02B芯片进行语音烧录和测试（一开发板测试）

一. 创建语音bin文件登录唯创知音在线语音平台：唯创知音在线语音平台——-点击语音制作—WT588F—新增项目选择对应的芯片类…

人工智能 2023年5月25日
0083
File类

–File– 概述 java.io.File 类是文件和目录路径名的抽象表示，主要用于文件和目录的创建、查找和删除等操作。构造方法 public File(String path…

人工智能 2023年6月29日
00101
比你更了解你，浅谈用户画像（二）

作者介绍 @王志杰明略科技的大数据架构师；毕业于北京大学计算机科学与技术专业。往期回顾：比你更了解你，浅谈用户画像（一） 02 为什么要做用户画像？前面所讲的内容，是对于…

人工智能 2023年7月18日
0071
SYN Flood实验以及利用gns3进行攻击过程分析

目录前言 1、实验环境的搭建 2、实施攻击 3、抓包分析提示：所有实验均为用虚拟机搭建的环境，任何未被授权的攻击都是违法行为。前言 SYN攻击是DOS攻击的一种，它利用 TC…

人工智能 2023年6月29日
0075
点云算法（深度学习）

Point cloud 是一种非常适合于3D场景理解的数据，原因是：1、点云是非常接近原始传感器的数据集，激光雷达扫描之后的直接就是点云，原始的数据可以做端到端的深度学习，挖掘原始…

人工智能 2023年6月16日
0098
论文阅读：（TransE）Translating Embeddings for Modeling Multi-relational Data多关系数据转换嵌入建模

一、摘要和引言我们现在考虑的问题是把多关系数据的实体和关系嵌入到低维向量空间中。希望通过构建一个易于训练，有限参数，并且适用于大型数据库的稳定模型。为此，我们提出了TranE， …

人工智能 2023年6月4日
00107
Pytorch实战100例-第6天：好莱坞明星识别

### 回答1：《深度学习框架 PyTorch 入门_与实践第二版》是一本介绍 _PyTorch_深度学习框架的实用教程。该教程适合对深度学习和 _PyTorch_有一定了解的…

人工智能 2023年7月24日
0083
使用python操作HDF5文件

HDF Hierarchical Data Format，又称HDF5 安装： pip install h5py 对于数据集需要:先创建h5文件,再去读h5文件将dataset放在…

人工智能 2023年6月4日
0071
一、softmax回归问题

文章目录一、神经网络二、softmax回归模型 * 1.softmax函数 2.例子三、激活函数 * 1.sigmoid函数 2.阶跃函数 3.ReLU激活函数 4、Tanh…

人工智能 2023年6月18日
0098
【Pytorch代码学习】——数据集划分

简介将数据集划分为训练集和测试集代码介绍目录文件目录存放格式运行前运行后 ; 代码 import os from shutil import copy, rmtree …

人工智能 2023年7月22日
00104
tensorflow环境搭建教程

tensorflow环境搭建教程－已失效前言一、下载anaconda 二、修改Python版本三、搭建tensorflow环境四、安装其他库模块总结文章目录前言一、…

人工智能 2023年5月26日
0071
TensorFlow手写数字识别

1 . 保存为图片使用mnist数据集： from tensorflow.examples.tutorials.mnist import input_data mnist = i…

人工智能 2023年5月26日
0081
太炫酷了，Python 这款工具制作数据面板大屏非常棒

在 Python当中用于绘制图表的模块，相信大家用的最多的便是 matplotlib和 seabron，除此之外还有一些用于动态交互的例如 Plotly模块和 Pyecharts模…

人工智能 2023年6月11日
0083
opencv cpu指令集SSE/AVX

SSE与AVX指令集 SSE指令集是英特尔提供的基于 SIMD（单指令多数据，也就是说同一时间内，对多个不同的数据执行同一条命令）的硬件加速指令，通过使用寄存器来进行并行加速。经…

人工智能 2023年7月20日
00111
【人工智能 & 机器学习 & 深度学习】基础选择题 61~90题练习（题目+答案）

目录一、前情回顾二、61~70题 * 2.1 题目 2.2 答案三、71~80题（NLP，LSTM） * 3.1 题目 3.2 答案四、81~90题（序列、时间序列、预测）…

人工智能 2023年7月27日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习——决策树

2.1 特征选择问题

2.2 信息增益

2.2.1 熵

2.2.2 信息增益

3.1 ID3算法

3.1.1理论推导

3.1.2代码实现

3.2 C4.5 算法

3.2.1理论推导

4.1 原理

4.2 算法思路：

5.1 CART生成

5.1.1 回归树的生成

5.1.2 分类树的生成

比较：

5.1.3 CART生成算法

5.2 CART剪枝

6.1 代码

6.2 结果

大家都在看