机器学习学习笔记之二：决策树

2023年6月14日上午5:24 • Linux • 阅读 77

使用决策树算法的基本思路

划分数据集，使被划分的特征作为决策树的节点。通常采用二叉树（也可以采用非二叉树）作为最终形成的决策树形式，即将数据集按照某个特征进行划分成两个子数据集，并对这些子数据集递归地进行划分，直到无法划分为止。

划分数据集的伪代码：

&#x68C0;&#x6D4B;&#x6570;&#x636E;&#x96C6;&#x4E2D;&#x7684;&#x6BCF;&#x4E2A;&#x5B50;&#x9879;&#x662F;&#x5426;&#x5C5E;&#x4E8E;&#x540C;&#x4E00;&#x5206;&#x7C7B;
If true then return &#x7C7B;&#x6807;&#x7B7E;
Else
    &#x5BFB;&#x627E;&#x5212;&#x5206;&#x6570;&#x636E;&#x96C6;&#x7684;&#x6700;&#x597D;&#x7279;&#x5F81;
    &#x5212;&#x5206;&#x6570;&#x636E;&#x96C6;
    &#x521B;&#x5EFA;&#x5206;&#x652F;&#x8282;&#x70B9;
    for &#x6BCF;&#x4E2A;&#x5212;&#x5206;&#x7684;&#x5B50;&#x96C6;
        &#x9012;&#x5F52;&#x6267;&#x884C;&#x6B64;&#x8FC7;&#x7A0B;&#x5E76;&#x5C06;&#x8FD4;&#x56DE;&#x7ED3;&#x679C;&#x589E;&#x52A0;&#x5230;&#x5206;&#x652F;&#x8282;&#x70B9;&#x4E2D;
    return &#x5206;&#x652F;&#x8282;&#x70B9;

信息增益和信息熵

信息增益

在划分数据集之前之后信息发生的变化称为信息增益。

信息熵

集合信息的度量方式称为香农熵或简称为熵。

概率和频率
这里我们采用频率来计算概率。假设一个随机变量 (X) 可取 (N) 个不同的值(x_1, x_2, …, x_N)，其中值 (x_i)出现的次数记为(|x_i|)，则 (x_i) 出现的概率可表示为$$p(x_i)=\frac{|x_i|}{\sum_{i=1}^N{|x_i|}}$$
信息量
上面我们计算出了随机变量 (X) 取 (x_i) 时的概率 (p(x_i))，则此时的信息量定义为 $$I(x_i) = -\log_2{p(x_i)}$$
信息熵
信息熵定义为随机变量 (X) 所包含的所有信息量的数学期望，即 $$H(X) = -\sum_{i=1}^Np(x_i)\log_2{p(x_i)}$$ 它表示这个随机变量所包含信息的随机程度。熵值越大，则数据的随机程度越高，反之随机程度越低，数据趋向于集中于某一个值。

一个例子

给定一个数据集 (D)，其中包含两个标签类别(y_1, y_2)，根据统计它们的出现概率分别为(\frac{2}{5})和(\frac{3}{5})，则 (D) 的信息熵 $$\begin{align }H(D) & = -(\frac{2}{5}\log_2\frac{2}{5} + \frac{3}{5}\log_2\frac{3}{5}) \ & \approx 0.971 \end{align}$$

如何构建一棵决策树

给定数据集

[X = \begin{pmatrix} x_{11} & x_{12} & … & x_{1M} \ x_{21} & x_{22} & … & x_{2M} \ . & . & & . \ . & . & & . \ . & . & & . \ x_{N1} & x_{N2} & … & x_{NM} \end{pmatrix}]

以及标签集

[Y = \begin{pmatrix} y_1 & y_2 & … & y_N \end{pmatrix}^T ]

首先我们计算原数据集的熵 (H_{base})，然后针对每一个特征 (\vec{X_1}, \vec{X_2}, …, \vec{X_M})，对数据集做划分。
之后分别计算划分后数据集的熵 (H_i)，并计算它们和 (H_{base}) 的差值（即信息增益） (G_i = H_{base} – H_i)
最后找出最大的差值 (\max{G_i})，将产生该差值的特征 (x_i) 作为此次划分的最佳特征，并将其作为决策树的一个节点。

对剩余的数据集，重复上述步骤，将整个数据集划分完毕，并将划分特征作为决策树的节点，构造决策树。

又是一个例子

[D = \begin{pmatrix} 1 & 1 \ 1 & 1 \ 1 & 0 \ 0 & 1 \ 0 & 1 \end{pmatrix}, Y = \begin{pmatrix} 1 \ 1 \ 0 \ 0 \ 0 \end{pmatrix}]

首先按照第一列进行划分。可以看到数据集中只包含0和1两个数，因此如果我们按照第一列进行划分，则数据集可以分为

[D_1 = \begin{pmatrix} 1 \ 1 \ 0 \end{pmatrix}, D_2 = \begin{pmatrix} 1 \ 1 \end{pmatrix}]

其对应的标注集划分为

[Y_1 = \begin{pmatrix} 1 \ 1 \ 0 \end{pmatrix}, Y_2 = \begin{pmatrix} 0 \ 0 \end{pmatrix}]

分别计算 (D_1) 和 (D_2)的信息熵，可以得到

[H(D_1) \approx 0.918, H(D_2) = 0 ]

由于原数据集被划分成了两个，所以用它们对应的标注在原数据集中的比例作为权重计算它们熵的和。

[H_1=0.6\times0.918 + 0.4 \times 0 = 0.5508 ]

信息增益$$G_1 = H_{base} – H_1 = 0.971 – 0.5508 = 0.4202$$

同样的，我们按第二列进行划分

[D’_1 = \begin{pmatrix} 1 \ 1 \ 0 \ 0 \end{pmatrix}, D’_2 = \begin{pmatrix} 1 \end{pmatrix}]

对应的标注集划分为

[Y’_1 = \begin{pmatrix} 1 \ 1 \ 0 \ 0 \end{pmatrix}, Y’_2 = \begin{pmatrix} 0 \end{pmatrix}]

则它们的信息熵

[H(D’_1) = 1, H(D’_2)=0 ]

[H_2 = 0.8 * 1 + 0.2 * 0 = 0.8 ]

[G_2 = H_{base} – H_2 = 0.971 – 0.8 = 0.171 ]

由于 (G_1 > G_2)，因此我们认为第一列的特征更可以用于划分。
因此我们先以第一列特征作为树根，构造一棵二叉决策树

同理我们可以对剩下的部分进行划分，由于过程很简单，我们不再赘述过程。因此得到最后的决策树

Original: https://www.cnblogs.com/ryuasuka/p/7382607.html
Author: 飞鸟_Asuka
Title: 机器学习学习笔记之二：决策树

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/610468/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

构建自定义镜像并优化dockerfile文件

服务器版本 docker软件版本 CPU架构 CentOS Linux release 7.4.1708 (Core) Docker version 20.10.12 x86_64…

Linux 2023年6月7日
0098
samba服务设置与访问共享文件夹

samba服务设置与访问共享文件夹 linux设置文件夹共享 windows连接共享文件夹（运行->//IP/route） linux连接共享文件夹 1、基本服务安装与配置 …

Linux 2023年6月14日
0091
Xshell中用./startup.sh启动时候提示权限不够

授予脚本权限 chmod u+x *.sh 或者使用 chmod 777 ./service-demo.sh Original: https://www.cnblogs.com/q…

Linux 2023年5月28日
0085
离职，问题就解决了吗？

刚入职场的那几年，我经常对工作有各种抱怨。回想起来，有两次冲动的不必要的离职，或者说应该干得更久一点。一旦有了离职的想法，整个人每天都纠结是去还是留，这种纠结成倍的放大焦虑，让自己…

Linux 2023年6月6日
00109
Docker简介与安装

Docker简介与安装 Docker overview | Docker Documentation 官方文档 1.Docker简介 Docker是一个用于开发、发布和运行应用程序…

Linux 2023年6月13日
0087
Canal-1.1.5部署安装

canal 模拟 MySQL slave 的交互协议，伪装自己为 MySQL slave ，向 MySQL master 发送dump 协议 MySQL master 收到 dum…

Linux 2023年6月13日
0091
每天一个 HTTP 状态码 100

100 Continue 指示客户端应该继续当前请求；如果请求已经完成… 100 Continue 服务器返回此代码表示已收到请求的第一部分，正在等待其余部分；指示客户…

Linux 2023年6月7日
00107
Linux 用户密码不能设置问题

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Linux 2023年6月7日
00126
Dubbo + ZooKeeper

16 Dubbo + ZooKeeper 16.1 Dubbo下载 GigHub下载地址： https://github.com/apache/dubbo-admin/tree/m…

Linux 2023年6月14日
0087
Redis集群的节点通信原理

Redis集群搭建中，数据如何在节点分布的原理，下面来介绍一下节点之间是如何进行通信(节点握手) 一、基础通讯原理 1、维护集群的元数据的两种方案介绍及对比在分布式存储中需要提供…

Linux 2023年5月28日
00143
三少玩Linux之FreeBSD安装与简单配置，与win7共存安装方法

还是先安装win7，这里就不说了；这个是FreeBSD安装视频： https://www.bilibili.com/video/BV1vk4y1d7jt。记得先安装windo…

Linux 2023年6月14日
00110
Typora详细教程以及下载

发现一篇非常不错的 Typora 教程，分享给大家。原文链接：https://www.cnblogs.com/hyacinthLJP/p/16123932.html 作者：MEl…

Linux 2023年6月7日
00148
VScode乱码问题（2022/4/2）

“terminal.integrated.profiles.windows”: {“Command Prompt”: {&#8220…

Linux 2023年6月13日
00113
freePBR的UE4材质合集

我手动下载了freepbr.com上的所有ue4材质，放到百度云上分享给大家。 freePBR的UE4材质合集想开个新坑了。但工欲善其事必先利其器。于是我手动下载了freepbr…

Linux 2023年6月6日
00101
IDEA出现Could not autowire. No beans of ‘xxx’ type found.解决

Plan A File → Project Structure… Facets → Spring → 右键删除即可 Plan B File → Settings → E…

Linux 2023年6月13日
0099
Web前端基础精品入门（HTML+CSS+JavaScript+JS）[爱前端]听课笔记3：三角形的制作

菜单中有的项目有夏季菜单，需要添加一个三角形，这个三角形是利用两个边框不同颜色产生的楔形制作的设置盒子的高度和宽度均为0，边框合适的大小，透明颜色，对应边设置高度、颜色几个变形…

Linux 2023年6月14日
00106

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31