数据挖掘之C4.5决策树算法

1.决策树算法实现的三个过程:

  • 特征选择:选择哪些特征作为分类的标准是决策树算法的关键,因此需要一种衡量标准来进行特征的确定,不同的决策树衡量标准不同。例如C4.5决策树就是以信息增益率来作为衡量标准。
  • 决策树的生成:根据所选择的衡量标准不断递归调用计算最后直到整个数据集中的特征不可分为止。决策树是从根节点开始自上而下逐渐生成树状结构。
  • 决策树的剪枝:在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多导致过拟合.因此需要剪枝降低过拟合风险。剪枝有预剪枝(边建立决策树边剪枝,就是设立一些规则来防止树过度生长。)和后剪枝(建立决策树后再剪枝让决策树生长成过拟合后再进行剪枝)

2.算法的实现步骤:

输入:数据集(训练集)S及属性A 输出:属性A对训练数据集S的信息增益

数据挖掘之C4.5决策树算法
数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法
数据挖掘之C4.5决策树算法
  • 属性取值数目越大,分裂信息越大,从而抵消了属性取值数目所带来的影响,但增益率准则对可取值数目较少的属性有所偏好,所以应先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的属性.

  • 将该属性作为决策树的节点,在该节点的子节点上使用剩余属性递归执行①~⑤。

  • 对生成的决策树进行剪枝处理。

3.算法实例

例题:以下是某公司招录人员的信息表,运用C4.5算法构建决策树模型。

性别

学历

学校

经验

是否录用

本科

985

本科

211

研究生

普通院校

大专

普通院校

本科

985

研究生

普通院校

本科

211

大专

普通院校

本科

普通院校

本科

普通院校

本科

211

研究生

211

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

男—-9个:其中录取的有6个,不录取的有3个

女—-3个:其中录取的有2个,不录取的有1个

因此

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息熵:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益:

数据挖掘之C4.5决策树算法

分裂信息:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益率:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

大专—-2个:其中录取的有0个,不录取的有2个

本科—-7个:其中录取的有5个,不录取的有2个

研究生–3个:其中录取的有3个,不录取的有0个

因此

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息熵:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益:

数据挖掘之C4.5决策树算法

分裂信息:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益率:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

985——-2个:其中录取的有2个,不录取的有0个

211——-4个:其中录取的有4个,不录取的有0个

普通院校–6个:其中录取的有2个,不录取的有4个

因此

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息熵:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益:

数据挖掘之C4.5决策树算法

分裂信息:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益率:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

有—-5个:其中录取的有2个,不录取的有3个

无—-7个:其中录取的有6个,不录取的有1个

因此

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息熵:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益:

数据挖掘之C4.5决策树算法

分裂信息:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益率:

数据挖掘之C4.5决策树算法

③ 从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的属性.

所有属性的平均信息增益:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

其中学历和学校的信息增益高于平均水平的属性,两者中增益率最高的是学校。

④ 以学校作为根节点,

数据挖掘之C4.5决策树算法

按照其他三个属性对属性学校中的985进行划分,

性别

学历

学校

经验

是否录用

本科

985

本科

985

由表可知对属性学校中的985分支划分后的子节点已经是纯的,因此不再需要继续划分节点。

按照其他三个属性对属性学校中的211进行划分,

性别

学历

学校

经验

是否录用

本科

211

本科

211

本科

211

研究生

211

由表可知对属性学校中的211分支划分后的子节点已经是纯的,因此不再需要继续划分节点。

按照其他三个属性对属性学校中的普通院校进行划分,计算步骤同上:

性别

学历

学校

经验

是否录用

研究生

普通院校

大专

普通院校

研究生

普通院校

大专

普通院校

本科

普通院校

本科

普通院校

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息熵:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益:

数据挖掘之C4.5决策树算法

分裂信息:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益率:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息熵:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益:

数据挖掘之C4.5决策树算法

分裂信息:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益率:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息熵:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益:

数据挖掘之C4.5决策树算法

分裂信息:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益率:

数据挖掘之C4.5决策树算法

从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的属性.

所有属性的平均信息增益:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

其中学历信息增益高于平均水平的属性,且增益率最高的也是学历。

⑤ 把学校的子节点中的普通学校节点的子节点设为学历。

以学历为父节点:如图所示:

数据挖掘之C4.5决策树算法

按照其他两个属性对属性学历中大专的进行划分,

性别

学历

经验

是否录用

大专

大专

由表可知对属性学历中的大专分支划分后的子节点已经是纯的,因此不再需要继续划分节点。

按照其他两个属性对属性学历中本科的进行划分,

性别

学历

经验

是否录用

本科

本科

本科

本科

本科

本科

本科

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息熵:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益:

数据挖掘之C4.5决策树算法

分裂信息:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益率:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息熵:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益:

数据挖掘之C4.5决策树算法

分裂信息:

数据挖掘之C4.5决策树算法

数据挖掘之C4.5决策树算法

信息增益率:

数据挖掘之C4.5决策树算法

其中经验增益率高于性别,所以学历节点中本科的子节点是经验。

按照其他两个属性对属性学历中研究生的进行划分,

性别

学历

经验

是否录用

研究生

研究生

研究生

由表可知对属性学历中的研究生分支划分后的子节点已经是纯的,因此不再需要继续划分节点。

划分结果如下图所示:

数据挖掘之C4.5决策树算法
  • 最后总的划分结果如下:

数据挖掘之C4.5决策树算法

Original: https://blog.csdn.net/hanmengyuan2001/article/details/125289703
Author: my0214163
Title: 数据挖掘之C4.5决策树算法

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/638452/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 【深度学习】(三)图像分类

    ; 图像分类🍉 文章目录 * – 图像分类🍉* 前言🎠* 一、ILSVRC竞赛* 二、卷积神经网络(CNN)发展* – 1.网络进化 – 2.A…

    人工智能 2023年7月29日
    043
  • 数据分析模型搭建和评估

    第三章 模型搭建和评估–建模 import pandas as pd import numpy as np import matplotlib.pyplot as plt impo…

    人工智能 2023年7月16日
    042
  • 决策树(python)

    目录 一、分类决策树 1.决策树的划分依据 2.剪枝(对付”过拟合”的主要⼿段) 3.案例(泰坦尼克号乘客⽣存预测) 4.利弊 二、回归决策树 决策树思想的…

    人工智能 2023年6月13日
    065
  • Pandas处理JSON文件read_json()一文详解+代码展示

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

    人工智能 2023年7月15日
    067
  • Netty之I/O模型

    UNIX提供的5种IO模型: 阻塞模型 阻塞IO模型: IO复用模型: 信号驱动IO模型: 对于五种IO模型我这里用自己的白话再复述一遍,加深理解,如果要看权威的解释可以自己去看《…

    人工智能 2023年6月28日
    064
  • python-类

    面向对象 在编程语言中,我们将变量看成数据,它用来存储多种形式的值;我们将函数看成操作,它用来对数据进行某些处理。所有的代码都由数据和操作构成,程序运行的本质就是对数据进行各种操作…

    人工智能 2023年7月4日
    084
  • opencv简介及Windows安装进行简单的opencv实战项目

    人们认为计算机科学是天才的艺术,但是实际情况相反,只是许多人在其它人基础上做一些东西,就像一面由石子垒成的墙。——高德纳 opencv OpenCV 于 1999 年由 Gary …

    人工智能 2023年7月19日
    063
  • python代码实现技术指标: 转债正股的乖离率

    python代码实现技术指标: 转债正股的乖离率 乖离率(BIAS)是描述股价与股价的移动平均线的相距的远近程度。BIAS指的是相对距离。 1.BIAS的计算公式及参数。 N日乖离…

    人工智能 2023年7月17日
    093
  • 一文看懂自然语言处理-NLP(4个典型应用+5个难点+6个实现步骤)

    推荐下我自己建的人工智能Python学习群:[809160367],群里都是学Python的,如果你想学或者正在学习Python ,欢迎你加入,大家都是软件开发党,不定期分享干货,…

    人工智能 2023年5月30日
    061
  • tensorflow学习笔记 (五) (卷积神经网络)

    文章目录 卷积神经网络 * 一、卷积计算过程 – 1.单通道的卷积计算 2.三通道的卷积计算 3. 卷积计算过程动图 二、卷积相关 – 2.1 两种卷积核的…

    人工智能 2023年5月23日
    078
  • 【论文阅读笔记】使用结构代码嵌入检查智能合约

    论文标题:Checking Smart Contracts With Structural Code Embedding原文链接Checking Smart Contracts W…

    人工智能 2023年5月28日
    064
  • 针对Python3.9的Tensorflow安装

    啊哦~你想找的内容离你而去了哦 内容不存在,可能为如下原因导致: ① 内容还在审核中 ② 内容以前存在,但是由于不符合新 的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。 可…

    人工智能 2023年6月16日
    076
  • 图像基本处理(灰度化)

    项目场景: 今天我们开始最基础的图像处理,将一张图片进行灰度化处理。我们将使用OpenCV来进行图像的处理 基础知识 图片主要包含以下内容:1.像素,也就是我们通常说的RGB模型,…

    人工智能 2023年7月25日
    043
  • YOLO系列学习

    目录 很不错的链接 0 一些小知识 * 0.1 先验框 anchor box 0.2 网络结构图 1 YOLOv1学习 * 2 YOLOv2学习 很不错的链接 还有一些在【yolo…

    人工智能 2023年7月10日
    0111
  • 会计学基础

    企业:指从事生产、服务、流通等经济活动,为满足社会需要,并获取盈利,进行自主经营,实行独立经济核算,具有法人资格的基本经济单位。 企业按其业务活动内容不同进行分类:服务业企业,商品…

    人工智能 2023年6月10日
    050
  • 环境配置 | 有关NLP的库安装学习使用示例,原理解释及出错解析

    1.Spacy库学习 1.1.介绍 spacy: 文本预处理库,Python和Cython中的高级自然语言处理库,它建立在最新的研究基础之上,从一开始就设计用于实际产品。spaCy…

    人工智能 2023年6月27日
    073
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球