机器学习之决策树

2023年6月16日上午11:15 • 人工智能 • 阅读 68

一、决策树基本介绍

Decision Tree

可以解决分类和回归问题
监督学习算法

二、决策树工作原理

从根开始，按照决策树的分类属性，从上往下，逐层划分。直到叶子节点，便能获得结果。所以决策树算法的核心在于 如何构造一颗决策树？

最常见核心的决策树算法有三个—— ID3、C4.5、CART

1. ID3

核心思想：以信息增益来度量特征选择，选择信息增益最大的特征进行分裂

条件熵H(D|A)：已知A条件下的熵。A是训练集中除标签外的一个属性，即根据A属性的不同取值将原训练集D划分成若干子集(D1，D2，D3…)。条件熵是 各子集所占比重×子集的信息熵的加和得出。

条件给的越好，划分出子集的信息熵就越小(因为每个子集基本都是同一分类)， 条件熵就越小，信息增益就越大。所以信息增益最大的属性即当前最好的属性。

; 计算示例

缺点

ID3 没有剪枝策略，容易过拟合
信息增益准则对可取值数目较多的特征有所偏好，类似”编号”的特征其信息增益接近于 1；
只能用于处理离散分布的特征
没有考虑缺失值。

2. C4.5

改进

引入悲观剪枝策略进行后剪枝（用递归的方式从底往上针对每一个非叶子节点，评估用一个最佳叶子节点去代替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉）
引入信息增益率作为划分标准
将连续特征离散化，假设 n 个样本的连续特征 A 有 m 个取值，C4.5 将其排序并取相邻两样本值的平均数共 m-1 个划分点，分别计算以该划分点作为二元分类点时的信息增益，并选择信息增益最大的点作为该连续特征的二元离散分类点
对于缺失值的处理可以分为两个子问题： 1. 在特征值缺失的情况下进行划分特征的选择？（即如何计算特征的信息增益率）2. 选定该划分特征，对于缺失该特征值的样本如何处理？（即到底把这个样本划分到哪个结点里）
针对问题一，C4.5 的做法是：对于具有缺失值特征，用没有缺失的样本子集所占比重来折算；
针对问题二，C4.5 的做法是：将样本同时划分到所有子节点，不过要调整样本的权重值，其实也就是以不同概率划分到不同节点中。

; 缺点

剪枝策略可以再优化；
C4.5 用的是多叉树，用二叉树效率更高；
C4.5 只能用于分类；
C4.5 使用的熵模型拥有大量耗时的对数运算，连续值还有排序运算；
C4.5 在构造树的过程中，对数值属性值需要按照其大小进行排序，从中选择一个分割点，所以只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时，程序无法运行。

3. CART

分类标准是基尼系数，其他内容待进一步学习

; 剪枝

1. 预剪枝

预剪枝使得决策树的很多分支都没有”展开”，不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销。但 可能导致欠拟合。

; 2. 后剪枝

后剪枝通常比预剪枝决策树保留了更多的分支，欠拟合风险很小，泛化性能优于预剪枝。但要自底向上对非叶节点进行逐一考察，因此 训练时间开销比未剪枝决策树和预剪枝决策树都要大得多。

三、手写决策树算法核心


def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueValues = set(featValues)
    for value in uniqueValues:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree

def classify(inputTree,featLabels,testVec):
    firstStr = list(inputTree.keys())[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    key = testVec[featIndex]
    valueOfFeat = secondDict[key]
    if isinstance(valueOfFeat, dict):
        classLabel = classify(valueOfFeat, featLabels, testVec)
    else:
        classLabel = valueOfFeat
    return classLabel

四、sklearn实现决策树算法

1. 分类问题

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier

iris = datasets.load_iris()
X = iris.data[:, 2:]
y = iris.target

dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy")
dt_clf.fit(X, y)

"""
    sklearn的决策树实现: CART算法
    DecisionTreeClassifier部分参数(默认值)

    criterion='gini': 划分标准.默认gini,也可以改成entropy等
    max_depth=2: 限制整棵树的最大深度.越大越容易过拟合
    max_leaf_nodes=None: 最多有几个叶子结点.越大越容易归你和
    min_samples_leaf=1: 对于一个叶子结点,最少应该有几个样本.越小越容易过拟合
    min_samples_split=2: 对于一个节点,至少有多少个样本数据,才继续拆分.越小越容易过拟合
"""

def plot_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1] - axis[0]) * 100)).reshape(-1, 1),
        np.linspace(axis[2], axis[3], int((axis[3] - axis[2]) * 100)).reshape(-1, 1),
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])

    plt.contourf(x0, x1, zz, cmap=custom_cmap)

plot_decision_boundary(dt_clf, axis=[0.5, 7.5, 0, 3])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.scatter(X[y==2,0], X[y==2,1])
plt.show()

DecisionTreeClassifier()构造函数部分参数及默认值

clf = KNeighborsClassifier(n_neighbors=5,weights='uniform', algorithm='auto', leaf_size=30, p=2,
metric='minkowski',metric_params=None, n_jobs=1, **kwargs)

criterion='gini': 划分标准.默认gini,也可以改成entropy等
max_depth=2: 限制整棵树的最大深度.越大越容易过拟合
max_leaf_nodes=None: 最多有几个叶子结点.越大越容易归你和
min_samples_leaf=1: 对于一个叶子结点,最少应该有几个样本.越小越容易过拟合
min_samples_split=2: 对于一个节点,至少有多少个样本数据,才继续拆分.越小越容易过拟合

2. 回归问题

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

boston = datasets.load_boston()
X = boston.data
y = boston.target
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

from sklearn.tree import DecisionTreeRegressor

dt_reg = DecisionTreeRegressor()
dt_reg.fit(X_train, y_train)

dt_reg.score(X_test, y_test)

dt_reg.score(X_train, y_train)

总结

优缺点

1. 优点

计算复杂度不高，输出结果易于理解，可解释性强
对中间值的缺失不敏感
可以处理不相关特征和数据

2. 缺点

可能会产生过拟合的问题
适用数据类型：数值型和标称型(是或否)

问题

书上提到：”预剪枝显著减少了决策树的训练时间开销和测试时间开销'”。以西瓜的例子来讲，预剪枝需要在验证集计算如果不再以当前属性划分，验证集的精度是多少；如果以当前属性划分，验证集的精度是多少；然后通过两个精度对比，决定是否继续划分。这不是增加了训练时间吗？本来只需要直接划分就好了。是因为如果当前节点不再划分，就没有后续子节点了，所以树的深度小了，所以训练时间开销降低吗？

Original: https://blog.csdn.net/m0_46684880/article/details/127314929
Author: 湫兮如风i
Title: 机器学习之决策树

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/623660/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytorch-Lightning中的训练器—Trainer

参数名称含义默认值接受类型添加回调函数或回调函数列表None( 默认值)Union[List[Callback], Callback, None] 是否使用callbacksTr…

人工智能 2023年6月24日
0074
前端小游戏——植物大战僵尸

给大家分享一个植物大战僵尸网页游戏源代码，感兴趣的小伙伴可收藏学习（完整源码在文末）文章目录 * – ⌛️效果展示 – ⌛️游戏介绍 – ⌛️…

人工智能 2023年6月28日
0085
利用Python进行数据分析：数据转换（基于DataFrame）

最近在做一个数据分析类项目，涉及处理7万+名学生的全学程数据，数据以表格型结构化数据为主，涉及学生基本信息、成绩和课程信息、评奖评优、勤工助学及行为数据。借此机会，对项目中频繁使用…

人工智能 2023年6月19日
0067
librosa 语音库（二）STFT 的实现

librosa是一个应用广泛的音频处理python库。在 librosa中有一个方法叫做 stft，功能是求音频的短时傅里叶变换, librosa.stft 返回是一个矩阵短时…

人工智能 2023年5月27日
0062
时间约束的实体解析中记录对排序研究

时间约束的实体解析中记录对排序研究人工智能技术与咨询来源：《软件学报》，作者孙琛琛等摘要:实体解析是数据集成和数据清洗的重要组成部分,也是大数据分析与挖掘的必要预处理步骤…

人工智能 2023年6月11日
0071
Win10环境下TensorFlow缺失moviepy模块的安装解决

想试一下一个github上下载来的车辆识别，下载源码后用VS Code打开运行main.py提示ModuleNotFoundError: No module named &#821…

人工智能 2023年5月25日
0063
NLP 实战 (7) | 热榜算法更新

更新日志 2023/02/15 热榜 v3.7.3.9 上线：增加对领域标签权重的随机化权重因子，使得非热门领域标签的上榜分布更均衡贡献者：@卢昕 2022/09/15 热榜 …

人工智能 2023年5月30日
0077
NLP经典论文：ELMo 笔记

NLP经典论文：ELMo 笔记论文介绍模型结构文章部分翻译 * Abstract ELMo: Embeddings from Language Models –…

人工智能 2023年5月30日
0086
VIT实战总结：非常简单的VIT入门教程，一定不要错过

文章目录摘要项目结构计算mean和std 生成数据集数据增强Cutout和Mixup 导入项目使用的库设置全局参数图像预处理与增强读取数据设置模型定义训练和验证函…

人工智能 2023年7月21日
0094
【Pytorch基础】torch.nn.CrossEntropyLoss损失函数介绍

交叉熵主要是用来判定实际的输出与期望的输出的接近程度，为什么这么说呢，举个例子：在做分类的训练的时候，如果一个样本属于第K类，那么这个类别所对应的输出节点的输出值应该为1，而其他节…

人工智能 2023年7月20日
0052
科比，老大1000天

不知不觉，老大已经走了1000天了，正好这个星期的数据分析的课就是科比投篮可视化，让我一起来分享一下吧。对照列表机翻,仅供参考 action_type 进攻方式（更具体） com…

人工智能 2023年7月6日
0066
PyTorch中CRF层

注：本篇文章假设你已经看过CRF(条件随机场)与Viterbi(维特比)算法原理详解（侵权则删），但是对Pytorch的Tutorials中BiLSTM-CRF中关于CRF的代码还…

人工智能 2023年5月31日
0077
差分隐私相关论文(2) —— Deep Learning with Differential Privacy, Abadi 2016

本文向大家介绍一下一篇CCS 2016的工作，文章的名字叫Deep Learning with Differential Privacy，在网上应该很容易就能找到，如果有朋友找不到…

人工智能 2023年6月15日
00117
C++进阶-3-2vector容器

C++进阶-3-2vector容器 C++进阶-3-2vector容器 1 #include 2 #include 3 4 using namespace std; 5 6 // …

人工智能 2023年6月4日
0090
数据的回归和分类分析

目录一、线性回归二、线性回归方法的有效性判别三、python和Anaconda的安装四、鸢尾花数据集使用SVM线性分类五、总结一、线性回归 1、父亲-孩子x-y线性回归…

人工智能 2023年6月18日
0082
深度学习归一化方法

神经网络学习的本质就是学习数据的分布。如果没有对数据进行归一化处理，那么每一批次训练的数据的分布就有可能不一样。从大的方面来讲，神经网络需要在多个分布中找到一个合适的平衡点；从小的…

人工智能 2023年6月15日
00123

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31