机器学习（五）—— 决策树回归模型和集合算法

2023年6月13日上午2:53 • 人工智能 • 阅读 71

决策树回归模型和集合算法

1. 决策树概述

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率 ——百度百科

决策树就是我们通常所说的多叉树
决策树回归模型的核心思想：相似的输入必会产生相似的输出
决策树每层对应一个样本特征
使用树结构，对于海量数据可以提高检索效率

2. 构建决策树回归模型的基本思想

&#x6784;&#x5EFA;&#x51B3;&#x7B56;&#x6811;&#x7684;&#x57FA;&#x672C;&#x6B65;&#x9AA4;&#xFF1A;
    a&#x3001;&#x4ECE;&#x8BAD;&#x7EC3;&#x6837;&#x672C;&#x77E9;&#x9635;&#x4E2D;&#x9009;&#x62E9;&#x7B2C;&#x4E00;&#x4E2A;&#x7279;&#x5F81;&#x8FDB;&#x884C;&#x5B50;&#x8868;&#x5212;&#x5206;&#xFF0C;&#x662F;&#x6BCF;&#x4E2A;&#x5B57;&#x8868;&#x4E2D;&#x7684;&#x8BE5;&#x7279;&#x5F81;&#x7684;&#x503C;&#x5168;&#x90E8;&#x76F8;&#x540C;&#xFF1B;
    b&#x3001;&#x5728;&#x6BCF;&#x4E00;&#x4E2A;&#x5B57;&#x8868;&#x4E2D;&#x9009;&#x62E9;&#x4E0B;&#x4E00;&#x4E2A;&#x7279;&#x5F81;&#x6309;&#x7167;&#x540C;&#x6837;&#x7684;&#x89C4;&#x5219;&#x7EE7;&#x7EED;&#x5212;&#x5206;&#x66F4;&#x5C0F;&#x7684;&#x5B50;&#x8868;&#xFF1B;
    c&#x3001;&#x4E0D;&#x65AD;&#x91CD;&#x590D;&#x6B65;&#x9AA4;b&#x76F4;&#x5230;&#x6240;&#x6709;&#x7684;&#x7279;&#x5F81;&#x5168;&#x90E8;&#x4F7F;&#x7528;&#x5B8C;&#x6BD5;&#xFF0C;&#x6B64;&#x65F6;&#x4FBF;&#x5F97;&#x5230;&#x53F6;&#x7EA7;&#x5B50;&#x8868;&#xFF0C;&#x6BCF;&#x4E2A;&#x53F6;&#x7EA7;&#x5B50;&#x8868;&#x79CD;&#x7684;&#x7279;&#x5F81;&#x503C;&#x5B8C;&#x5168;&#x76F8;&#x540C;
&#x9884;&#x6D4B;&#x6837;&#x672C;&#x6839;&#x636E;&#x51B3;&#x7B56;&#x6811;&#x4E0D;&#x540C;&#x5C42;&#x7EA7;&#x7684;&#x7279;&#x5F81;&#x503C;&#x8FDB;&#x884C;&#x67E5;&#x627E;&#xFF0C;&#x9009;&#x62E9;&#x5BF9;&#x5E94;&#x7684;&#x53F6;&#x7EA7;&#x5B50;&#x8868;&#xFF0C;&#x7528;&#x8BE5;&#x53F6;&#x7EA7;&#x5B50;&#x8868;&#x7684;&#x8F93;&#x51FA;&#xFF0C;&#x901A;&#x8FC7;&#x5E73;&#x5747;(&#x56DE;&#x5F52;)&#x3001;&#x6216;&#x6295;&#x7968;(&#x5206;&#x7C7B;)&#x4E3A;&#x5E26;&#x9884;&#x6D4B;&#x6837;&#x672C;&#x63D0;&#x4F9B;&#x8F93;&#x51FA;
&#x968F;&#x7740;&#x5B50;&#x8868;&#x7684;&#x4E0D;&#x65AD;&#x5212;&#x5206;&#xFF0C;&#x4FE1;&#x606F;&#x71B5;(&#x4FE1;&#x606F;&#x7684;&#x6DF7;&#x4E71;&#x7A0B;&#x5EA6;)&#x8D8A;&#x6765;&#x8D8A;&#x5C0F;&#xFF0C;&#x4FE1;&#x606F;&#x8D8A;&#x6765;&#x8D8A;&#x7EAF;&#x51C0;&#xFF0C;&#x6570;&#x636E;&#x8D8A;&#x6765;&#x8D8A;&#x6709;&#x5E8F;

3. 决策树回归模型api

api&#xFF1A;sklearn.tree
import sklearn.tree as st
#&#x521B;&#x5EFA;&#x51B3;&#x7B56;&#x6811;&#x56DE;&#x5F52;&#x5668;&#x6A21;&#x578B;&#xFF0C;&#x5176;&#x4E2D;max_depth&#x8868;&#x793A;&#x6811;&#x7684;&#x6DF1;&#x5EA6;/&#x5C42;&#x6570;
model = st.DecisionTreeRegressor(max_depth=)

代码示例：

import sklearn.datasets as sd
import sklearn.utils as su
import numpy as np
import sklearn.tree as st
import sklearn.metrics as sm
import sklearn.ensemble as se
import matplotlib.pyplot as plt

boston = sd.load_boston()
"""
print(boston.feature_names)  输入集特征名称
['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO' 'B' 'LSTAT']
[犯罪率 住宅用地比例 商业用地比例 是否靠河 空气质量 房屋数 年限 距中心区距离 路网密度 房产税 师生比 黑人比例 低地位人口比例]
print(boston.data.shape)  输入集大小
print(boston.target.shape)  输出集大小
"""

x, y = su.shuffle(boston.data, boston.target, random_state=7)
train_size = int(len(x)*0.8)
train_x, test_x, train_y, test_y = x[:train_size], x[train_size:], y[:train_size], y[train_size:]

model = st.DecisionTreeRegressor(max_depth=4)

model.fit(train_x, train_y)

res_y = model.predict(test_x)

print("R2得分：", sm.r2_score(test_y, res_y))
print("平均绝对值误差：", sm.mean_absolute_error(test_y, res_y))

输出结果
R2得分： 0.8202560889408635
平均绝对值误差： 2.76709759407969

4. 集合算法

&#x7279;&#x5F81;&#x5DE5;&#x7A0B;&#x7684;&#x4F18;&#x5316;
    &#x4E0D;&#x5FC5;&#x7528;&#x5C3D;&#x6240;&#x6709;&#x7279;&#x5F81;&#xFF0C;&#x53F6;&#x7EA7;&#x5B50;&#x8868;&#x79CD;&#x5141;&#x8BB8;&#x6DF7;&#x6742;&#x4E0D;&#x540C;&#x7684;&#x7279;&#x5F81;&#x503C;&#xFF0C;&#x4EE5;&#x6B64;&#x964D;&#x4F4E;&#x51B3;&#x7B56;&#x6811;&#x7684;&#x5C42;&#x6570;&#xFF0C;&#x5728;&#x7CBE;&#x5EA6;&#x727A;&#x7272;&#x53EF;&#x63A5;&#x53D7;&#x7684;&#x60C5;&#x51B5;&#x4E0B;&#x63D0;&#x9AD8;&#x6A21;&#x578B;&#x7684;&#x6027;&#x80FD;
    &#x901A;&#x5E38;&#x60C5;&#x51B5;&#x4E0B;&#x53EF;&#x4EE5;&#x4F18;&#x5148;&#x9009;&#x62E9;&#x4F7F;&#x4FE1;&#x606F;&#x71B5;&#x51CF;&#x5C11;&#x91CF;&#x6700;&#x5927;&#x7684;&#x7279;&#x5F81;&#x7279;&#x5F81;&#x4F5C;&#x4E3A;&#x5212;&#x5206;&#x5B50;&#x8868;&#x7684;&#x4F9D;&#x636E;

1. 概念
根据多种不同模型的预测结果，利用平均(回归)或投票(分类)的方式得到最终的预测结果
2. 正向激励
首先为样本矩阵中的样本随机分配初始权重，构建一颗带权重的决策树，在由该决策树预测输出时，通过加权平均或加权投票的方式产生预测值。
将训练样本带入模型，预测其输出，对那些预测值和实际值偏差加大的样本，提高其权重，形成第二个决策树。重复以上过程，形成若决策树。
api：sklearn.ensemble.AdaBoostRegressor
代码示例：


model2 = st.DecisionTreeRegressor(max_depth=4)
"""
自适应增长决策树回归模型
n_estimators 指定构建的决策树模型的数量 具体数字根据实际情况设定
random_state 随机数种子
"""
model3 = se.AdaBoostRegressor(model2, n_estimators=400, random_state=7)

model3.fit(train_x, train_y)

res_y3 = model3.predict(test_x)

print("R2:", sm.r2_score(test_y, res_y3), '\n', sm.mean_absolute_error(test_y, res_y3))

输出结果
R2: 0.9083427831010076
2.163353134343898
结果较之前有一定的优化
3. 特征重要性
特征重要性是决策树训练过程中的副产品，根据每个特征划分子表前后的信息熵减少量决定了特征的重要程度
每个特征重要性存储在训练得到的模型对象的属性feature_importances_中
api: model.feature_importances_

下边绘制普通决策树和正向激励的特征重要性柱状图


fi = model.feature_importances_
fi3 = model3.feature_importances_

x = np.arange(fi.size)
features = boston.feature_names
plt.figure('Feature Importances', facecolor='lightgray')
plt.subplot(211)
plt.title('DT festure importances', fontsize=16)
plt.ylabel('feature importance', fontsize=14)
plt.grid(linestyle=':', axis='both')

sort_indicts = fi.argsort()[::-1]
fi = fi[sort_indicts]
plt.bar(x, fi, 0.8, color='dodgerblue', label='DT festure importances')
plt.xticks(x, features[sort_indicts])
plt.legend()
plt.tight_layout()

plt.subplot(212)
plt.title('AB festure importances', fontsize=16)
plt.ylabel('feature importance', fontsize=14)
plt.grid(linestyle=':', axis='both')
sort_indicts3 = fi3.argsort()[::-1]
fi3 = fi3[sort_indicts3]
plt.bar(x, fi3, 0.8, color='orangered', label='AB festure importances')

plt.xticks(x, features[sort_indicts3])

plt.legend()
plt.tight_layout()
plt.show()

4. 随机森林
自助聚合
以又放回的随机抽样的方式，从原始样本中又放回的随机抽取部分样本构建决策树，形成多课包含不同样本的决策树，
削弱某些强势样本对模型预测结果的影响，提高模型的泛化特性
没有api，需要自己根据逻辑手写代码
随机森林
随机森林是在以自助聚合为基础，每次构建决策树模型，不仅随机选取部分样本，而且还随机选取部分特征，
这样的集合算法不仅削弱强势样本对预测结果的影响，还削弱了强势特征对预测结果的影响，是模型的预测更加泛化
api：sklearn.ensemble.RandomForestRegressor
代码示例：

"""
RandomForestRegressor：随机森林api
参数：
max_depth 决策树的最大深度
n_estimators 随机森林的决策树的数量
min_samples_split 决策树最小的样本数量
"""
model4 = se.RandomForestRegressor(max_depth=10, n_estimators=10000, min_samples_split=2)
model4.fit(train_x, train_y)
res_y4 = model4.predict(test_x)
print(sm.r2_score(test_y, res_y4), '\n', sm.mean_absolute_error(test_y, res_y4))

输出结果：
0.9269176455289898
1.8766746146314175
与正向激励比较，得分更高，误差更小

Original: https://blog.csdn.net/weixin_49429431/article/details/123393668
Author: 稻城亚丁途
Title: 机器学习（五）—— 决策树回归模型和集合算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/606146/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

全球率先将港口航运人工智能产品成熟化标准化规模应用，中集集团[000039]人工智能企业中集飞瞳，卓越的全球集装箱人工智能领军者

### 回答1： AIS（Automatic Identification System）是一种基于无线电技术的自动识别系统，常用于航海领域的船舶定位和通信。使用Python进行A…

人工智能 2023年7月16日
0062
【黑马程序员】Redis 课程 P37 的练习_三种方式实现功能_【黑马点评项目】给店铺类型查询业务添加缓存

本博客内容对应的视频为：https://www.bilibili.com/video/av766995956/?p=37 补充介绍：【黑马点评项目】是黑马官方于 2022-02-…

人工智能 2023年6月26日
0087
如何调试 shell 脚本调试

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月29日
0064
Landsat 7两个热红外波段B61和B62的区别与应用时的选择方法

本文介绍 Landsat 7遥感影像数据中 B61、 B62两个热红外波段的区别，以及研究应用时二者选择的依据。 Landsat 7遥感影像数据具有2个热红外波段，分别是 Ban…

人工智能 2023年6月29日
0073
图像处理5-图片加噪

图像处理系列：图像处理1-经典空间域增强——灰度映射图像处理2-经典空间域增强——直方图均衡化图像处理3-经典空间域增强——空域滤波图像处理4-图像的傅里叶变换…

人工智能 2023年6月17日
0096
像素格式RGB与YUV

1.RGB像素格式 RGB彩色模式是一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，这个标准几乎包括了人类视力所能…

人工智能 2023年6月22日
00106
python 梦幻西游_tensorflow实践：梦幻西游人物弹窗识别（二）

由上一篇的思路我们可以定义以下的具体实现步骤本篇将围绕窗口捕获、屏幕截图、截图切分讲述screen.py代码环境描述C:\Users\SF>ver Microsoft W…

人工智能 2023年5月26日
0075
Spark DataFrame及RDD与DataSet转换成DataFrame

Spark DataFrame及RDD与DataSet转换成DataFrame 一、什么是DataFrame DataFrame和RDD一样，也是Spark的一种弹性分布式数据集，…

人工智能 2023年6月2日
0060
在jupyter中配置c++内核

安装 xeus-cling conda install xeus-cling -c conda-forg xeus-cling 是一个用于编译解释于C++的Jupyter内核目前，…

人工智能 2023年6月4日
0086
Torch 模型 onnx 文件的导出和调用

Open Neural Network Exchange (ONNX，开放神经网络交换) 格式，是一个用于表示深度学习模型的标准，可使模型在不同框架之间进行转移 Torch 所定义…

人工智能 2023年6月24日
0076
KGAT: Knowledge Graph Attention Network for Recommendation

目录 * – + 摘要 + 1 引言 + 2 任务定义 + 3 模型 + * 3.1 嵌入层 * 3.2 注意力嵌入传播层 * 3.3 模型预测 * 3.4 优化 + …

人工智能 2023年6月1日
0086
论文Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs阅读报告

摘要：这篇论文主要是介绍知识图谱补全的一个模型，对三元组中的关系预测，即（h,r,?），（?,r,t），（h,?,t）。近期的一些工作表明，基于卷积神经网络的模型会生成更丰富，更具…

人工智能 2023年6月1日
0088
Windows安装GDB调试器

GDB介绍 GDB 全称”GNU symbolic debugger”，从名称上不难看出，它诞生于 GNU 计划（同时诞生的还有 GCC、Emacs 等），…

人工智能 2023年6月29日
0084
Spark入门之DataFrame/DataSet

本文代码主要基于Spark2.2，Scala 2.11，Python3 由于用Scala和Python编写的Spark application代码十分类似，所以本文只展示Scala…

人工智能 2023年6月2日
0092
二十四-香港大学火星实验室FAST-LIO2框架跑官方数据集

专栏系列文章如下：一：Tixiao Shan最新力作LVI-SAM(Lio-SAM+Vins-Mono)，基于视觉-激光-惯导里程计的SLAM框架，环境搭建和跑通过程_goldq…

人工智能 2023年6月10日
0068
pandas快速入门

开源的数据挖掘库用于数据探索封装了matplotlib,numpy 案例知识点 pd.DataFrame(ndarray)–创建DataFrame pd.date_range(…

人工智能 2023年7月17日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习（五）—— 决策树回归模型和集合算法

1. 决策树概述

2. 构建决策树回归模型的基本思想

3. 决策树回归模型api

4. 集合算法

大家都在看