什么是随机森林回归

2023年12月31日上午9:54 • 人工智能 • 阅读 71

什么是随机森林回归？

随机森林回归是一种集成学习方法，通过使用多个决策树进行回归任务的预测。它基于随机子样本选择和随机特征选择的策略，可以有效地处理高维数据和特征之间的复杂关系。随机森林回归具有较高的准确性，并且能够处理大型数据集。

算法原理

随机森林回归由多个决策树组成，每个决策树都是基于不同的训练集和特征子集构建的。最终的预测结果是所有决策树预测结果的平均值（回归任务）或多数投票（分类任务）。

算法的核心原理是利用随机子样本选择和随机特征选择来构建多个决策树。随机子样本选择是指从原始数据集中随机选择部分样本来构建每个决策树的训练集。随机特征选择是指在每个决策树的节点划分时，随机选择一部分特征来评估最佳划分。这两个随机性能够增加模型的多样性，减少过拟合的风险。

公式推导

决策树回归模型

假设我们有一个包含 m 个样本的训练集 D = {(x1, y1), (x2, y2), …, (xm, ym)}，其中 xi 是样本的特征向量，yi 是样本的目标值。我们的目标是根据特征向量 xi 预测目标值 yi。决策树回归模型可以表示如下：
$$
f(x) = \sum_{m=1}^{M} c_m I(x \in R_m)
$$
其中 M 是叶子节点的数量，Rm 是样本所属的叶子节点，cm 是叶子节点的预测值。

随机森林回归模型

随机森林回归模型是多个决策树回归模型的集成，通过取平均值来获得最终的预测结果：
$$
F(x) = \frac{1}{T} \sum_{t=1}^{T} f_t(x)
$$
其中 T 是决策树的数量，ft(x) 是第 t 个决策树的预测结果。

计算步骤

随机森林回归的计算步骤如下：

从原始数据集 D 中随机选择 k 个样本，构建训练集。
随机选择 d 个特征，构建特征子集。
使用训练集和特征子集构建决策树模型。
重复步骤 1-3，构建多棵决策树。
对于回归任务，计算所有决策树的预测结果的平均值作为最终的预测结果。

复杂Python代码示例

以下是一个使用随机森林回归进行房价预测的代码示例：

import numpy as np
from sklearn.ensemble import RandomForestRegressor
import matplotlib.pyplot as plt

# 创建虚拟数据集
X = np.random.rand(100, 1) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls 10
y = 3 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls X[:, 0] + np.random.randn(100)

# 构建随机森林回归模型
model = RandomForestRegressor(n_estimators=10, random_state=42)
model.fit(X, y)

# 预测新样本
x_new = np.array([[5]])
y_new = model.predict(x_new)

# 可视化结果
plt.scatter(X, y, c='b', label='Actual')
plt.scatter(x_new, y_new, c='r', label='Predicted')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

代码细节解释

在虚拟数据集创建阶段，我们使用 np.random.rand 生成一个形状为 (100, 1) 的随机特征向量矩阵 X，并且通过 3 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls X[:, 0] 和 np.random.randn(100) 生成对应的目标值向量 y，其中 3 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls X[:, 0] 实现了生成一个和特征线性相关的目标值，np.random.randn(100) 添加了一些随机噪声。
在随机森林回归模型构建阶段，我们使用 RandomForestRegressor 创建一个随机森林回归模型对象，并使用 fit 方法对虚拟数据集 X 和 y 进行训练。
在预测阶段，我们使用 x_new = np.array([[5]]) 生成一个新的特征向量，然后使用 model.predict(x_new) 方法预测新样本的目标值。
最后，我们使用 plt.scatter 方法分别绘制了实际目标值和预测目标值的散点图，并通过 plt.xlabel 和 plt.ylabel 添加了横轴和纵轴标签，最后使用 plt.legend 方法添加图例，并通过 plt.show 展示了图像。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/821929/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

lightGBM 信贷违约问题（二分类问题）python 总结

2021SC@SDUSC 实在是没啥好写的了，写点感兴趣的最近在做的工作目录 lightGBM 信贷违约问题（二分类问题）python 总结 * 推荐使用 Jupyter Not…

人工智能 2023年7月7日
0086
【Qt&OpenCV QGraphicsView显示OpenCV读入的图片】

文章目录前言一、新建Qt项目[ProjCV] * 1. Qt–如下7图所示建立新项目，命名：ProjCV，Detials页面内容采用默认，可以自己规划命名。 2. …

人工智能 2023年7月20日
0075
【深度学习实验】第二次：Python财政收入影响因素分析及预测

### 回答1：深度学习是一种机器学习技术，可以通过模拟人类大脑的神经网络结构来实现智能决策和预测。 _Python_是一种广泛使用的编程语言，也是深度学习中使用最多的语言之一…

人工智能 2023年7月15日
0087
Ubuntu深度学习环境配置(Tensorflow-GPU)及运行程序遇到的问题

一、环境配置流程：系统安装—>安装显卡驱动—>安装CUDA—>安装Cudnn—>安装Tensorflow-gpu 其中Tensorflow版本要与CUDA…

人工智能 2023年5月25日
0069
数仓建模，什么是宽表？如何设计？好处与不足

宽表的设计其实宽表是数仓里面非常重要的一块，宽表主要出现在dwd 层和报表层，当然有的人说dws 层也有宽表，从字面意义上讲就是字段比较多的数据库表，通常情况下是将很多相关的数…

人工智能 2023年6月19日
0076
CIFAR-100数据集卷积神经网络训练

目录 1. CIFAR-10数据集介绍 2. 问题说明 3. 模型训练过程 4. 结果可视化 1. CIFAR-100数据集介绍这个数据集就像CIFAR-10，除了它有100个类…

人工智能 2023年7月21日
0077
掘金新石油：金融知识图谱数据建模实战分享

掘金新石油：金融知识图谱数据建模实战分享掘金新石油：金融知识图谱数据建模实战分享 * 一、马超分享内容预告二、整体活动介绍三、整体活动内容 Here’s the …

人工智能 2023年6月1日
0070
【ROS进阶篇】第八讲（上） URDF文件的语法详解

【ROS进阶篇】第八讲（上） URDF文件的语法详解文章目录【ROS进阶篇】第八讲（上） URDF文件的语法详解前言 * 一、URDF的基本概念二、link标签 &#821…

人工智能 2023年6月2日
00151
GRU：什么是GRU？为什么要学习GRU？

什么是GRU？为什么要学习GRU？ GRU也是也可处理序列数据的一种模型，是循环神经网络的一种，同时呢它也是LSTM的一种变体，然后为什么要学习它，是因为我们了解了LSTM后发现他…

人工智能 2023年6月16日
0058
【附源码】Python计算机毕业设计三味书屋图书借阅与售卖系统

项目运行环境配置：Pychram社区版+ python3.7.7 + Mysql5.7 + HBuilderX+list pip+Navicat11+Django+nodejs。 …

人工智能 2023年6月27日
0056
一文读懂层次聚类（Python代码）

大家好，我是东哥。本篇想和大家介绍下层次聚类，先通过一个简单的例子介绍它的基本理论，然后再用一个实战案例 Python代码实现聚类效果。首先要说，聚类属于机器学习的无监督学习…

人工智能 2023年7月6日
0065
[Python] numpy fillna() for Dataframe

In the store marketing, for many reason, one stock’s data can be incomplete: We can …

人工智能 2023年6月2日
0061
如何在VS2019中配置OpenCV(C++)?

1、下载OpenCV工具包（这一步在第一次配置opencv时完成就行）进入OpenCV官网（网址：https://opencv.org/），点击左上角的Library，选择自己需…

人工智能 2023年6月17日
00100
手势识别Python-OpenCV

目录一、选题背景 5二、设计理念 52.1 搭建平台 52.2 问题描述 52.3 过程概述 6三、过程论述 63.1 数据集生成 63.1.1 标准化图片的采集 63.1.2肤色…

人工智能 2023年7月19日
0053
openCV(一)

图像采样与分辨率 • 采样后得到离散图像的尺寸称为图像分辨率。分辨率是数字图像可辨别的最小细节。• 分辨率由宽（width）和高（height）两个参数构成。宽表示水平方向的细节数…

人工智能 2023年6月22日
0069
1896-2021历届奥运会奖牌榜动态排序（Matplotlib图表动画）

摘要在制作动态排序动画之前，我们看一下数据的整理情况： a、对第1）种大部分数据的情况，先爬取下来，输出到excel（1）； b、对第2）种小部分数据的情况，也先爬取下来，输出…

人工智能 2023年7月7日
00111

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31