机器学习回归算法（SVM、MLP、RF、Stacking集成学习）

2023年6月15日下午9:04 • 人工智能 • 阅读 84

1.支持向量回归SVM

（1）基本原理

支持向量机（SVM）算法因其性能优越，在图像情感分类研究中得以广泛使用，支持向量回归(SVR)算法常用于回归预测模型的构建。SVM要求数据尽可能远离超平面，而SVR要求数据尽可能位于超平面内，使所有的数据离超平面的总偏差最小。一般的回归算法思想是当预测值完全等于实际值时才判定为预测正确，而SVR算法只要预测值与实际值偏离程度在一定范围内就可以判定为预测正确，并且不需要计算误差损失。如图1-1所示，以函数为中心，在其两侧误差范围内的数值都判定为预测正确，虚线外部的值则需要计算损失。

图1-1 SVR超平面数据分布示意

（2）重要参数

对于sklearn模块库中的SVR算法，kernel是算法模型中所使用的核函数类型，包括’linear’、’poly’、’rbf’、’sigmoid’和’precomputer’，SVR算法默认使用的是径向基核函数’rbf’；C是惩罚因子，表示对偏离正常值范围外数据的关注程度，C的值越大表示越不允许误差的存在，即越不想舍弃偏离点；gamma是核函数的系数,当核函数的类型为’rbf’、’poly’和’sigmoid’的时候才会被使用到。gamma的取值范围在,其值过大容易导致过拟合现象。

2.神经网络MLP

（1）基本原理

神经网络算法中的多层感知器（MLP）回归算法，可以解决单层感知器无法解决的非线性问题。最简单的MLP模型除了有输入输出层外，还需要有一层隐藏层，并且隐藏层中的每一个神经元与上一层的神经元都相连。在每个神经元的输出结果之后，需要添加一个激活函数来改变线性规则。MLP回归算法可以将特征值进行线性和非线性的连接组合，最终实现数据的预测功能。图1-2构建的MLP模型的网络结构，包含输入输出层和两层隐藏层。根据输入层特征值的维度，隐藏层的第一层为3个神经元，第二层为1个神经元。

图1-2神经网络结构

（2）重要参数

对于sklearn模块库中MLPRegressor算法，hidden_layer_sizes是隐藏层中神经元的数量，其默认值为[100，]，即只有一层隐藏层，且含有100个神经元；slover是权重优化的求解器，包括’lbfgs’、’sgd’和’adam’三种，其默认值为’adam’，可以根据不同规模的数据集来选择合适的优化求解器；activation是隐藏层的激活函数，包括’identity’、’logistic’、’tanh’和’relu’四种，其默认函数为’relu’； alpha是正则化项的惩罚参数，其默认值为0.0001，alpha的值越大，表示对误差的惩罚越大，即越不容忍误差的存在。

3.随机森林RF

（1）基本原理

随机森林（RF）算法是对Bagging集成算法改进后的一种优化算法，包含一系列决策树基本单元。在处理回归预测问题时，随机森林算法对多棵决策树的预测值取平均后进行集成。随机森林中每颗决策树所用到的数据和特征都是随机选取的，这就保证了每颗决策树都各不相同，提升整个随机森林的多样性。相比于决策树算法，随机森林抗干扰能力更强，模型泛化能力更强。图1-3是随机森林的具体训练过程，随机森林模型采用自助法从输入数据中重新随机采样，得到不同的训练数据后，分别训练k个不同的学习器，最终对所有的学习器的输出结果取均值得到最终预测值。

图1-3 随机森林的回归模型结构

（2）重要参数

对于sklearn模块库中的RandomForestRegressor算法，n_estimators表示随机森林中决策树的个数，即弱学习器的个数，其默认值为100，虽然决策树的数量越多，模型的预测误差越小，但与此同时过多的决策树也会增加模型运行的时间；max_depth是决策树的最大深度，即树根节点与树叶节点之间的距离，其值越大表示预测误差越小，但是决策树过深会导致过拟合现象的出现；max_features表示最大特征数，其限制了决策树开始分割的条件；min_samples_leaf是叶子节点含有的最少样本，其默认值为1，如果叶子节点的数目比样本数少，则会和同根节点一起被剪枝；min_samples_split是叶子节点可分的最小样本数，其默认为2，决定了决策树向下分枝的条件。

4.Stacking集成学习

（1）基本原理

Stacking算法是一种融合模型训练方法，它可以使用多个不同的算法模型解决同一个问题。其先将输入数据中的训练集作为第一层弱学习器的输入，分别训练多个不同的机器学习模型，分别得到它们的预测结果后，作为下一层元学习器的输入，对融合学习器进行训练，最终得到更准确的预测结果。通过多种算法模型的有效融合，Stacking集成学习模型能够克服单个模型的缺陷，优化元学习器的输入，提升预测效果，具体的集成技术如图2-4所示：

图2-4 Stacking集成模型框架

（2）重要参数

对于sklearn模块库中的StackingRegressor算法，regressors表示第一层学习器的算法模型集合，基模型的数量直接影响着模型的预测精度。

Original: https://blog.csdn.net/weixin_46837260/article/details/124011591
Author: weixin_46837260
Title: 机器学习回归算法（SVM、MLP、RF、Stacking集成学习）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617505/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

动手学数据分析之 2数据清洗及特征处理

首先大致了解数据清洗。通常情况下我们拿到的数据是会存在缺少值或者有一些异常点等，需要经过一定的处理才能继续后边的分析或建模。所以拿到数据的第一步是进行数据清洗，将数据清洗成可以分析…

人工智能 2023年7月18日
0045
数据挖掘——数据预处理

《数据挖掘》国防科技大学《数据挖掘》青岛大学《数据挖掘与python实践》数据挖掘之数据预处理 1. 数据清洗 Data Cleaning 数据清洗：缺失值、噪声数据、离群点、不…

人工智能 2023年6月19日
00103
“如何获取一篇论文的代码以及运行”相关教程

内容简介本书从只有二十行的引导扇区代码_出发，一步一步地向读者呈现一个操作系统框架的完成过程。书中不仅关注 _代码_本身，同时关注完成这些 _代码_的思路和过程。本书不同于其他…

人工智能 2023年7月27日
0050
计算机视觉-OpenCV入门讲解

🎉 作者简介：在读计算机研究生，目前研二。主要研究方向是人工智能和群智能算法方向。目前熟悉python网页爬虫、机器学习、计算机视觉（OpenCV）、群智能算法目前正在学习深度学习…

人工智能 2023年6月25日
0076
3. 5种常见卷积论文、解读、使用方法、实现代码整理（conv）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月26日
0049
人工智能在几年中快速发展，尖端技术慢慢向普及应用到各行各业

随着深度学习的开放，人工智能在几年中快速发展，尖端技术慢慢向普及应用到各行各业。以下是国外一家专注于开源和堆栈技术新闻网站 TheNewStark 盘点的2022 年值得人们期待的…

人工智能 2023年5月28日
0097
归一化层（Normalization）在CNN中的作用是什么

问题概述归一化层（Normalization）在卷积神经网络（Convolutional Neural Networks, CNN）中的作用是什么？详细介绍归一化层是CNN中…

人工智能 2024年1月1日
0016
深度学习评估指标之目标检测——（yolov5 可视化训练结果以及result.txt解析）

1、机器学习模型评估指标总结机器学习的数据集一般被划分为训练集和测试集，训练集用于训练模型，测试集则用于评估模型。针对不同的机器学习问题（分类、回归、排序、序列预测等），评估指标…

人工智能 2023年7月9日
00170
电商数仓笔记1_用户行为采集（数据仓库概念，项目需求及架构设计，数据生成模块）

电商数仓一、数据仓库概念二、项目需求及架构设计 1、项目需求分析 2、项目框架（1）技术选型（2）系统数据流程设计（3）框架版本选型（4）服务器选型（5）集群规模（…

人工智能 2023年7月16日
0039
写bug的日常——pandas导入csv文件的编码问题（UnicodeDecodeError:）

通常，在利用python做数据分析时，pandas库的 pd.read_csv(‘XXX.csv’) 是个很好用的导入csv文件的工具。但是，今天在导入一份csv文件时却出现了Un…

人工智能 2023年7月8日
0042
java计算机毕业设计web企业人事管理信息系统源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月26日
0066
ARIMA差分自回归移动平均模型–时间序列预测

ARIMA差分自回归移动平均模型 1、ARIMA模型理论基础 2、ARIMA建模步骤 3、ARIMA建模实战 * 3.1 导入模块 3.2 加载数据 3.3 平稳性检验 3.4 单…

人工智能 2023年6月16日
0083
主动学习(Active Learning，AL)的理解以及代码流程讲解

为什么要使用主动学习(Active Learning，AL) 针对有监督的学习任务，存在标记成本较为昂贵且标记难以大量获取的问题。在此问题背景下，主动学习（Active Lear…

人工智能 2023年7月13日
0083
[Python] 实现文本进度条

目录简单的开始单行动态刷新带刷新的文本进度条简单的开始进度条是计算机处理任务或执行软件中常用的增强用户体验的重要手段，它能度条功能。今天我们将利用 Python 字符串处…

人工智能 2023年7月4日
0095
多智能体强化学习之MAPPO理论解读

本文主要是结合文章Joint Optimization of Handover Control and Power Allocation Based on Multi-Agent …

人工智能 2023年6月23日
00137
Labelme 安装以及使用

好久没有使用标注工具了，应工作需要，补一篇，自己实践后，总结如下 1.labelme 简介 labelme 是一款图像标注工具，主要用于神经网络构建前的数据集准备工作，因为是用 P…

人工智能 2023年6月16日
0078

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习回归算法（SVM、MLP、RF、Stacking集成学习）

大家都在看