常见的回归算法有哪些，它们的优缺点是什么

2024年1月6日上午5:28 • 人工智能 • 阅读 63

1. 问题背景和定义

回归分析是一种用于研究变量之间关系的统计分析方法。它通过建立一个数学模型，描述自变量与因变量之间的函数关系，并用该模型对因变量进行预测。常见的回归算法包括线性回归、岭回归、LASSO回归和多项式回归等。

在本文中，我们将详细介绍这些常见的回归算法，讨论它们的优缺点，并给出相应的算法原理、公式推导、计算步骤和Python代码示例。

2. 线性回归

线性回归是回归分析中最基本、最常见的方法之一。它建立了自变量$x$与因变量$y$之间线性关系的模型，通过最小二乘法估计出模型的参数。

算法原理

线性回归的目标是找到一条最佳拟合直线，使得拟合值与实际值之间的误差尽可能小。假设我们的线性模型为：$$y = \beta_0 + \beta_1 x$$其中，$y$是因变量，$x$是自变量，$\beta_0$和$\beta_1$是待估计的回归系数。

对于训练集中的每个样本$(x_i, y_i)$，我们的目标是最小化残差平方和（RSS）：$$J(\beta_0, \beta_1) = \sum_{i=1}^{n}(y_i – (\beta_0 + \beta_1 x_i))^2$$其中，$n$是训练集中的样本数量。

为了最小化$J(\beta_0, \beta_1)$，我们可以使用最小二乘法，对$\beta_0$和$\beta_1$求偏导，并令偏导数等于零，得到参数的估计值：$$\hat{\beta_1} = \frac{\sum_{i=1}^{n}(x_i – \bar{x})(y_i – \bar{y})}{\sum_{i=1}^{n}(x_i – \bar{x})^2}$$$$\hat{\beta_0} = \bar{y} – \hat{\beta_1}\bar{x}$$其中，$\bar{x}$和$\bar{y}$分别是自变量$x$和因变量$y$的均值。

计算步骤

线性回归的计算步骤如下：

读取数据集，并将自变量和因变量分离。
计算自变量和因变量的均值。
计算回归系数的估计值。
根据得到的回归系数，计算预测值。
可以使用各种评估指标（如均方误差、决定系数等）来评估模型的性能。

Python代码示例

下面是一个基本的线性回归的Python代码示例，我们使用scikit-learn库中的LinearRegression模型：

import numpy as np
from sklearn.linear_model import LinearRegression

# 生成虚拟数据集
np.random.seed(0)
X = np.random.rand(100, 1)
y = 2 + 3*X + np.random.rand(100, 1)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X, y)

# 输出参数估计值
print("Intercept: ", model.intercept_)
print("Coefficient: ", model.coef_)

上述代码示例中，我们首先生成了一个虚拟的数据集，然后使用LinearRegression模型拟合数据。最终输出的参数估计值即为回归系数的值。

代码细节解释：

第1行：导入必要的库。
第4行：设置随机种子以保证结果可复现。
第5行：使用np.random.rand()生成100个随机数。
第6行：根据线性模型生成因变量$y$。
第9行：创建了一个LinearRegression对象。
第12行：用数据训练模型。
第15行：输出截距项$\beta_0$的估计值。
第16行：输出斜率项$\beta_1$的估计值。

3. 岭回归

算法原理

岭回归是一种使用L2正则化的线性回归方法。L2正则化通过在最小二乘法的目标函数中添加正则化项，平衡模型的复杂度和拟合程度。

岭回归的目标是最小化调整后的残差平方和（RRSS）：$$J(\beta) = \sum_{i=1}^{n}(y_i – \beta_0 – \sum_{j=1}^{p}\beta_j x_{ij})^2 + \lambda\sum_{j=1}^{p}\beta_j^2$$其中，$\lambda$是正则化参数，控制正则化项的权重。

为了求解岭回归的参数估计值，我们需要最小化目标函数$J(\beta)$。参数的估计值可以通过以下公式计算：$$\hat{\beta} = (X^TX + \lambda I)^{-1}X^Ty$$其中，$X$是自变量矩阵，$y$是因变量向量，$I$是单位矩阵。

计算步骤

岭回归的计算步骤如下：

读取数据集，并将自变量矩阵$X$和因变量向量$y$分离。
对自变量矩阵$X$进行中心化处理，使得每个特征的均值为零。
计算岭回归参数的估计值。
根据得到的参数估计值，计算预测值。
可以使用各种评估指标（如均方误差、决定系数等）来评估模型的性能。

Python代码示例

下面是一个基本的岭回归的Python代码示例，我们使用scikit-learn库中的Ridge模型：

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error

# 加载波士顿房价数据集
boston = load_boston()
X = boston.data
y = boston.target

# 数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 特征标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 创建岭回归模型
model = Ridge(alpha=1.0) # 此处alpha即为正则化参数lambda

# 训练模型
model.fit(X_train_scaled, y_train)

# 输出参数估计值
print("Intercept: ", model.intercept_)
print("Coefficient: ", model.coef_)

# 预测
y_pred = model.predict(X_test_scaled)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error: ", mse)

上述代码示例中，我们首先加载了波士顿房价数据集，然后将数据集划分为训练集和测试集。接下来，进行特征标准化以提高模型性能。然后，我们创建了一个Ridge模型，并使用训练数据训练模型。最后，我们对测试数据进行预测，并计算均方误差来评估模型的性能。

代码细节解释：

第1行：导入必要的库。
第4行：加载波士顿房价数据集。
第7行：将数据集划分为训练集和测试集。
第10-11行：使用StandardScaler对特征进行标准化处理。
第14行：创建了一个Ridge对象。
第17行：用数据训练模型。
第20-21行：输出截距项$\beta_0$的估计值。
第22行：输出斜率项$\beta_j$的估计值。
第25行：使用模型对测试数据进行预测。
第28行：计算均方误差。

4. LASSO回归

LASSO回归是一种使用L1正则化的线性回归方法。L1正则化通过在最小二乘法的目标函数中添加正则化项，使得模型参数更加稀疏，具有特征选择的效果。

LASSO回归的原理、计算步骤和Python代码示例与岭回归类似，只是使用Lasso模型和L1正则化参数。

5. 多项式回归

多项式回归是一种在线性回归模型上引入多项式特征的方法，用于拟合非线性关系。

多项式回归的原理是通过在原始特征上添加高次项来扩展特征空间，然后使用线性回归模型对扩展后的特征进行拟合。

不同的多项式回归算法可能有不同的处理特征的方式，但它们的原理是相似的。

算法原理

多项式回归算法的目标是找到一个多项式模型来描述自变量$x$与因变量$y$之间的关系，模型可以是二次、三次甚至更高次的多项式。

例如，二次多项式模型可以表示为：$$y = \beta_0 + \beta_1 x + \beta_2 x^2$$其中，$x^2$表示$x$的平方。

为了求解多项式模型的参数估计值，我们可以将多项式模型转化为线性模型的形式，然后使用线性回归方法进行求解。

假设我们有一个二次多项式模型：$$y = \beta_0 + \beta_1 x + \beta_2 x^2$$我们可以将其转化为线性模型的形式：$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2$$其中，$x_1 = x$，$x_2 = x^2$。

然后，我们可以使用线性回归方法对线性模型进行求解，得到参数$\beta_0$、$\beta_1$和$\beta_2$的估计值。

对于更高次的多项式模型，也可以按照类似的方式进行处理。

计算步骤

多项式回归的计算步骤如下：

读取数据集，并将自变量$x$和因变量$y$分离。
将自变量$x$进行多项式转换，生成扩展后的特征矩阵。
计算多项式回归参数的估计值。
根据得到的参数估计值，计算预测值。
可以使用各种评估指标（如均方误差、决定系数等）来评估模型的性能。

Python代码示例

下面是一个基本的多项式回归的Python代码示例，我们使用scikit-learn库中的PolynomialFeatures和LinearRegression模型：

import numpy as np
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# 生成虚拟数据集
np.random.seed(0)
X = np.linspace(-3, 3, 100).reshape(-1, 1)
y = 2 + 3*X + np.random.normal(0, 1, (100, 1))

# 创建多项式特征矩阵
poly = PolynomialFeatures(degree=3)
X_poly = poly.fit_transform(X)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_poly, y)

# 输出参数估计值
print("Intercept: ", model.intercept_)
print("Coefficient: ", model.coef_)

# 可视化结果
plt.scatter(X, y, color='blue')
plt.plot(X, model.predict(X_poly), color='red')
plt.show()

上述代码示例中，我们首先生成了一个虚拟的数据集，然后使用PolynomialFeatures对自变量进行多项式转换，生成扩展后的特征矩阵。接下来，我们创建了一个LinearRegression模型，并使用扩展后的特征矩阵进行训练。最后，我们输出了参数估计值，并绘制了原始数据和模型拟合曲线的可视化结果。

代码细节解释：

第1行：导入必要的库。
第4行：设置随机种子以保证结果可复现。
第5行：使用np.linspace()生成一个长度为100的数组。
第6行：根据线性模型生成因变量$y$，并加入一些噪声。
第9行：创建了一个PolynomialFeatures对象，将自变量进行多项式转换。
第10行：对自变量进行多项式转换，生成扩展后的特征矩阵$X_{poly}$。
第13行：创建了一个LinearRegression对象。
第16行：用扩展后的特征矩阵训练模型。
第19行：输出截距项$\beta_0$的估计值。
第20行：输出斜率项$\beta_j$的估计值。
第23-26行：使用plt.scatter()和plt.plot()绘制散点图和拟合曲线。

以上就是关于常见的回归算法及其优缺点的详细介绍，算法原理、公式推导、计算步骤和Python代码示例。通过对比不同的回归算法，我们可以根据具体的问题选择合适的算法来建立回归模型。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/824197/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

论文推荐：基于深度对抗学习的超声图像乳腺肿瘤分割与分类

条件GAN (cGAN) + Atrous卷积(AC) +带权重块的通道注意力(CAW) 该论文提出了一种基于深度对抗学习的超声图像乳腺肿瘤分割分类方法（cGAN+AC+CAW），…

人工智能 2023年6月30日
0075
R语言：glmnet包重点详解及多类回归实现(lasso/岭回归/弹性网)

文章目录 * – + * – + 1.1 Glmnet介绍 + 1.2 Glmnet数学表示 + 1.3 Glmnet多回归方式对比 + 1.4 Glmne…

人工智能 2023年6月17日
00123
深度学习与西储大学轴承数据集（一）

0.写在前面的话去年这个时候开始萌生了用深度学习进行机械故障诊断的想法，虽然目前勉强入门，但是回过头来看，确实走了不少弯路。整个学习过程几乎全靠网络上的资源，因此，写这篇文章除了…

人工智能 2023年6月16日
0067
机器学习实战 | Python机器学习算法应用实践

作者：韩信子@ShowMeAI教程地址：https://www.showmeai.tech/tutorials/41本文地址：https://www.showmeai.tech/a…

人工智能 2023年6月13日
0072
win10安装Tensorflow2

** win10安装Tensorflow2 **一：安装Anaconda步骤： 1：从官方网站下载Anacondahttps://www.anaconda.com/download…

人工智能 2023年5月25日
0060
机器学习实战二：波士顿房价预测 Boston Housing

波士顿房价预测 Boston housing 这是一个波士顿房价预测的一个实战，上一次的Titantic是生存预测，其实本质上是一个分类问题，就是根据数据分为1或为0，这次的波士顿…

人工智能 2023年6月15日
00107
自编码器AutoEncoder解决异常检测问题

自编码器AutoEncoder解决异常检测问题 * – + 一、自编码器（Auto-Encoder）介绍 + * 1. AE算法的原理 * 2. AE算法的作用 * …

人工智能 2023年6月12日
0077
【Python爬虫 • selenium】selenium4新版本使用指南

提示：本文默认你已经学会使用selenium的旧版本，因此对一些可以直接搜索到很多的内容，你应该是已经学会的文章目录前言一、设置驱动 * 1. selenium4推荐方法 2…

人工智能 2023年7月3日
0067
图像质量评价指标

全参考图像评价指标 PSNR：（峰值信噪比）值越大，表示图像失真越小。 SSIM：（结构相似性）取值范围[0,1]，值越大，表示图像失真越小。 LPIPS：（学习感知图像块相似度）…

人工智能 2023年7月27日
00211
2022李宏毅机器学习hw1–COVID-19 Cases Prediction

目录一. 开题说明：二. 梗概：三. 问题背景：四. 模型建立： 1. 数据下载 2. 导入必要的包 3. 定义函数 4. 定义类（Dataset以及DNN） 5. 特征选…

人工智能 2023年6月15日
0071
半监督学习算法中的模型选择问题如何解决

问题背景在机器学习中，模型选择是一个关键的问题。在监督学习中，可以使用交叉验证等方法来选择模型。然而，在半监督学习中，由于只有一小部分有标签的样本，无法直接应用传统的模型选择方法…

人工智能 2024年1月1日
0037
【深度学习】Pytorch实现CIFAR10图像分类任务测试集准确率达95%

文章目录 * – 前言 – CIFAR10简介 – Backbone选择 – 训练+测试 – + 训练环境及超参设置 +…

人工智能 2023年6月23日
0071
盘点 10 个 yyds 的区块链项目

区块链是金融科技领域的一项基础性的创新。作为新一代分布式记系统的核心技术，区块链被认为在金融、物联网、商业贸易、征信、资产管理等众多领域都拥有广泛的应用前景。目前，区块链技术尚处…

人工智能 2023年6月24日
0071
【Pytorch神经网络理论篇】 40 Transformers中的词表工具Tokenizer

同学你好！本文章于2021年末编写，获得广泛的好评！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现…

人工智能 2023年7月13日
0071
《人工智能原理》读书笔记：第1章绪论

目录第1章绪论 1.1 引言 1.2 关于agent的翻译 1.3 人工智能的定义 1.4 人工智能的基础 1.4.1 数学 1.4.2 经济学 1.4.3 神经科学 1.4….

人工智能 2023年7月17日
0049
Python-Pandas知识点整理

Pandas知识点导入： import pandas as pd df=pd.read_excel("data/梁山108将.xlsx") 打印数据的数据结构…

人工智能 2023年7月7日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

常见的回归算法有哪些，它们的优缺点是什么

1. 问题背景和定义

2. 线性回归

算法原理

计算步骤

Python代码示例

3. 岭回归

算法原理

计算步骤

Python代码示例

4. LASSO回归

5. 多项式回归

算法原理

计算步骤

Python代码示例

大家都在看