什么是正则化，如何应用？

2024年4月16日上午3:38 • Neural • 阅读 30

什么是正则化

正则化（Regularization）是机器学习中常用的一种技术，用于解决过拟合（Overfitting）的问题。过拟合是指在训练集上表现良好，但在未知数据集上表现差的现象。正则化通过在目标函数中添加一个正则项，限制模型的复杂度，从而降低过拟合的风险。

如何应用正则化

在许多机器学习算法中，我们可以通过在损失函数中加入正则化项，来控制模型的复杂度。以线性回归为例，使用L2正则化的线性回归模型可以表示为：

[
\min_{\theta} J(\theta) = \frac{1}{2m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)}) – y^{(i)})^2 + \lambda\sum_{j=1}^{n}\theta_j^2
]

其中，(h_{\theta}(x^{(i)}))是预测值与真实值的误差，(\lambda)是正则化参数，(\theta_j)是模型的参数。

正则化项 (\lambda\sum_{j=1}^{n}\theta_j^2) 通过引入平方和乘以正则化参数 (\lambda)，对模型的参数进行惩罚。该正则化项在训练模型时，会使得参数的值尽量接近于零，从而使模型尽量简单。

算法原理

L2正则化（也称为岭回归）是一种常用的正则化方法。通过在损失函数中加入模型参数的平方和，L2正则化可以有效地控制模型的权重大小，从而降低过拟合的风险。

L2正则化的目标函数可以表示为：

[
\min_{\theta} J(\theta) = \frac{1}{2m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)}) – y^{(i)})^2 + \lambda\sum_{j=1}^{n}\theta_j^2
]

其中，(h_{\theta}(x^{(i)}))是预测值与真实值的误差，(\lambda)是正则化参数，(\theta_j)是模型的参数。

对上述目标函数进行最优化，可以得到参数 (\theta) 的最优解。计算过程包括计算损失函数的梯度，使用梯度下降法或其他优化算法来更新参数。

公式推导

为了推导L2正则化的最优解，我们可以使用梯度下降法来最小化目标函数。首先，计算损失函数关于参数 (\theta_j) 的梯度：

[
\frac{\partial J(\theta)}{\partial \theta_j} = \frac{1}{m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)}) – y^{(i)})x^{(i)}_j + \frac{\lambda}{m}\theta_j
]

然后，使用梯度下降法更新参数 (\theta_j)：

[
\theta_j := \theta_j – \alpha \frac{\partial J(\theta)}{\partial \theta_j}
]

其中，(\alpha) 是学习率。

计算步骤

初始化参数 (\theta)，学习率 (\alpha)，正则化参数 (\lambda)。
迭代计算损失函数的梯度，更新参数 (\theta)。重复该步骤直到达到停止条件。
使用训练好的参数 (\theta) 进行预测。

Python代码示例

import numpy as np

# 生成虚拟数据
X = np.random.rand(100, 3)
y = np.dot(X, np.array([1, 2, 3])) + np.random.randn(100)

# 添加一列常数项
X = np.column_stack((np.ones(len(X)), X))

# 定义正则化参数
lambda_val = 0.1

# 初始化参数
theta = np.zeros(X.shape[1])

# 定义损失函数
def loss_function(X, y, theta, lambda_val):
    m = len(y)
    h_theta = np.dot(X, theta)
    error = h_theta - y
    loss = (1 / (2 * m)) * np.sum(np.square(error)) + (lambda_val / (2 * m)) * np.sum(np.square(theta[1:]))
    return loss

# 定义梯度函数
def gradient(X, y, theta, lambda_val):
    m = len(y)
    h_theta = np.dot(X, theta)
    error = h_theta - y
    gradient = (1 / m) * np.dot(X.T, error) + (lambda_val / m) * np.concatenate(([0], theta[1:]))
    return gradient

# 定义梯度下降函数
def gradient_descent(X, y, theta, alpha, lambda_val, num_iterations):
    for _ in range(num_iterations):
        gradient = gradient(X, y, theta, lambda_val)
        theta = theta - alpha * gradient
    return theta

# 使用梯度下降法训练模型
alpha = 0.01
num_iterations = 1000

theta = gradient_descent(X, y, theta, alpha, lambda_val, num_iterations)

# 进行预测
X_test = np.random.rand(10, 3)
X_test = np.column_stack((np.ones(len(X_test)), X_test))
y_pred = np.dot(X_test, theta)

print("预测值：", y_pred)

代码解释：

生成100个样本，每个样本有3个特征。
将常数项1添加到特征矩阵中。
初始化参数、正则化参数、学习率。
定义损失函数，计算损失。
定义梯度函数，计算梯度。
定义梯度下降函数，迭代更新参数。
使用梯度下降法训练模型。
生成10个测试样本，并进行预测。
输出预测值。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/825593/

转载文章受原作者版权保护。转载请注明原作者出处！

Neural

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

什么是卷积神经网络，如何构建？

什么是卷积神经网络？卷积神经网络（Convolutional Neural Network，CNN）是一种深度学习算法，广泛应用于计算机视觉领域。与传统的全连接神经网络相比，CN…

Neural 2024年4月16日
0023
什么是梯度消失问题，如何解决？

什么是梯度消失问题？梯度消失问题（Gradient Vanishing Problem）是机器学习中一种常见的问题，特别是在使用深层神经网络时。当神经网络的层数增加时，梯度很容易…

Neural 2024年4月16日
0023
如何使用生成对抗网络生成新的数据？

如何使用生成对抗网络生成新的数据？介绍生成对抗网络（Generative Adversarial Networks，简称GAN）是一种用于生成新样本的机器学习模型。它由两个主要…

Neural 2024年4月16日
0025
什么是迁移学习中的特征提取和微调？

什么是迁移学习中的特征提取和微调？在机器学习中，迁移学习是指通过将一个领域中已经训练好的模型使用在另一个相关领域中的技术。在实践中，通常只有少量的标记样本可用于训练，迁移学习可以…

Neural 2024年4月16日
0016
如何使用自监督学习进行预训练？

如何使用自监督学习进行预训练? 在机器学习领域，预训练是指在大规模无标签数据上对模型进行初始化训练，然后使用有标签数据进行微调，以提高模型的性能。自监督学习是一种无监督学习的方法，…

Neural 2024年4月16日
0026
什么是K折交叉验证，如何进行？

什么是K折交叉验证 K折交叉验证（K-fold cross-validation）是一种常用的机器学习算法评估方法。在训练模型时，我们通常会将数据集划分为训练集和测试集，其中训练集…

Neural 2024年4月16日
0024
如何使用注意力机制来提升模型性能？

如何使用注意力机制来提升模型性能？在机器学习领域，注意力机制（Attention Mechanism）已经成为提升模型性能的重要技术之一。它是一种模拟人类视觉注意力机制的方法，能…

Neural 2024年4月16日
0026
为何我们需要使用Neural网络来解决问题？

为何我们需要使用神经网络来解决问题在机器学习领域，神经网络是一种强大的工具，用于解决各种问题。它模仿人脑的结构和功能，并且已经在许多领域取得了卓越的成果，如图像识别、自然语言处理…

Neural 2024年4月16日
0026
什么是中间层特征可视化，如何理解？

什么是中间层特征可视化，如何理解？在进行深度学习任务时，神经网络中的每一层会学习到一些特征，这些特征在输入数据上进行了抽象。中间层特征可视化是指通过可视化的方式来理解和解释神经网…

Neural 2024年4月16日
0028
什么是模型剪枝，如何实现？

什么是模型剪枝模型剪枝是一种优化机器学习模型的技术，旨在通过削减模型中的不必要参数或特征，从而提高模型的性能和效率。在机器学习领域，模型剪枝通常用于减少模型的复杂度，防止过拟合，…

Neural 2024年4月16日
0025
什么是对抗训练，如何应用？

什么是对抗训练？如何应用？对抗训练（Adversarial Training）是一种机器学习算法，用于提高模型对抗特定输入样本的能力。在现实世界中存在各种扰动、干扰和攻击，对模型…

Neural 2024年4月16日
0018
什么是迁移学习，如何运用？

什么是迁移学习在机器学习中，迁移学习（Transfer Learning）指的是将一个训练好的模型或者知识从一个任务或领域应用到另一个任务或领域的过程。迁移学习能够通过利用源领域…

Neural 2024年4月16日
0030
为什么要进行数据预处理？

为什么要进行数据预处理？数据预处理在机器学习中扮演着重要的角色。它是一个数据科学家或机器学习工程师需要经历的必要步骤。数据预处理的主要目的是使原始数据更加适合应用于机器学习算法的…

Neural 2024年4月16日
0024
什么是反向传播算法，如何工作？

什么是反向传播算法？反向传播算法（Backpropagation Algorithm）是一种常用的神经网络训练算法，它用于计算人工神经网络中权重的梯度，并通过梯度下降的方法来更新…

Neural 2024年4月16日
0024
什么是稀疏编码，如何使用？

什么是稀疏编码？稀疏编码是一种机器学习算法，用于解决特征选择和数据降维的问题。在机器学习中，数据通常表示为一个向量或矩阵，并且这些数据通常是高维的。稀疏编码的目标是从这些高维数据…

Neural 2024年4月16日
0025
什么是自编码器，如何训练？

什么是自编码器？自编码器（Autoencoder）是一种无监督学习的神经网络模型，用于学习数据的最佳表示形式，以便能更好地重构原始输入数据。它由编码器和解码器两部分组成，其中编码…

Neural 2024年4月16日
0032

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30