有哪些常见的超参数需要调优，例如学习率、批量大小等

2024年1月6日上午7:21 • 人工智能 • 阅读 51

问题描述

常见的机器学习算法中存在一些超参数，例如学习率、批量大小等，需要进行调优以获得更好的模型性能。本文将详细介绍超参数调优的方法以及各个超参数的作用和调优原理。

学习率

学习率是训练神经网络时控制每一次迭代中参数更新的步长的超参数。较高的学习率可能导致参数在局部最优解周围波动，而较低的学习率可能导致模型收敛速度过慢。因此，选择一个合适的学习率非常重要。

算法原理

学习率的调优算法可以使用网格搜索、随机搜索或自适应方法，例如Adagrad、Adam等。其中，Adam算法结合了Adagrad和RMSprop两种方法，能够自适应地调整学习率。

公式推导

Adam算法中学习率的更新公式如下:

$$
\begin{align}
m &= \beta_1 \cdot m + (1 – \beta_1) \cdot \nabla J(\theta) \
v &= \beta_2 \cdot v + (1 – \beta_2) \cdot (\nabla J(\theta))^2 \
\hat{m} &= \frac{m}{1 – \beta_1^t} \
\hat{v} &= \frac{v}{1 – \beta_2^t} \
\theta &= \theta – \alpha \cdot \frac{\hat{m}}{\sqrt{\hat{v}} + \epsilon}
\end{align}
$$

其中，$m$和$v$分别代表梯度的一阶矩估计和二阶矩估计，$\beta_1$和$\beta_2$是指数衰减的参数，$t$表示当前的迭代次数，$\alpha$是学习率，$\epsilon$是一个很小的数值用于防止除零错误。

计算步骤

下面以一个简单的多层感知器(MLP)为例子，展示如何在训练过程中调整学习率。

定义MLP模型的结构和相关参数

import torch
import torch.nn as nn
import torch.optim as optim

class MLP(nn.Module):
 def __init__(self, input_dim, hidden_dim, output_dim):
 super(MLP, self).__init__()
 self.fc1 = nn.Linear(input_dim, hidden_dim)
 self.relu = nn.ReLU()
 self.fc2 = nn.Linear(hidden_dim, output_dim)
 self.softmax = nn.Softmax(dim=1)

 def forward(self, x):
 x = self.fc1(x)
 x = self.relu(x)
 x = self.fc2(x)
 x = self.softmax(x)
 return x

input_dim = 10
hidden_dim = 20
output_dim = 2
model = MLP(input_dim, hidden_dim, output_dim)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters())

定义学习率的调度器

lr_scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)

这里使用StepLR函数将学习率乘以0.1，每10个epoch更新一次学习率。

训练过程中使用调度器更新学习率

for epoch in range(num_epochs):
 # ...
 optimizer.zero_grad()
 outputs = model(inputs)
 loss = criterion(outputs, labels)
 loss.backward()
 optimizer.step()

 lr_scheduler.step()

可视化学习率的变化

import matplotlib.pyplot as plt

learning_rates = []
for i in range(num_epochs):
 learning_rates.append(optimizer.param_groups[0]['lr'])
 optimizer.step()
 lr_scheduler.step()

plt.plot(range(num_epochs), learning_rates)
plt.xlabel('Epochs')
plt.ylabel('Learning Rate')
plt.show()

这段代码将会绘制出学习率在训练过程中的变化曲线。

代码细节解释

上述代码中，我们首先定义了一个多层感知器模型(MLP)和相关的参数。然后，我们使用Adam优化器和交叉熵损失函数来定义模型的优化过程和损失计算方式。接下来，我们定义了一个学习率的调度器，使用StepLR函数来设置学习率的更新策略。在训练过程中，每个epoch结束后，通过optimizer.step()和lr_scheduler.step()分别更新参数和学习率。最后，我们使用matplotlib库绘制学习率的变化曲线。

通过上述步骤，我们可以实现学习率的调优，并通过学习率的变化曲线监控学习率的更新情况。

参考文献:
– Adam – A Method for Stochastic Optimization

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/824217/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

36、Java——一个案例学会三层架构对数据表的增删改查

✅作者简介：热爱国学的Java后端开发者，修心和技术同步精进。🍎个人主页：Java Fans的博客🍊个人信条：不迁怒，不贰过。小知识，大智慧。💞当前专栏：Java案例分享专栏✨特色…

人工智能 2023年7月29日
0049
行人属性识别一：训练PA100k数据集

序言最近在做行人属性识别相关的任务，本文用于记录训练过程，供以后复习查阅。目前网上可用的行人属性识别仓库还是比较多的，比如前段时间百度开源的PP-Human属性识别、PULC …

人工智能 2023年7月28日
0082
能让你薪资翻倍的性能优化大全，大厂必问的性能调优其实很简单

都说程序员工资高、待遇好， 2022 金九银十到了，你的小目标是 30K、40K，还是 16薪的 20K？作为一名 Java 开发工程师，当能力可以满足公司业务需求时，拿到超预期的…

人工智能 2023年6月28日
0065
新加坡国立大学冯福利：因果推理赋能推荐系统初探

⬆⬆⬆ 点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！ 2020 年 9 月 25 日，在由中国科协主办，清华大学计算机科学与技术系、AI TIME 论道承办的《2…

人工智能 2023年6月10日
0069
创新项目实训：数据分析与可视化

宝可梦数据分析与可视化数据分析与提取数据可视化数据分析与提取我们对爬取好的csv文件数据进行分析来设计课题后，通过pandas提取需要的信息并分析统计。题设：1.id1-…

人工智能 2023年7月15日
0055
白学立体视觉（3）: 单目相机标定

文章目录前言一、为什么需要相机标定？二、张正友标定法 * 1.标定板 2.公式命名 3.理论介绍 4.相机参数求解过程 5.相机畸变三、OpenCV实践张氏标定法 * 1….

人工智能 2023年6月2日
00117
中国环境监测仪器行业发展状况与运营前景研究报告2022-2028年

中国环境监测仪器行业发展状况与运营前景研究报告2022-2028年《修订日期》：2022年2月《出版单位》：鸿晟信合研究院《对接人员》：周文文【内容分析有删减·了解详情可查看咨询鸿…

人工智能 2023年6月11日
0054
CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

lecture 9 Transformers Transformer是对自然语言处理研究领域的一场革新，几乎目前NLP中所有的先进模型都离不开Transformer。典中典的Att…

人工智能 2023年5月27日
0074
【软件设计师21天-考点整理】7)计算机系统构成及硬件基础知识

数的表示 R进制转十进制:使用按权展开法将R进制数的每一位数值用n形式表示; 幂的底数是R例如:二进制底数R就是2指数为kik与该位和小数点之间的距离有关;当该位位于小数点左边，…

人工智能 2023年6月27日
0075
【自然语言处理（NLP）】基于序列到序列的中-英机器翻译

; 【自然语言处理（NLP）】基于序列到序列的中-英机器翻译作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算…

人工智能 2023年7月29日
0060
图像处理——轮廓检测

第1章 Visual C++与数字图像处理 1 1.1 数字图像处理_概述 2 1.1.1 _图像_与数字 _图像 2 1.1.2 数字图像处理_研究的内容 4 1.1.3 …

人工智能 2023年6月20日
0091
超分之BasicVSR

这篇文章是2021年的CVPR，文章作者是和EDVR同一批的人。该篇文章提出了一个轻量且高表现性能的视频超分framework——BasicVSR。BasicVSR改进了传统VSR…

人工智能 2023年6月17日
0073
基于深度学习的自动调制识别（含代码链接）

AMR领域具有代表性的新模型在四个不同的数据集（RML2016.10a, RML2016.10b, RML2018.01a, HisarMod2019.1）上的实现，为感兴趣的研究…

人工智能 2023年6月16日
0087
知识图谱汇总

知识图谱，是结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系，通过将数据粒度从 document 级别降到 data 级别，聚合大量知识，从而实现知识的快速响应和推理。…

人工智能 2023年6月10日
0092
pytorch：concat和stack的区别

整体来讲，concat是对dim进行拼接，stack是对dim维进行堆叠。concat：不会增加新的维度，在指定维度上拼接。stack：增加一个新的维度将两个单位，然后再上一维度分…

人工智能 2023年7月21日
0059
【Neural Network】【可视化】【工具】

文章目录 1. draw_convnet 2. NN-SVG 3. PlotNeuralNet 4. Tensorboard 5. Caffe 6.Matlab 7.Keras.j…

人工智能 2023年7月14日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31