深度学习训练流程是一套固定的模板
- optimizer定义,选择不同的optimizer,权重衰减,梯度更新。
- scheduler定义,选择不同的scheduler,进行学习率的更新。(可选,可不使用scheduler进行学习率更新,设为None,则学习率为恒定值)
- model初始化,选择使用GPU训练还是CPU训练
- loss选择优化函数,
for epoch in range(epochs):# 训练几个epoch
for batch_data in range(train_data):
# 按照事先定义batch进行shuffle抽取数据,输入模型中训练
loss = model(**batch_data)
loss.backward() # 进行梯度反向计算,更新模型所有的权重
#可选 ,梯度剪裁,防止梯度爆炸
torch.nn.utils.clip_grad_norm_(
self.module.parameters(),
grad_clip
)
optimizer.step() # 基于backward的梯度,继续梯度下降计算。
scheduler.step() # 更新学习率
optimizer.zero_grad() # 将梯度清零,防止上一个batch的grad对当前batch的影响 (这里有时候会写成 model.zero_grad())
model.zero_grad():
将所有模型参数的梯度置为0optimizer.zero_grad():
清除所有优化的 torch.Tensor的梯度
详细请参考:
model.zero_grad() vs optimizer.zero_grad()
理解optimizer.zero_grad(), loss.backward(), optimizer.step()的作用及原理
详解torch.nn.utils.clip_grad_norm_ 的使用与原理
Original: https://blog.csdn.net/qq_36287702/article/details/123969131
Author: 桐原因
Title: 【深度学习训练流程】浅析深度学习训练流程
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/527883/
转载文章受原作者版权保护。转载请注明原作者出处!