pytorch训练网络时候出现loss nan的几种情况及解决方法

2023年6月17日上午12:59 • 人工智能 • 阅读 92

训练深度学习网络的过程中出现 loss nan总是让人觉得头疼，本人这次是在pytorch的半精度amp.autocast, amp.GradScaler训练时候出现了loss nan。

loss nan 常见的一般几种情况有：

lr学习率设置的过大，导致loss nan，调小lr；

训练数据中有脏数据，也会导致loss，这个需要自己排查，batch设置为1，遍历所有训练数据遇到nan就打印数据路径再退出；

if np.isnan(loss):
    sys.exit()

网络计算过程中可能存在nan，但这种可能比较少见。等等；

计算loss时候出现nan，特别是众多交叉熵损失中，核心原因应该是 log(0)导致的。

笔者是在pytorch的半精度amp.autocast, amp.GradScale训练时候出现了loss nan，而且Lr设置合理，且没有脏数据，想到应该是半精度把一些很小的数表示为0了，计算loss时候把输出fp16—> fp32,问题解决。

out = out.float()

下面用交叉熵损失验证了一下fp16，fp64的结果


import numpy as np
import os

out = np.array([0.00000001]).astype(np.float16)
lab = np.array([0]).astype(np.float16)
loss = lab * np.log(out) - (1-lab) * np.log(1-out)
print(loss)

[nan]

out = np.array([0.00000001]).astype(np.float64)
lab = np.array([0]).astype(np.float64)
loss = lab * np.log(out) - (1-lab) * np.log(1-out)
print(loss)

#[1.00000001e-08]

后面的思考，因为已经用了amp.autocast, amp.GradScale为啥还会在训练到一半的时候出现这个问题呢

scaler = GradScaler()
with autocast():
    out = model(inputs)
    out = out.float()
    loss = criterion(out, labels)
    scaler.scale(loss).backward()
    scaler.step(optimizer)
    scaler.update()

应该是再回传中如果计算loss 时，出现了除以0的情况以及loss过大，被半精度判断为inf这种情况会被捕捉到，但是因为半精度的原因导致网络的输出变为nan，这时scaler.scale(loss).backward()没法捕获，因为回传的梯度并不是nan，这时候scaler.step(optimizer)也没法处理，因为已经是nan再加一个极小的eps仍然是nan，所以直接在loss计算前out = out.float()。

后续更新:

训练后又出现loss nan了，查了一下发现计算loss前，网络的输出层已经全部是nan了，输出层fp32也不好使了，直接去掉混合精度训练一了百了，宁愿慢一点，也不愿loss nan。

Original: https://blog.csdn.net/qq_36276587/article/details/125543994
Author: CaiDou_
Title: pytorch训练网络时候出现loss nan的几种情况及解决方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/627651/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

离散数学—判断矩阵：自反性，反自反性，对称性得到矩阵的自反闭包，对称闭包。

目录 1-自反性，反自反性，对称性 2–矩阵的自反闭包，对称闭包 1-自反性，反自反性，对称性题目:从键盘输入集合A的元素值，键盘输入A到A 关系矩阵M。判断该关系…

人工智能 2023年6月27日
0095
Docker数据卷&&自定义Docker镜像

目录宿主机与容器之间的文件拷贝引言：利用MySQL镜像安装MySQL服务从容器中拷贝文件到宿主机从宿主机拷贝文件到容器数据卷数据卷容器 Dockerfile自定义镜像 …

人工智能 2023年7月31日
0054
知识图谱基础代码构建（医疗向）

今天上线发现自己竟然涨粉了，也给了我更大的动力将这一方面继续记录下去，这里是对另外一个项目代码的解读，个人认为是对前面连续几篇中文医疗知识图谱的解读的一个补充，有着拨云见日的作用。…

人工智能 2023年6月1日
0070
K-means聚类及距离度量方法小结

基本概念不再介绍，直接进行关键点的总结叙述。 kmeans算法又名k均值算法,K-means算法中的k表示的是聚类为k个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，…

人工智能 2023年6月19日
0094
常见的几种聚类算法

视频教程：第12讲：聚类算法——无监督学习浅谈 1、K-Means(K均值)聚类算法步骤：(1)选择一些类，随机初始化它们的中心点。(2)计算每个数据点到中心点的距离，数据点距离…

人工智能 2023年6月2日
0088
Python 打包 exe，如何减少文件大小？cv2打包错误如何解决？

Python 打包 exe，如何减少文件大小？由于python在打包为exe会将系统下所有包一并打包。因此我们可以使用pipenv命令构建虚拟环境以完成打包。安装pipenv …

人工智能 2023年7月19日
0062
R语言使用str函数查看数据对象的结构(structure)、以dataframe为例输出、样本个数、变量个数、变量数据类型、示例数据

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0068
当使用梯度下降时，确定学习率的选择非常重要。过大或者过小的学习率都可能导致模型性能下降

1. 问题介绍在机器学习中，使用梯度下降进行模型训练是一种常见的优化方法。学习率是梯度下降的一个重要超参数，它决定了每次更新模型参数时的步长。选择合适的学习率非常重要，过大或过小…

人工智能 2023年12月31日
0046
第三章：数据库系统（软件设计师备考）

文章目录第一节：三级模式——两级映射第二节：数据库设计过程第三节：E-R模型第四节：关系代数第五节：规范化理论 * 1. 函数依赖 2. 价值与用途 3. 键 4. 求候…

人工智能 2023年6月10日
0046
知识图谱开发实战：搭建上市公司知识图谱（二）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0069
OpenCV学习笔记（九）——直方图的操作（直方图归一化、直方图比较、直方图均衡化、直方图匹配、图像模板匹配cv.matchTemplate()）

目录 1 直方图归一化 2 直方图比较 3 直方图均衡化 4 直方图匹配 6 图像模板匹配直方图能够反应图像灰度值等统计特性，但是这个结果只统计了数值，是初步统计结果，OpenC…

人工智能 2023年7月20日
0072
dataframe怎么按行求和_pandas.DataFrame对行和列求和及添加新行和列

导入模块： from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame数据 df…

人工智能 2023年7月7日
00125
计算机视觉专家：如何从C++转Python

有人说用 Python 编程很简单，6 岁小孩都能学会。计算机视觉专家和编程语言爱好者 asya f 刚开始上手 Python 时也这么想。但门槛低就仅意味着使用简单吗？经常调用 …

人工智能 2023年7月29日
0069
在实现协同过滤算法时，应如何选择合适的相似度度量方法和推荐结果排序方法

问题背景在推荐系统中，协同过滤算法是最常用的算法之一。它通过根据用户的历史行为和其他相似用户的行为，来预测用户可能喜欢的物品，并进行推荐。在实现协同过滤算法时，我们需要选择合适的…

人工智能 2024年1月5日
0057
万字胶囊网络超详细总结（原理加pytorch代码）

目录 1.胶囊网络概念与理解 * 1.1 胶囊网络概述 1.2 一个胶囊的组成（与普通神经元进行对比） 1.3 胶囊之间的动态路由（Dynamic Routing) –…

人工智能 2023年6月16日
0085
从华为WeAutomate数字机器人论坛，看政企领域的“政务新智理”

从华为WeAutomate数字机器人论坛，看政企领域的”政务新智理” 从政务治理到”政务新智理”，华为WeAutomate在政务领域…

人工智能 2023年6月4日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pytorch训练网络时候出现loss nan的几种情况及解决方法

大家都在看