Pytorch计算Loss值为Nan的一种情况【exp计算溢出，利用softmax计算的冗余性解决】

2023年7月22日上午4:38 • 人工智能 • 阅读 47

一、报错提示

FutureWarning: Non-finite norm encountered in torch.nn.utils.clip_grad_norm_; continuing anyway. Note that the default behavior will change in a future release to error out if a non-finite total norm is encountered. At that point, setting error_if_nonfinite=false will be required to retain the old behavior. torch.nn.utils.clip_grad_norm_(WAP_model.parameters(), clip_c)

pytorch进行FutureWarning警告之后，train和valid的loss计算值都显示为Nan。

二、调试过程

在loss.backward()之前的loss都是有值的，没有出现Nan，但是进行梯度计算时产生了Nan。

1、使用autograd.detect_anomaly()开启自动求导的异常值检测。

开始引入torch.autograd:

import torch.autograd as autograd

在loss.backward()外侧加上autograd.detect_anomaly():

        with autograd.detect_anomaly():
            loss.backward()

产生报错：ExpBackward。于是考察网络中所有与exp有关的计算，检查是否有值溢出。

RuntimeError: Function 'ExpBackward' returned nan values in its 0th output.

2、使用torch.isnan().sum()>0,torch.isinf().sum()>0检测某个tensor中是否有异常值。

beta = torch.exp(z1) / (torch.exp(z0)[:, None] + torch.exp(z1) + 1e-5)
        if torch.isnan(torch.exp(z1)).sum()>0:
            print('expz1_nan')
        if torch.isinf(torch.exp(z1)).sum()>0:
            print('expz1_inf')
        if torch.isnan(torch.exp(z0)).sum()>0:
            print('expz0_nan')
        if torch.isinf(torch.exp(z0)).sum()>0:
            print('expz0_inf')

再次debug，发现torch.exp(z0)的某次运算过程产生了inf值：

Pytorch计算Loss值为Nan的一种情况【exp计算溢出，利用softmax计算的冗余性解决】

torch.exp(z0)产生了inf值，于是往上查看z0是否有异常值：

z0为92时，计算e的92次方产生了上溢，所以对应的exp计算出现了inf，反向传播求梯度时这个位置无法正确进行求值，因此报错。

三、解决思路

1、利用softmax函数冗余性，看下面这个例子

import math
import numpy as np

def softmax(inp):
    length = len(inp)
    exps = []
    res = 0
    ind = 0
    for item in inp:
        exp = math.exp(item)
        res = res + exp
        exps.append(exp)
        ind+=1
    exps = np.array(exps)
    return exps/res

inp = [1000,500,500]
inp1 = [-1000,-1000,-1000]
print("上溢:",softmax(inp))
print("下溢:",softmax(inp1))

上溢：在计算 e 1000 e^{1000}e 1 0 0 0、 e 500 e^{500}e 5 0 0、 e 500 e^{500}e 5 0 0 每个小项数值过大就已经产生溢出。
下溢：在计算 e − 1000 e^{-1000}e −1 0 0 0值接近0，精度不够产生了下溢，每个小项有值为0。但计算softmax时，0 0 + 0 + 0 \frac{0}{0+0+0}0 +0 +0 0 分母为0，这个式子整体为Nan。

softmax公式推导：
e x p ( x − a ) ∑ i = 1 k e x p ( x i − a ) = e x p ( x ) e x p ( − a ) e x p ( − a ) ∑ i = 1 k e x p ( x i ) = e x p ( x ) ∑ i = 1 k e x p ( x i ) \frac{exp^{(x-a)}}{\sum_{i=1}^{k}exp^{(x_i-a)}}=\frac{exp^{(x)}exp^{(-a)}}{exp^{(-a)}\sum_{i=1}^{k}exp^{(x_i)}} =\frac{exp^{(x)}}{\sum_{i=1}^{k}exp^{(x_i)}}∑i =1 k e x p (x i −a )e x p (x −a )=e x p (−a )∑i =1 k e x p (x i )e x p (x )e x p (−a )=∑i =1 k e x p (x i )e x p (x )
可以使用x-a令数据产生偏移，但计算结果仍不产生改变。
那么a应该如何选取？令a=max(x)

inp = [1000,500,500]
inp1 = [-1000,-1000,-1000]

对应的减去最大值后：

inp = [0,-500,-500]
inp1 = [0,0,0]

上溢：在计算 e 0 = 1 e^{0}=1 e 0 =1就是最大值了，因此解决了上溢问题。
下溢：在计算 e 0 = 1 e^{0}=1 e 0 =1分母必有一项为1，其余的项不管多小，e x e^x e x函数只会无限接近于0，所有值都是大于0的，因此分母一定不会为0。解决了分母为0结果为Nan的问题。

2、解决方式

减去z0的最大值：

; 四、参考资料

[1] : https://blog.csdn.net/zx1245773445/article/details/86443099
[2] : https://www.xarg.org/2016/06/the-log-sum-exp-trick-in-machine-learning/
[3] : https://discuss.pytorch.org/t/getting-nan-values-in-backward-pass/83696

Original: https://blog.csdn.net/jump882/article/details/121371018
Author: PuJiang-
Title: Pytorch计算Loss值为Nan的一种情况【exp计算溢出，利用softmax计算的冗余性解决】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708440/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【机器学习】吴恩达作业7.0，python实现kmeans聚类

目录无监督学习自监督学习的区别：聚类算法实现场景： k_means：无监督分类算法，不需要标签集 k_means算法流程簇内平方和计算新的聚类中心点防止陷入局部最优解的…

人工智能 2023年5月31日
0088
【动手教你学故障诊断:Python实现Tensorflow+CNN深度学习的轴承故障诊断（西储大学数据集）（含完整代码）】

项目名称动手教你学故障诊断:Python实现基于Tensorflow+CNN深度学习的轴承故障诊断（西储大学数据集）（含完整代码）项目介绍该项目使用tensorflow和ke…

人工智能 2023年5月26日
0080
Pandas 中缺失值NaN的判断, 删除及替换

当使用pandas读取csv文件时，如果元素为空，则将其视为缺失值NaN（Not a Number, 非数字）。使用dropna（）方法删除缺失值，使用fillna（）方法用其他…

人工智能 2023年7月15日
0092
Hugging Face发布diffuser模型AI绘画库初尝鲜！

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 TensorFlow 实战系列：https:…

人工智能 2023年5月27日
0086
【机器学习】SVM实例——对glass数据集进行分类处理实验详解

【机器学习】SVM实例——对glass数据集进行分类处理一、SVM是什么？ * 1.线性可分 2.最大间隔超平面 3.支持向量 4.SVM最优化问题 5.具体求解步骤 &#821…

人工智能 2023年7月1日
00100
Python实现替换照片人物背景，精细到头发丝（附上代码） | 机器学习

目录前言项目说明项目结构数据准备替换背景图代码总结前言根据我另一篇文章：如何将照片或者视频中的背景图抠掉，机器学习开源项目使用 | 机器学习_阿良的博客-CSDN博…

人工智能 2023年7月21日
0072
利用Anaconda安装pytorch深度学习环境

因为本人笔记本没有英伟达的显卡，因此不需要关注NVIDIA驱动安装与更新等问题。 Anaconda安装打开网址，现在是2022年6月，对应的anaconda版本是支持python…

人工智能 2023年7月22日
0064
时间序列分析之GARCH模型介绍与应用

时间序列分析之GARCH模型介绍与应用 * – 前言 – 一：ARCH模型的相关性质 – 二：ARCH实验过程 – 三：GARCH模…

人工智能 2023年6月19日
00126
利用物联网+数据建模+数据可视化软件等工具，解决物联网大数据在行业中的应用与挑战

随着物联网的发展和进步，所有可以想象到的东西和行业都变得更加智能，智能家居和智慧城市、智慧水利、智能交通、智能制造、互联汽车、互联健康等等。无数能够收集和交换数据的事物正在形成一个…

人工智能 2023年7月15日
0063
SPERT：一种从文本中抽取关系方法

导语 spert: 一种以变压器网络BERT为核心的联合实体和关系提取模型。采用基于span的方法:任何标记子序列(或span)构成一个潜在的实体，任何一对span之间都可以保持关…

人工智能 2023年5月31日
0083
PyTorch–模型剪枝案例

一、基础知识： 1.模型剪枝：通俗理解就是将神经网络某些冗余连接层的权重置为0，使得模型更加具有稀疏化，从而提升模型性能下图通过掩码图，根据掩码图对应权重矩阵将对应位置上的值替…

人工智能 2023年6月17日
00113
深度学习模型的多Loss调参技巧

在多目标多任务训练的网络中，如果最终的loss为有时为多个loss的加权和，例如 loss = aloss_x+bloss_y+c*loss_y+…，这个问题在微信视频…

人工智能 2023年7月13日
0062
【总目录】机器学习原理剖析、开源实战项目、全套学习指南（50篇合集）

; 写在前面我为了更加的高效的学习，需要不断地输入和输出相信不管此时的你是怀着好奇心打开这篇文章；还是偶然间刷到这篇博文；或者带有学习目的性走到这片领域，我都相信，面前的你一定…

人工智能 2023年6月25日
0092
Anaconda创建环境及环境配置

Anaconda创建环境及环境配置 1-创建环境 2-激活环境 3-删除环境 4-退出环境 5-注 1-创建环境前情提要：默认你已经安装 _anaconda_的基础上。以下操…

人工智能 2023年7月4日
0094
3D目标检测方案总结

前言感谢商汤学术 2022/06/22 带来的基于 BEV环视感知直播课程，借助这次机会，总结了我前段时间的工作，主要内容如下： FOV和BEV的常用方案，对两种视角在视觉检…

人工智能 2023年7月10日
0079
yolov3 darknet 转 TVM 推理输出、一文读懂

🥇 版权: 本文由【墨理学AI】原创、首发、各位大佬、敬请查阅🎉 声明: 作为全网 AI 领域干货最多的博主之一，❤️ 不负光阴不负卿 ❤️ 🍊 计算机视觉： Yolo专栏、一文…

人工智能 2023年7月12日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pytorch计算Loss值为Nan的一种情况【exp计算溢出，利用softmax计算的冗余性解决】

1、使用autograd.detect_anomaly()开启自动求导的异常值检测。

2、使用torch.isnan().sum()>0,torch.isinf().sum()>0检测某个tensor中是否有异常值。

大家都在看