Keras-训练网络时的问题：loss一直为nan，accuracy一直为一个固定的数

2023年5月24日下午6:45 • 人工智能 • 阅读 87

在使用VGG19做分类任务时，遇到一个问题：loss一直为nan，accuracy一直为一个固定的数，如下输出所示，即使加入了自动调整学习率 (ReduceLROnPlateau) 也没法解决问题。


reduce_lr = tf.keras.callbacks.ReduceLROnPlateau(monitor='val_loss', patience=10, mode='auto')

earlystopping = EarlyStopping(monitor='val_accuracy', verbose=1, patience=30)

history = model_vgg19.fit(train_gen,
                    validation_data=valid_gen,
                    epochs=200,
                    steps_per_epoch=len(train_gen),
                    validation_steps=len(valid_gen),
                    callbacks=[reduce_lr, earlystopping])

输出：

Epoch 1/200
176/176 [==============================] - 31s 177ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 2/200
176/176 [==============================] - 31s 176ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 3/200
176/176 [==============================] - 31s 175ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 4/200
176/176 [==============================] - 31s 176ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 5/200
176/176 [==============================] - 31s 175ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 6/200
176/176 [==============================] - 31s 175ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 7/200
176/176 [==============================] - 31s 174ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 8/200
176/176 [==============================] - 31s 175ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 9/200
176/176 [==============================] - 31s 173ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 10/200
176/176 [==============================] - 31s 173ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 11/200
176/176 [==============================] - 30s 173ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 12/200
176/176 [==============================] - 31s 175ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 13/200
176/176 [==============================] - 31s 173ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 14/200
176/176 [==============================] - 31s 174ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 15/200
176/176 [==============================] - 31s 174ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 16/200
176/176 [==============================] - 31s 174ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 17/200
176/176 [==============================] - 30s 173ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 18/200
176/176 [==============================] - 31s 173ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 19/200
176/176 [==============================] - 31s 173ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 20/200
176/176 [==============================] - 30s 173ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 21/200
176/176 [==============================] - 31s 174ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 22/200
176/176 [==============================] - 31s 174ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 23/200
176/176 [==============================] - 31s 175ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 24/200
176/176 [==============================] - 31s 177ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 25/200
176/176 [==============================] - 31s 178ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 26/200
176/176 [==============================] - 31s 177ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 27/200
176/176 [==============================] - 31s 177ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 28/200
176/176 [==============================] - 31s 173ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 29/200
176/176 [==============================] - 31s 173ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 30/200
176/176 [==============================] - 31s 174ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 31/200
176/176 [==============================] - 31s 174ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-06
Epoch 00031: early stopping

最常见的原因是学习率太高。对于分类问题，学习率太高会导致模型「顽固」地认为某些数据属于错误的类，而正确的类的概率为0（实际是浮点数下溢），这样用交叉熵就会算出无穷大的损失函数。一旦出现这种情况，无穷大对参数求导就会变成 NaN，之后整个网络的参数就都变成 NaN 了。解决方法是调小学习率，甚至把学习率调成0，看看问题是否仍然存在。若问题消失，那说明确实是学习率的问题。若问题仍存在，那说明刚刚初始化的网络就已经挂掉了，很可能是实现有错误。
作者：王赟 Maigo
链接：https://www.zhihu.com/question/62441748/answer/232522878 来源：知乎
版权归作者所有。商业转载请联系作者授权，非商业转载请注明出处。

[En]

The copyright belongs to the author. Commercial reprint please contact the author for authorization, non-commercial reprint please indicate the source.

在训练的时候，整个网络随机初始化，很容易出现nan，这时候需要把学习率调小，可以尝试0.1，0.01，0.001，直到不出现nan为止，如果一直都有，那可能是网络实现问题。
作者：峻许
链接：https://www.zhihu.com/question/62441748/answer/232704244
来源：知乎
版权归作者所有。商业转载请联系作者授权，非商业转载请注明出处。

[En]

The copyright belongs to the author. Commercial reprint please contact the author for authorization, non-commercial reprint please indicate the source.

当您在搜索原因的过程中发现此问题的其他可能原因时，请将其记录在此处：

[En]

When you see other possible causes of this problem during the search for the cause, record it here:

可能的原因：

loss Nan有若干种问题：

学习率太高。
对于分类问题，用categorical cross entropy
对于回归问题，可能会有除以0的计算，加一点余数即可解决

[En]

for the regression problem, there may be a calculation of division by 0, which can be solved by adding a small remainder.*
数据本身是否存在Nan，可以用numpy.any(numpy.isnan(x))检查一下input和target
target本身应该是能够被loss函数计算的，比如sigmoid激活函数的target应该大于0，同样的需要检查数据集

作者：猪了个去
链接：https://www.zhihu.com/question/62441748/answer/232520044
来源：知乎
版权归作者所有。商业转载请联系作者授权，非商业转载请注明出处。

[En]

The copyright belongs to the author. Commercial reprint please contact the author for authorization, non-commercial reprint please indicate the source.

可能的原因：

nan是代表无穷大或者非数值，一般在一个数除以0时或者log(0)时会遇到无穷大，所以你就要想想是否你在计算损失函数 (loss) 的时候，你的网络输出为0，因为计算了log(0)从而导致出现nan。
–

[En]

–
版权声明：本文为CSDN博主「accumulate_zhang」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/accumulate_zhang/article/details/79890624

可能的原因：

来源：https://discuss.gluon.ai/t/topic/8925/4
另外还有一种可能就是random的augmentation在你的图像上没处理好，可能会有一些极端的augmentation，验证方法是关掉train default aug里面的一些random crop 和random expand

但是我尝试去掉在数据预处理时的图像增强 (Data augmentation, ImageDataGenerator) 后，loss还是在中途变成nan，输出如下：

Epoch 1/200
176/176 [==============================] - 27s 84ms/step - loss: 10.1720 - accuracy: 0.0182 - val_loss: 7.0242 - val_accuracy: 0.0252 - lr: 0.0010
Epoch 2/200
176/176 [==============================] - 13s 74ms/step - loss: 10.0744 - accuracy: 0.0221 - val_loss: 5.1386 - val_accuracy: 0.0168 - lr: 0.0010
Epoch 3/200
176/176 [==============================] - 13s 75ms/step - loss: nan - accuracy: 0.0149 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 4/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 5/200
176/176 [==============================] - 13s 75ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 6/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 7/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 8/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 9/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 10/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 11/200
176/176 [==============================] - 13s 75ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 12/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 0.0010
Epoch 13/200
176/176 [==============================] - 13s 75ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 14/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 15/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 16/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 17/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 18/200
176/176 [==============================] - 13s 75ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 19/200
176/176 [==============================] - 13s 75ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 20/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 21/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 22/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-04
Epoch 23/200
176/176 [==============================] - 13s 75ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 24/200
176/176 [==============================] - 13s 75ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 25/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 26/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 27/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 28/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 29/200
176/176 [==============================] - 13s 74ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 30/200
176/176 [==============================] - 13s 75ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 31/200
176/176 [==============================] - 13s 75ms/step - loss: nan - accuracy: 0.0100 - val_loss: nan - val_accuracy: 0.0100 - lr: 1.0000e-05
Epoch 00031: early stopping

这个问题回到了原来调整学习率的问题上。

[En]

The problem returns to the original problem of adjusting the learning rate.

可能的原因：

梯度爆炸，解决方法：降低学习率、梯度剪裁、归一化
–

[En]

–
版权声明：本文为CSDN博主「鹅似一颗筱筱滴石头～」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Drifter_Galaxy/article/details/104004267

2.学习率和网络的层数一般成反比，层数越多，学习率通常要减小
3.有时候可以先用较小的学习率训练5000或以上次迭代，得到参数输出，手动kill掉训练，用前面的参数fine tune，这时候可以加大学习率，能更快收敛哦
4.如果用caffe训练的话，你会看到没输出，但是gpu的利用率一直为0或很小，兄弟，已经nan了，只是因为你display那里设置大了，导致无法显示，设为1就可以看到了
作者：峻许
链接：https://www.zhihu.com/question/62441748/answer/232704244
来源：知乎
版权归作者所有。商业转载请联系作者授权，非商业转载请注明出处。

[En]

The copyright belongs to the author. Commercial reprint please contact the author for authorization, non-commercial reprint please indicate the source.

Original: https://blog.csdn.net/q2972112/article/details/122149499
Author: 向日葵种植爱好者
Title: Keras-训练网络时的问题：loss一直为nan，accuracy一直为一个固定的数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/508899/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

树莓派通过RF443MHz收发控制家庭灯

背景：家中随意贴开关损坏(一种通过443MHz控制的远程开关)，且关灯后到卧室需要摸黑，萌生了搞远程控制灯的想法，因为有吃灰的树莓派，所以考虑了最低成本的方案，只需购买价值几元钱的…

人工智能 2023年7月30日
0029
教你用Pytorch搭建一个自己的简单的BP神经网络( 以iris数据集为例 )

目录数据集构造函数: 确立一个网络关于forward 完成一次训练循环训练与测试运行结果 GPU与CPU对比我的历史遗留问题前言:为什么想写这个博客前阵子学习MAS…

人工智能 2023年6月15日
0096
switch&循环语句

1. switch语句 1.1 分支语句switch语句格式 switch (表达式) { case 1: 语句体1; break; case 2: 语句体2; break; ….

人工智能 2023年6月27日
0045
Stable Diffusion6

都写到6了这次是采样速度翻倍！清华大学计算机系朱军教授带领的 TSAIL 团队提出 DPM-Solver（NeurIPS 2022 Oral，约前 1.7%）和 DPM-Solv…

人工智能 2023年7月30日
0061
【线性回归】for循环求简单线性回归的误差函数

导览全文了解数据集目标简述主体代码展示 01、了解数据集 data.csv：一个保存着若干数据点坐标的文件。首先导入相关依赖，通过散点图的形式画出数据导入数据库 impo…

人工智能 2023年6月17日
0050
传统图像分割——分水岭算法（watershed）

传统图像分割——分水岭算法（watershed）文章目录传统图像分割——分水岭算法（watershed）前言一、什么是分水岭算法？二、经典的分水岭求解算法 * 1.定义 …

人工智能 2023年6月17日
0079
线性回归（线性拟合）与非线性回归(非线性拟合)原理、推导与算法实现（一）

关于回归和拟合，从它们的求解过程以及结果来看，两者似乎没有太大差别，事实也的确如此。从本质上说，回归属于数理统计问题，研究解释变量与响应变量之间的关系以及相关性等问题。而拟合是把平…

人工智能 2023年6月16日
0083
三相电机如何判断好坏？

三相电机如何判断好坏三相电机与单相电机测量绝缘电阻方式一样，但测量线圈阻值判断方法不一样。测量电机线圈阻值，万用表档位选择在电阻200Ω档，用红、黑表笔分别测量电机（U1、V1…

人工智能 2023年6月4日
0053
PyTorch框架学习（一）—Tensor（张量）详解

PyTorch框架学习（一） — Tensor（张量）详解 1 Tensor 的概念 2 Tensor 与 Variable 3 创建Tensor的方法 * 3.1 直接创建Ten…

人工智能 2023年7月24日
0058
Anaconda安装配置、DataSpell安装使用教程

Anaconda安装配置、DataSpell安装使用教程一、Anaconda介绍及下载 Anaconda官网双击下载 ; 二、安装Anaconda win10用户，建议使用管理员…

人工智能 2023年6月15日
0096
Linear Algebra (一)

A B = C AB = C A B =C[ a 11 ⋯ a 1 n ⋮ ⋱ ⋮ a m 1 ⋯ a m n ] [ b 11 ⋯ b 1 p ⋮ ⋱ ⋮ b n 1 ⋯ b n…

人工智能 2023年6月11日
0075
【mmaction2 入门教程 01】 slowfast训练配置日志分析测试结果分析

目录 0 参考资料 1 GPU平台 2 训练配置（Training setting） * 2.1 官网的训练配置文档 2.2 官网的时空动作检测的配置文件系统解析（Config S…

人工智能 2023年6月17日
0073
基于matlab实现数字图像处理之图像变换

一、实验目的（1）了解图像变换的意义和手段。（2）熟悉傅立叶变换的基本性质。（3）通过实验了解二维频谱的分布特点。二、实验仪器（软件平台） Matlab 软件三、实验原理…

人工智能 2023年6月22日
0082
模糊神经网络

参考：https://wenku.baidu.com/view/94f77a7384868762cbaed58f.htmlhttps://wenku.baidu.com/view/…

人工智能 2023年7月13日
0051
Adam优化器（通俗理解）

网上关于Adam优化器的讲解有很多，但总是卡在某些部分，在此，我将部分难点解释进行了汇总。理解有误的地方还请指出。 Adam，名字来自： Adaptive Moment Estim…

人工智能 2023年7月29日
0052
站在巨人的肩膀上，用Node+ChatGPT模块实现一个接口

目录前言准备工作功能实现写在最后前言蹭一下最近比较火的人工智能ChatGPT的热度，最近看到许多小伙伴都在调戏ChatGPT，看到这我就坐不住了，这种事怎么能少了我，于…

人工智能 2023年7月31日
0064

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Keras-训练网络时的问题：loss一直为nan，accuracy一直为一个固定的数

大家都在看