训练时，训练误差、精度，和验证误差、精度，都保持不变，是个固定值（难受），这是为啥呢？

2023年5月26日下午8:42 • 人工智能 • 阅读 189

使用 TensorFlow with Keras，按照《Python 深度学习》（《Deep Learning with Python》）文本和序列处理那章，使用一维卷积Conv1D进行IMBD电影评论情感分类，下面是书里的代码：

训练时，训练误差、精度，和验证误差、精度，都保持不变，是个固定值（难受），这是为啥呢？

结果，运行的时候，出现了训练误差和精度、验证误差和精度都保持不变的情况：

我惊呆了！训练误差一直是 7.7364，训练精度一直是0.4985，验证误差一直是7.6168，验证精度一直是 0.5062 。你说你要是上升，或者下降又上升，或者 xxxx ，怎么着都比这种固定不动的情况好理解啊，这 xxxx。

既不是过拟合，也不是性能不佳，不是学习率太大或太小，也不是网络层次复杂，更不是训练过程中 batch大小、epoch数或者validation 数据的比例。。。

最后的最后，终于让我找到了原因，并且引出了一个大问题，这波很重要~~

原因：二至交叉熵损失函数。

注意，模型 compile 的时候，书里的代码传入的是 loss=’binary_crossentropy’，这是以字符串形式传入的损失函数，经过查阅文档、百度搜索、VS Code里点来点去找模块源码，我终于明白这是个在keras 的 losses 模块里定义的一个函数（它虽然与同模块下 BinaryCrossentropy 类有相同的功能——计算二值交叉熵，但是二者相对独立地存在，而字符串指定 ‘binary_crossentropy’ 时，指的就是前者 this function，而不是后者 that class）。

而不管是身为函数的 binary_crossentropy，还是身为类的 BinaryCrossentropy （虽然它的对象可以当作正常函数来访问，因为实现了 call 这个成员方法），它们使用时都会涉及一个叫做 from_logits 的关键字参数。当 from_logits = False 时，该损失函数接收概率值作为输入，也就是说接收 [0, 1] 的数，计算损失时直接带入熵的公式，而 False 也是默认参数值；当

那么问题来了，书中代码构建的网络，最后一层全连接层，并没有指定使用 activation 函数，也就是说，一个线性转换的结果直接输出作为预测结果，它是一个从负无穷到正无穷的数，是个logit数值，并不是个概率值，所以不能直接当成 from=False 的 binary_crossentropy 函数参数，来计算损失，因为这样会使得 log 传入负值而没有数学意义，代码层面不会报错，则不知道使用了什么机制，可能是不予考虑，也可能是别的什么，反正没有正常计算，更没有正常 backward。所以就出现了精度、误差都是固定值的情况。

=========================================================================

可怕的是，使用书中不很正确的代码，并不会每次都重现精度、误差保持不变的情况，这是因为最后一层参数初始化随机的问题。如果运气好，那么很少会出现交叉熵的 log 计算无意义的情况，即不会有对负数求 log 的情况。阴差阳错的，也会进行梯度下降，而且还真就能提高精度。

但毕竟不严谨。

现在看来，解决办法：要么设定二值交叉熵函数的 from_logits=True，要么网络最后一层添加 activation=’sigmoid’ 作为非线性压缩转换。

第二种办法——给网络加上最后的 sigmoid函数，肯定是对的（这应该是书中这段代码的主要错误了，加上这个就完全没问题了）。

至于第一种办法，虽然使得 loss 计算合理了，但是仍然有问题，因为编译的时候制定了 metrics 为 ‘acc’，即 accuracy 精度，要知道我们输出的并不是 label，而是个连续值，所以又出现过很多其他的问题，比如 loss 不断下降，但是精度却一直保持一个固定值，这种情况也是偶尔地出现，还是依靠于网络权重的初始化，运气不好就 GG。所以参数随机初始化真是个好东西，可以弥补理论上的错误，无脑地迭代、梯度下降、参数更新，最后竟然还能学到不错的结果：）

===============================================================

我的实验怎么做的？

As mentioned above，精度、损失值固定不变是随机出现的，参数初始化的好就不会出现，为了研究这个问题，让它必然出现这种情况，我在训练开始前，使用

将最后一个全连接层的所有权重设置为 -1.0，这样，必然得到负数，必然使 log 无意义，必然出现那种情况（此时这层依然是书上的代码，没有非线性转换），然后我就换用不同的 loss 设置，一个是直接 from_logits=False 的 ‘binary_crossentropy’，这时出现了上述的精度、误差全都不变的情况，原因很简单，数学意义错误，代码层面的捕捉异常我就没有深入考虑了；另一个是使用loss=BinaryCrossentropy(from_logits=True)，这时，更有趣了，误差不断下降，但是精度像上述一样，训练时、验证时都保持一个固定值不变，原因上面也说了，网络输出的是连续值，不可能跟0 or 1作为离散标记来比对。

====================================================================

上面的都是为了满足我的好学心（好奇心）瞎做的，瞎扯的。

其实。。。

从 model 定义（架构）、optimizer的学习率、fit 时传入的超参数设置等进行考虑，逐步地（循环递归地（皮））排查，最后发现 model 的输出不太对劲，因为这是个文本分类的问题，结果输出了既不是 like 0，又不是 like 1 的输出，就知道，书里把上一章的温度检测回归模型的思路带进来了，于是： 最后一个全连接（或者密集连接）层没有进行非线性的转换。

因为使用的是交叉熵损失，所以最后输出网络的时候要给个非线性变换，把输出压缩到 [0, 1]范围内，不然直接输出的数值没有意义，或者不能直接进行解释。

直接老老实实加个 activation=’sigmoid’就好。

完。

抓主要矛盾，主要矛盾，主要矛盾。下次一定：）

Original: https://blog.csdn.net/shuo_in_csdn/article/details/118789838
Author: shuo_in_csdn
Title: 训练时，训练误差、精度，和验证误差、精度，都保持不变，是个固定值（难受），这是为啥呢？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/521878/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PPOCRv3模型转pytorch

序言前段时间PaddleOCRv3版本发布，更新了检测和识别模型，性能有很大提升，本着能嫖就嫖的原则，刚出来的第一天就开始嫖上了，虽然新模型的性能相较于之前有较大提升，但是乍一看…

人工智能 2023年7月23日
0076
关系抽取发展历程

关系抽取方法： 1、早期： 1.1 基于规则的方法：人工定义抽取抽取规则，与语料进行匹配，抽取关系。规则一般由领域专家构建，用来描述两个实体所在结构。1.2 基于本体的方法：（本体…

人工智能 2023年6月1日
0078
2022李宏毅作业hw1—新冠阳性人员数量预测。

目录事前：一：数据读取。完整代码：二模型设计。完整代码：三训练步骤。完整的训练代码：这一部分被我放在model_utils的train模块里。四：测试和保存…

人工智能 2023年6月15日
00103
深度学习——手写BP神经网络

文章目录一、前置数学公式 * 1、c r o s s cross c r o s s e n t r o p y entropy e n t r o p y 交叉熵 2、s i …

人工智能 2023年7月13日
0087
《深入浅出Embedding–原理解析与应用实践》第一章万物皆可嵌入–读书笔记

嵌入技术的应用：自然语言处理/传统的机器学习/搜索排序/推荐/知识图谱 Word Embedding Item Embedding Graph Embedding Categori…

人工智能 2023年6月1日
0086
python运行脚本文件的3种方法

目录 python脚本执行的3种方法：方法一：交互模式直接执行语句方法二：通过脚本输出方法三：脚本中指定 python 路径，修改文件为可执行文件 python脚本执行的3种…

人工智能 2023年7月5日
0099
TensorFlow和Pytorch对应版本对照表

TensorFlow和Pytorch对应版本对照表 TensorFlow对应版本对照表 Pytorch对应版本对照表 TensorFlow对应版本对照表版本Python 版本编译…

人工智能 2023年5月23日
00222
Python爬虫系列（二）——Python爬虫批量下载百度图片

1. 前言先贴代码 import requests import json from urllib import parse import os import time clas…

人工智能 2023年7月17日
0068
详解随机梯度下降法（Stochastic Gradient Descent，SGD）

深度学习最常用的优化方法就是随机梯度下降法，但是随机梯度下降法在某些情况下会失效，这是为什么呢？带着这个问题我们接着往下看。一个经典的例子就是假设你现在在山上，为了以最快的速度下…

人工智能 2023年6月15日
0094
OWLAPI

基础知识 RDF Formats 开源库 JENA OWLAPI OWLAPI使用 protege ExtensionLanguage.ttlTurtle.ntN-Triples….

人工智能 2023年6月10日
0068
多媒体实验 Visual Studio 图像显示与处理对图像进行二值化、求边缘、增强等处理

具体代码，图像处理结果，报告，请访问：多媒体实验VisualStudio图像显示与处理对图像进行二值化、求边缘、增强等处理.zip-讲义文档类资源-CSDN文库一、实验目的 1…

人工智能 2023年6月22日
0092
（大全）预后Cox 列线图Nomogram 校正曲线calibration curve 时间依赖ROC survivalROC C指数C-index 两ROC比较

Cox模型+等比例风险检验+Nomogram+C-index+校准曲线+时间-ROC曲线内置包数据运行，预期结果看图部分代码加上自己的理解可以直接复制到R运行 #加载包 …

人工智能 2023年7月7日
0088
python CV2库

1.读入一张图片 2.显示图片 3.保存图片 4.灰度图和彩色图片相互转化 5.图像缩放 6.图像翻转安装的时候是pip install opencv_python 但是在导包的…

人工智能 2023年5月26日
0069
Pandas数据分析：快速图表可视化各类操作详解+实例代码(三)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0085
Python的raise用法

学习笔记 1、什么是异常处理 Python用异常对象(exception object)表示异常情况，遇到错误后，会引发异常。如果异常对象并未被处理或捕捉，程序就会用所谓的回溯(T…

人工智能 2023年7月6日
00103
人脸检测5种方法

众所周知，人脸识别是计算机视觉应用的一个重大领域，在学习人脸识别之前，我们先来简单学习下人脸检测的几种用法。常见的人脸检测方法大致有5种，Haar、Hog、CNN、SSD、MTC…

人工智能 2023年7月28日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

训练时，训练误差、精度，和验证误差、精度，都保持不变，是个固定值（难受），这是为啥呢？

大家都在看