关于GAN训练过程中的报错：one of the variables needed for gradient computation has been modified by an inplace

2023年7月22日下午8:53 • 人工智能 • 阅读 49

首先说明，按照我目前的查询，这可能是全网唯一公开的正确解决方法，所以一定要看下去

在github和百度上搜索gan示例代码的时候，通常会得到下面这种代码：先更新辨别器，再更新生成器。

            netD.zero_grad()

            real_out = netD(real_img).mean()
            fake_out = netD(fake_img).mean()
            d_loss = 1 - real_out + fake_out
            d_loss.backward(retain_graph=True)

            optimizerD.step()

            netG.zero_grad()
            g_loss = generator_criterion(fake_out, fake_img, real_img)
            g_loss.backward()
            optimizerG.step()

            fake_img = netG(z)
            fake_out = netD(fake_img).mean()

首先说明代码是没有问题的，但前提是你使用是老版本的pytorch，但是如果你是新一点的版本，你就会得到以下错误：

one of the variables needed for gradient computation has been modified by an inplace operation: [torch.cuda.FloatTensor [3, 6, 3, 3]] is at
version 3; expected version 2 instead. Hint: enable anomaly detection to find the operation that failed to compute its gradient, with torch.autograd.set_detect_anomaly(True).

当你在网上搜索解决方法的时候，你大概率会得到以下答案：更新梯度的步骤调后放在一起。

            real_out = netD(real_img).mean()
            fake_out = netD(fake_img).mean()
            d_loss = 1 - real_out + fake_out
            netD.zero_grad()
            g_loss = generator_criterion(fake_out, fake_img, real_img)
            netG.zero_grad()

            d_loss.backward(retain_graph=True)
            g_loss.backward()

            optimizerD.step()
            optimizerG.step()

            fake_img = netG(z)
            fake_out = netD(fake_img).mean()

但是我想说 你可真是害人不浅啊！！！！！！
虽然这样解决了报错， 但是这样你将永远得不到收敛成功的模型！
原因如下：在d_loss.backward(retain_graph=True)这步中返回梯度的时候，由于d_loss是由生成器的输出和辨别器的输出结合得出的结果，所以梯度会 同时反馈到生成器和辨别器中，在第一节中先更新辨别器，再更新生成器，之间会有netG.zero_grad()这一步将生成器的到的错误梯度归零。所以不会对训练有影响。
但是！！！！！！如果采用刚刚说的解决方法，在optimizerG.step()求步长的时候，就会同时使用到辨别器损失d_loss.backward(retain_graph=True)，生成器损失g_loss.backward()反馈的梯度，这样导致的结果就是：辨别器为了正确分出正负样本，” 不是让辨别器自己变得更优秀，而是让生成器变得更垃圾，这样你将永远得不到正确收敛的模型。

问题报错的原因是：辨别器损失d_loss和生成器损失g_loss,都会包含由生成器的输出fake_out和错误标签fake_label得出的fake_loss, 辨别器为了区分正负样本目标是让fake_loss越小越好，生成器为了混淆辨别器会让fake_loss越大越好。这样原本没有问题，但是在d_loss.backward(retain_graph=True)更新这一步，新版本pytorch梯度反馈机制，将会对fake_loss做出一些改变，导致在 g_loss.backward()反馈使用fake_loss的时候，就会报错。（我对pytorch研究不是太深，也不清楚究竟改变了什么，希望评论区有大佬告知）
既然知道了原因，就可以很简单的找到解决办法，只需要在d_loss.backward(retain_graph=True)之后，重新出计算一个fake_loss就可以，详细代码如下：

    self.G_optimizer.zero_grad()
    G_loss2 = G_loss - fake_loss*0.01
    G_loss2.backward(retain_graph=True)
    self.G_optimizer.step()

    self.D_optimizer.zero_grad()
    fake_pred = self.D_net(outputs.detach())
    fake_loss = self.D_loss(fake_pred, fake_label)
    D_loss = (real_loss + fake_loss )*0.5
    D_loss.backward()
    self.D_optimizer.step()

Original: https://blog.csdn.net/mmdbhs/article/details/123109619
Author: mmdbhs
Title: 关于GAN训练过程中的报错：one of the variables needed for gradient computation has been modified by an inplace

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/709597/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOX训练自己的数据集(超详细)

目录一、YOLOX安装 1、下载GitHub上的代码 2、安装yolov5所需要的依赖环境（1）、安装代码依赖的库文件（2）、通过setup.py安装一些库文件（3）、安装…

人工智能 2023年6月15日
00161
Yolov5自学笔记之二–在游戏中实时推理并应用（实例：哈利波特手游跳舞小游戏中自动按圈圈）

上一篇帖子我已经自学了Yolov5的基本流程，并运用yolov5进行图片、视频、摄像头、网络视频流等多种方式的推理，这些结合到实际工作中就可以有很广泛的应用了。但是还有一类情况，就…

人工智能 2023年5月26日
0096
回归里的变量选择

文章目录前言一、多维特征二、多变量_梯度下降1.特征缩放2.学习率三、多项式 _回归_1.特征 _选择_2.正规方程3.正规方程不可逆性总结前言一、多维特征在前面只探讨了单…

人工智能 2023年6月18日
0098
音频向量：VGGish（Pytorch）

人工智能 2023年5月23日
00113
PSM+DID 效果评估python demo 、线性分类模型+双重差分法

需求背景：策略不适用随机分流，在某部分人群全量上线，需要同通过构建相似人群的方式，对策略进行评估。评估方案： 1、使用PSM构建相似人群，确保实验组与对照组在AA期的评估指标趋…

人工智能 2023年7月16日
0054
【综述】一文读懂卷积神经网络(CNN)

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Netwo…

人工智能 2023年7月13日
0051
VS调用大恒相机sdk实时显示图像并进行图像处理+OPENCV

前言：近期企业需要用大恒相机的sdk开发项目，我采用VS2017+QT5.10.1+MSVC。一、环境配置 VS2017和qt的安装不多介绍，主要介绍大恒sdk的配置。1.htt…

人工智能 2023年7月18日
0069
数据仓库与数据挖掘

数据仓库与数据挖掘第一章：数据仓库和数据挖掘概述 1.1 数据仓库的产生数据仓库与数据挖掘：数据仓库和联机分析处理技术(存储)。数据挖掘：在大量的数据中心挖掘感兴趣的知识、…

人工智能 2023年6月19日
0074
机器学习-K近邻(KNN)算法详解

一、KNN算法描述 KNN（K Near Neighbor）：找到k个最近的邻居，即每个样本都可以用它最接近的这k个邻居中所占数量最多的类别来代表。KNN算法属于有监督学习方式的分…

人工智能 2023年6月4日
00124
【联邦学习邂逅密码学系列】基于同态加密算法python代码实现

这是我的学习笔记，若有不足和错误之处，欢迎交流和指正，谢谢！联系方式：lrcgnn@163.com 前言联邦学习是一种参与方之间联合隐私训练的新范式，受到学术界和工业界的关注。然…

人工智能 2023年6月16日
0095
从来也科技UiBot 6.0社区版全线免费，看RPA距离“人人可用”还有多远

来也科技RPA产品UiBot 6.0社区版全线免费，背后的逻辑是什么? 来也科技CPO褚瑞：开发者生态才是RPA厂商的真正护城河来也科技UiBot 6.0社区版全线免费，RPA距…

人工智能 2023年6月4日
00141
深度学习-通过Resnet18实现CIFAR10数据分类

文章目录 * – + * 1. CIFAR10数据集 * 2. Resnet18 * 3. 迁移学习 * 4. 代码实现 * – 4.1 导入程序所需的包 …

人工智能 2023年7月21日
0075
3090安装torch1.9报错总结

这几天一直在研究如何让代码可以在cuda上跑，结果总是报错解决了一下午才解决成功首先说明的是：3090必须安装cuda11版本，版本不要搞错。首先创建环境 conda cre…

人工智能 2023年7月23日
0045
【PyTorch深度学习项目实战100例】—— 使用文心大模型ERNIE-ViLG生成图片 | 第1例

大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集。正在更…

人工智能 2023年6月16日
0070
惊！brat安装后进行标注-实战，并且通过一行代码自动标注为BIO格式，便于模型训练-and 错误解决

find 文件夹名称 -name ‘*.txt’|sed -e ‘s|.txt|.ann|g’|xargs touch，其意思是对每…

人工智能 2023年6月10日
00162
基于Yolov5目标检测的物体分类识别及定位 — 全过程总结

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月24日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

关于GAN训练过程中的报错：one of the variables needed for gradient computation has been modified by an inplace

大家都在看