解决RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors…CUDA_LAUNCH_BLOCKING=1

2023年6月23日上午6:39 • 人工智能 • 阅读 81

完整报错

RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

其实出现这种情况的原因，(由于我本人遇见bug比较多)我踩得坑分为两种 ,不知道还会不会有更多原因也是报如上错误！！！！

第一种情况(常见，通常不能完整训练1轮数据)

如果您已经查到过本方法，并且未解决的话，可以直接看第二种情况~~~
相信大家也查阅了很多如上述错误的帖子了，大部分都是说大家的标签设置不对！简单来说:拿VOC格式数据举例子: 假设您需要要做一个2分类，数据信息呢又都在VOC种类数据集中的 “Annotations” 文件夹之中的 “.xml” 文件中，但是数据不干净，不小心掺杂了其他数据集的 “.xml” 文件，图片也放进对应文件夹的话，就会导致数据标签多了 1或者多类别，所以再train数据集的时候，开始还能正常运行，当dataload加载到那个多余的 “.xml” 文件信息时就会在您提供的label.txt文件里面找不到这个分类，出现如上错误。在此给出一个检查所有 Annotations 文件夹之中一共有多少个label的代码:

import os
import xml.etree.ElementTree as ET

from tqdm import tqdm

def getClsTxt(xmlDir, cls_txt):
"""
    xmlDir  ：xml地址
    cls_txt : 输出cls文件地址
"""

    for name in tqdm(os.listdir(xmlDir)):
        xmlFile = os.path.join(xmlDir, name)
        with open(xmlFile, "r+", encoding='utf-8') as fp:
            tree = ET.parse(fp)
            root = tree.getroot()
            for obj in root.iter('object'):
                cls = obj.find('name').text

                set_cls.add(cls)

    with open(cls_txt, "w+") as ft:
        for i in set_cls:
            ft.write(i + "\n")

if __name__ == '__main__':
    set_cls = set()

    xmlDir = "dataset/VOC/Annotations"

    cls_txt = "dataset/VOC/labels.txt"

    getClsTxt(xmlDir, cls_txt)

运行如下代码可以自动帮您生成所有 “.xml” 文件中出现过的label，并写入 labels.txt中！然后您可以对比一下和自己原来训练所用的标签能否对应上。
第一种情况的错误，如果您的数据加载代码没问题包含了所有的数据，一般会在第一轮训练不完就报此错误~~~

第二种情况(不常见，报错轮次随机)

下图可见，作者训练了41轮次快结束时候报错，前面40多轮都是正常训练的，有时候不到三轮就报这个错误了，采用第一种情况的解决方法，对照了我自己的label种类发现都是没有问题的！出现这种问题的原因在于作者在魔改网络模型结构不精所致，可以细心的发现下图最底下报错日志多了一行。如下
/pytorch/aten/src/ATen/native/cuda/Loss.cu:115: operator(): block: [19,0,0], thread: [0,0,0] Assertion input_val >= zero && input_val

assert targets.max() > 1 or targets.min() < 0, "label error max{} min{}".format(targets.max(), targets.min())

第三种情况(训练不报错，验证报错如上错误)

再次更新这篇博文，如果您上述两种情况都尝试过了，还是不行且每次训练不报错，都是在验证集上报错时，我这边有一个方法，对我是有效的，可以尝试一下，在读取数据时候将 num_workers改为0。

DataLoader(num_workers=0)

Original: https://blog.csdn.net/qq_37700257/article/details/124513572
Author: 锦鲤AI幸运
Title: 解决RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors…CUDA_LAUNCH_BLOCKING=1

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/646824/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

构建知识图谱（2）—定义数据模型

构建知识图谱一般有以下两种方式：自顶向下（Top-Down）：即首先为知识图谱定义数据模式，数据模式从最顶层概念构建，逐步向下细化，形成结构良好的分类层次，然后再将实体添加进概念…

人工智能 2023年6月1日
0074
[读论文]语言视觉多模态预训练模型 ViLBERT

论文地址：https://arxiv.org/abs/1908.02265 代码实现：https://github.com/facebookresearch/vilbert-mul…

人工智能 2023年5月30日
0092
【论文笔记】LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

文章目录 LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking 基本信息摘要 …

人工智能 2023年5月26日
0095
控制系统中的AI、AO、DI、DO是什么意思——控制系统基础知识

控制系统中AI、AO、DI、DO是集散控制系统中模块上常见的一些基本标注，好处就是便于分清什么类型量的设备，方便前期的产品选型及后期的维修与保养。同时将现场模拟量仪表和开关量设备等…

人工智能 2023年6月24日
00195
【建议收藏】机器学习数据预处理（五）——特征选择（内附代码）

📌引言本节我们开始介绍特征选择的相关内容，好的特征对后续的机器学习模型构建有很大的帮助，很有可能会大大提高模型的准确率。 📌特征选择在进行了数据预处理以及特征构造后，我们需要对…

人工智能 2023年7月27日
0073
图像识别技术

目录一、图像识别的介绍二、图像识别原理文字识别数字图像处理和识别物体的识别提取字符特征样本训练与识别三、图像识别的应用一、图像识别的介绍随着图像处理技术的飞速发…

人工智能 2023年6月23日
0094
【架构分析】Tensorflow Internals 源码分析5 – TensorRT与Tensorflow

目录概述 TensorRT Overview 架构Overview TF优化器 TRT 优化器执行时序概述 TensorRT是一个高性能的深度学习推理优化器，可以为深度学习模型…

人工智能 2023年5月24日
00111
深度学习框架-Backbone汇总

Backbone—— Neck —— Head 1. Backbone：翻译为骨干网络的意思，既然说是主干网络，就代表其是网络的一部分，那么是哪部分呢？这个主干网络大多时候指的是 …

人工智能 2023年7月29日
0045
Win7下Python与Tensorflow-CPU版开发环境的安装与配置

最近刚学下tensorflow ,保留下安装过程中出现的问题 python 3.7 版本对应的tensorflow 是cpu的 ,没有显卡 window 系统软件下载 : 下载…

人工智能 2023年5月25日
0080
pandas，对dataFrame中某一个列的数据进行处理

背景：dataFrame的数据，想对某一个列做逻辑处理，生成新的列，或覆盖原有列的值下面例子中的df均为pandas.DataFrame()的数据 1、增加新列，或更改某列的值 …

人工智能 2023年6月2日
0090
NLP模型笔记2022-28：neo4j+py2neo知识图谱构建多个数据库

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0055
【Pandas】Pandas中的一些操作–读取excel、修改列名、删除行、列

df=pd.read_excel(‘jx.xlsx’]) # 读取excel所有&#…

人工智能 2023年7月9日
00147
SPSS中系统聚类操作案例

示例：一啤酒生产商想了解当前啤酒市场情况，并判断时下最受欢迎的啤酒品牌，收集了多种啤酒在售价、热量、钠含量、酒精含量等方面的数据。运用系统聚类法对各项数据进行分析，并给出：（1…

人工智能 2023年5月31日
0080
C++ – 面向对象编程方法

“以对象为基础（object-based）”的类机制无法针对如”are-a-kind-of（隶属同类）”的Book类的共通性质进行系…

人工智能 2023年7月29日
0047
Tensorflow 2.x(keras)源码详解之第九章：模型训练和预测的三种方法(fit&tf.GradientTape&train_step&tf.data)

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多…

人工智能 2023年5月25日
0049
5000张高清壁纸大图（手机用），用Python在法律的边缘又试探了一把

[removed][removed] [removed] $(function () { $(“#search”).click(function () { …

人工智能 2023年7月5日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

解决RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors…CUDA_LAUNCH_BLOCKING=1

大家都在看