Failed to get convolution algorithm. This is probably because cuDNN failed..(TensorFlow和keras显存不足报错)

2023年5月25日上午1:44 • 人工智能 • 阅读 88

在跑深度学习程序时，用到TensorFlow或者keras时候，经常会报一个错误：

tensorflow.python.framework.errors_impl.

UnknownError: Failed to get convolution algorithm.

This is probably because cuDNN failed to initialize,
so try looking to see if a warning log message was printed above.

我查了很多资料，发现主要原因是显卡加速的显存不够用。

[En]

I looked up a lot of information and found that the main reason is that the video memory accelerated by the video card is not enough.

报错分析

出现这种情况的原因是，tensorflow初始化时会默认占满全部显卡和全部剩余显存，这会导致显卡除了训练之外无法进行其他工作，包括显示，一定会报错。TensorFlow的官网这这样解释的：

By default, TensorFlow maps nearly all of the GPU memory of all GPUs (subject to CUDA_VISIBLE_DEVICES) visible to the process.

This is done to more efficiently use the relatively precious GPU memory resources on the devices by reducing memory fragmentation.

翻译：默认情况下，TensorFlow映射所有GPU的几乎所有GPU内存（仅限CUDA可视设备）对流程可见。这样做是为了通过减少内存碎片来更有效地使用设备上相对宝贵的GPU内存资源。

说白了，我们默认使用所有显存，是为了防止碎片化，更好地利用内存。然而，在这种情况下，图形卡将无法执行计算机的其他正常功能，并将报告错误。因此，为了防止节目的行为，我们应该采取相应的措施。

[En]

To put it bluntly, we use all video memory by default in order to prevent fragmentation and to make better use of memory. However, in this way, the graphics card will not be able to perform other normal functions of the computer and will report an error. Therefore, in order to prevent the behavior of the program, we should take corresponding measures.

解决方法：

对于TensorFlow程序

1.直接限制显存，在报错的程序开头加上下面这几句程序：

from tensorflow.compat.v1 import ConfigProto
from tensorflow.compat.v1 import InteractiveSession
config = ConfigProto()
config.gpu_options.allow_growth = True
session = InteractiveSession(config=config)

在这种方案下，显存占用会随着epoch的增长而增长，也就是运行后面的eopch时，会去申请新的显存，前面已经完成的epoch所占用的显存并不会释放，原因也是为了防止碎片化。

2.直接限制显存的百分比，在报错程序的开头加上这几句程序：

from tensorflow.compat.v1 import ConfigProto
from tensorflow.compat.v1 import InteractiveSession
config = ConfigProto()
config.gpu_options.per_process_gpu_memory_fraction = 0.8
session = InteractiveSession(config=config)

这种方法就比较给力了，告诉tensorflow，我这块显卡给你80%的显存，其余的你给我放着不动。需要注意的是，虽然代码或配置层面设置了对显存占用百分比阈值，但在实际运行中如果达到了这个阈值，程序有需要的话还是会突破这个阈值。换而言之如果跑在一个大数据集上还是会用到更多的显存。以上的显存限制仅仅为了在跑小数据集时避免对显存的浪费而已。如果还是报错的话，以我多次实验的经验可以对0.8进行调整，比如降低到0.7、0.6或者0.5，这样的话，即使显存使用占比超过设定的这个阈值，显卡还是能正常工作，不会报错。

对于Keras程序

由于keras是使用的tensorflow后端，所以需要加上额外的语句。为了限制程序百分百调用显存，在程序开头的地方加上以下几句程序：

import tensorflow as tf
import keras
config = tf.compat.v1.ConfigProto(allow_soft_placement=True)
config.gpu_options.per_process_gpu_memory_fraction = 0.8
tf.compat.v1.keras.backend.set_session(tf.compat.v1.Session(config=config))

和上面一样，虽然代码或配置层面设置了对显存占用百分比阈值，但在实际运行中如果达到了这个阈值，程序有需要的话还是会突破这个阈值。所以0.8这个数值可以调整，最好向下调整数值大小。

没办法的办法：

如果以上方法都不行，可以尝试减小程序中的batch_size的大小了，batch_size的大小一般是2的n次方，设置的时候也需要按照这个规律进行设置。

实验验证：

经过本人的实验，以上的三段程序都可以Keras程序中使用，TensorFlow程序最好只使用前两个程序段，读者可以依次尝试，直到选择一个可以正常运行的程序段。

参考文献

Original: https://blog.csdn.net/nohopenolove/article/details/121531633
Author: C++&&python
Title: Failed to get convolution algorithm. This is probably because cuDNN failed..(TensorFlow和keras显存不足报错)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/511316/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch中log_softmax的实现

前言文章来源：CSDN@LawsonAbs log_softmax 是计算损失的时候常用的一个函数，那么这个函数的内部到底是怎么做到的呢？这里详细的解释一下。代码写代码前，回…

人工智能 2023年6月16日
0062
Informer源码分析

首先是数据准备阶段的入口函数，位于Exp_Informer类的train函数内 train_data, train_loader = self._get_data(flag = ‘…

人工智能 2023年6月15日
0069
人脸识别AdaFace学习笔记

原文链接：https://openaccess.thecvf.com/content/CVPR2022/papers/Kim_AdaFace_Quality_Adaptive_Ma…

人工智能 2023年6月17日
0088
2022.07.25 C++下使用opencv部署yolov7模型（五）

0.写在最前此篇文字针对yolov7-1.0版本。最近粗略的看了一遍yolov7的论文，关于yolov7和其他yolo系列的对比，咱就不多说了，大佬们的文章很多很详细。关于op…

人工智能 2023年7月19日
0059
3D卷积神经网络详解

1 3d卷积的官方详解 2 2D卷积与3D卷积 1）2D卷积 2D卷积：卷积核在输入图像的二维空间进行滑窗操作。 2D单通道卷积对于2维卷积，一个3*3的卷积核，在单通道图像上进…

人工智能 2023年7月4日
00148
【WY】数据分析 — Bokeh交互图表阶段一：进阶语法五 —— 折线图

版权声明：本文为博主原创文章，未经博主允许不得转载。文章目录一、折线图 * 1.1 单线图：p.line() – 1.1.1 例 1：列名：index + colu…

人工智能 2023年7月8日
0056
3.2.4-词袋模型和TF-IDF机制

目录词袋模型 * 编码方式 TF-IDF机制 * 设定计算方式实例词袋模型自然语言处理领域十分常用的文档表示方法。句子或者一篇文档，用一堆单词表示，且不考虑单词出现的顺…

人工智能 2023年5月30日
0078
python数据分析实战：用LSTM模型预测时间序列（以原油价格预测为例）

文章目录 1. 背景 2. 模型搭建 * 2.1 定义LSTM 2.2 LSTM层的输入和输出 2.3 网络建立 3. 时序数据处理 * 3.1 三种输入模式 3.2 归一化与反归…

人工智能 2023年7月15日
00129
解决报错RuntimeError: CUDA out of memory

文章目录一、问题描述二、解决方法 Reference 一、问题描述 (work2) andy@gpu-machine:~/deepFM_CTR_beat/model_train…

人工智能 2023年7月22日
0053
KNN算法实现鸢尾花数据集分类

KNN算法实现鸢尾花数据集分类作者介绍数据集介绍 KNN算法介绍用KNN实现鸢尾花分类作者介绍乔冠华，女，西安工程大学电子信息学院，2020级硕士研究生，张宏伟人工智能课…

人工智能 2023年7月28日
0065
Pandas教程（一）

demo1-Series使用特性 demo2-Series整数索引问题 demo3-Series数据对齐 demo4-Series缺失值的处理 demo5-DataFrame的创建…

人工智能 2023年7月7日
0094
逻辑回归模型及案例（Python）

1 简介逻辑回归也被称为广义线性回归模型，它与线性回归模型的形式基本上相同，最大的区别就在于它们的因变量不同，如果是连续的，就是多重线性回归；如果是二项分布，就是Logistic…

人工智能 2023年7月18日
0069
【PyTorch深度学习项目实战100例】—— 基于Transformer实现电影评论星级分类任务 | 第42例

大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集。正在更…

人工智能 2023年7月22日
0096
图片数据清洗

前言数据对于深度学习算法模型的效果至关重要。通常，在对采集到的大量数据进行标注前需要做一些数据清洗工作。对于大量的数据，人工进行直接清洗速度会很慢，因此开发一些自动化清洗工具对批…

人工智能 2023年5月26日
0062
机器学习中的数据预处理方法与步骤

数据预处理是准备原始数据并使其适用于机器学习模型的过程。这是创建机器学习模型的第一步，也是至关重要的一步。在创建机器学习项目时，我们并不总是遇到干净且格式化的数据。并且在对数据进…

人工智能 2023年7月3日
0095
使用python绘制折线图

前言最近在完成一篇气象预报的论文，涉及到深度学习与气象绘图。我觉得还是有必要写一下我在这个过程中的一些经验总结，借此机会与各位同道交流。一、基础命令在我们使用深度学习时，肯定…

人工智能 2023年7月3日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31