tensorflow2.x（一）显存不够或内存不够要怎么办？

2023年5月23日下午4:47 • 人工智能 • 阅读 92

许多教程说，使用较少的样本数或更换较大的硬件。事实上，这是治标不治本的办法。

[En]

Many tutorials say using a smaller number of samples or swapping for larger hardware. As a matter of fact, it is a temporary cure rather than a permanent cure.

如果你是直接将全部训练样本以np.narray数组的形式输入fit，这种情况下的内存不够，即使使用更小的batchsize，也不会有明显的改善。

先说解决方案——那就是官方自定义的数据格式 tfrecords.

在这种格式下，每次只从存储硬盘中读取一个batchsize的数据入内存（显存），而不是将整个训练样本一次性全部读入，因此可以大大减小内存开支，但会牺牲小部分IO性能。

从tensorflow数据存取方式讲起

Preloaded data：预加载数据。
Feeding：利用python读取原始数据，将数据feed到图中。
Reading from file：从文件中直接读取。

1. Preloaded data

这种方法是一般机器学习最基本的方法，但只适用于数据量较小的情况。

[En]

This method is the most basic way of general machine learning, but it is only suitable for cases with small amount of data.

数据加载方式是自己在内存中直接创建数据，省去了每个batch从硬盘到内存这个步骤。
然而，这种方法受到内存大小的严格限制，当内存中没有空间时，大数据不能使用这种方法。

[En]

However, this method is strictly limited by the size of memory, and big data cannot use this method when there is no room in it.

2. Feeding

这种方式就需要每次从硬盘存一个batch的数据到内存中，然后送入到占位符中，在图中进行计算。这种方式的优势在于训练过程只需要一个batch的内存，并且如果你暂时不熟悉tensorflow相关的数据才做，可以利用python相关的库处理之后再送入到占位符中。

但是这种方式也有很大缺陷，就是当数据规模较大的时候，也会出现数据传输的较大时间损耗，效率偏低。这里的传输只从python读入的数据传入到图中计算的数据，这之间存在一个数据转换的问题。

2. Reading from file

tensorflow内置了三种格式的文件读取管道，这种文件读取流程是如上图所示的高效率的双队列机制。

其中，读取数据的线程不断将文件系统中的数据读入，另一个线程则是负责计算，计算需要的数据直接从内存中取即可。在TF中还提供一种高效的数据管理机制，双队列机制。在内存队列之前有一个文件名队列，更好的管理epoch。综上所述，在这里讨论一种适用于大规模数据的方法。

这三种文件格式分别为：
tf.data.TFRecordDataset、tf.data.TextLineDataset、tf.contrib.data.CsvDataset

针对我们的高维数据类型，我们采用TFRecordDataset格式。

; 下面正式开始数据转存

1.首先将数据数组转为Tensor格式，并按照 tfrecords的存储方式存储。

tfrecords的存储方式为：将所有（float, int, bytes等)格式数据全部转为string格式的字符串数据；读取时再根据原数据格式反编译。

具体可参考：
Tensorflow官网： https://tensorflow.google.cn/tutorials/load_data/tfrecord
知乎相关文章： https://zhuanlan.zhihu.com/p/363999842


def save_tfrecords(data, label, desfile):
    with tf.io.TFRecordWriter(desfile) as writer:
        for i in range(len(data)):
            features = tf.train.Features(
                feature = {
                    "data":tf.train.Feature(bytes_list = tf.train.BytesList(value = [tf.io.serialize_tensor(data[i]).numpy()])),
                    "label":tf.train.Feature(float_list = tf.train.FloatList(value = label[i])),
                }
            )
            example = tf.train.Example(features = features)
            serialized = example.SerializeToString()
            writer.write(serialized)

您可以拆分样本和标签，并将它们保存在块中：

[En]

You can split the sample and label and save them in blocks:

save_tfrecords(x_in_sample1,y_in_sample1, "path1.tfrecords")
save_tfrecords(x_in_sample2,y_in_sample2, "path2.tfrecords")

2.利用tensorflow内集成的数据流管道分批次读取TFR大数据集，并行训练


def map_func(example):
    feature_description = {
        'data': tf.io.FixedLenFeature([], tf.string),
        'label': tf.io.FixedLenFeature([], tf.float32),
    }
    parsed_example = tf.io.parse_single_example(example, features=feature_description)

    x_sample = tf.io.parse_tensor(parsed_example['data'], tf.float32)
    y_sample = parsed_example['label']

    return x_sample, y_sample

def load_dataset(filepaths):

    shuffle_buffer_size = 3000
    batch_size = 256

    dataset = tf.data.TFRecordDataset(filepaths)
    dataset = dataset.shuffle(shuffle_buffer_size)
    dataset = dataset.map(map_func=map_func, num_parallel_calls= 8)
    dataset = dataset.batch(batch_size).prefetch(64)

    return dataset

train_set = load_dataset(["path1.tfrecords","path2.tfrecords"])

valid_set = load_dataset(["path3.tfrecords","path4.tfrecords"])

hist = model.fit(train_set,epochs=model_epochs, validation_data=valid_set, callbacks=[early_stopping])

至此，完成。
牺牲了小部分数据IO的性能，换来了仅需很小内存开支的模型大样本训练。

小tips：
使用了tfrecords后，训练模型所需要的内存大大减少，因此，为了充分利用GPU资源，可以手动将GPU的内存分割，从而用一个GPU同时训练多个模型。
GPU内存获取限制代码如下，这里设置memory_limit=1024：

gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:

    try:
        tf.config.experimental.set_virtual_device_configuration(
            gpus[0],
            [tf.config.experimental.VirtualDeviceConfiguration(memory_limit=1024)])
        logical_gpus = tf.config.experimental.list_logical_devices('GPU')
        print(len(gpus), "Physical GPUs,", len(logical_gpus), "Logical GPUs")
    except RuntimeError as e:

        print(e)

在每个模型程序中，加入此代码，设置memory_limit，即可在一个GPU中，同时训练多个模型。

可以看到，这里同时跑了4个模型，每个模型使用2099M内存（虽然设置中仅为memory_limit=1024，但实际运行中可能会多1一个G左右，这个需要注意一下），且将GPU算力用到了100%，充分利用了GPU的资源。

Original: https://blog.csdn.net/qq_37373209/article/details/122094822
Author: RicardoOzZ
Title: tensorflow2.x（一）显存不够或内存不够要怎么办？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/496584/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

opencv常见用法和opencv3-＞opencv4版本切换

1.1 cv::TermCriteria The class defining termination criteria for iterative algorithms(这个类定…

人工智能 2023年6月25日
0089
Python中使用MySQL

Python中使用MySQL 一、前言二、下载安装MySQL * 1.下载MySQL 2.安转MySQL 3.设置环境变量 4.启动MySQL 5.使用Navicat for M…

人工智能 2023年7月5日
0091
机器学习实战-SVM模型实现人脸识别

文章目录 SVM建模进行人脸识别案例 * 1、导包 2、加载数据集 3、直接使用SVM模型建模 4、数据可视化 5、网络搜索优化确定最佳性能 6、使用最佳性能SVM建模 7、优化后…

人工智能 2023年7月27日
0084
【云原生】一篇打通微服务架构，nacos + gateway + Redis + MySQL + docker

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月31日
0061
多元输出回归模型

多元输出回归是指在给出输入示例的情况下涉及预测两个或多个目标变量的回归问题。回归是指涉及预测数值的预测建模问题。例如，预测大小，重量，数量，销售数量和点击次数是回归问题。通常，…

人工智能 2023年6月15日
0099
BERT模型详解

Auto-Regressive & Auto-Encoding 在介绍当下最火热的BERT模型之前，我们先来看两个概念，Auto-Regressive和Auto-Encod…

人工智能 2023年5月27日
00155
pytorch学习以FSRCNN为例

目录前言一、FSRCNN网络结构二.网络模型三.数据集构建四.训练 4.1训练代码 4.2可视化五.验证总结前言本人刚刚开始学习pytorch，又刚好学习了FSR…

人工智能 2023年7月22日
0081
U-Net网络

U-Net普遍应用在生物医学影像领域，其在架构设计和其他利用卷积神经网络基于像素的图像分割方面更成功，它甚至对有限数据集的图像更有效。U-Net 的命名源自它的结构，它的网络结构可…

人工智能 2023年6月16日
0067
Pandas数据分析：快速图表可视化各类操作详解+实例代码(三)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0073
记录历经三天将自己的yolov5模型部署到Android安卓手机

将yolov5部署到安卓手机移动端记录历经三天小白将自己的yolov5模型部署到安卓手机一、前言二、具体流程 * （一）.部署官方yolo到安卓 – 1.CMak…

人工智能 2023年5月30日
0096
单细胞数据挖掘 P2.2 构建Seurat对象，质控、绘图

一、筛选思路及方法 2.1 构建seurat对象，质控 In total, 2,343 cells from tumor cores were included in this a…

人工智能 2023年6月19日
0075
Python图像处理丨图像缩放、旋转、翻转与图像平移

摘要：本篇文章主要讲解Python调用OpenCV实现图像位移操作、旋转和翻转效果，包括四部分知识：图像缩放、图像旋转、图像翻转、图像平移。本文分享自华为云社区《[Python图…

人工智能 2023年7月5日
0085
数据结构树 Tree

描述一个父子关系高度：从下往上算 0 算到根节点深度：从上往下算从根节点开始算0 到最下面的叶子节点层：从上往下算根节点为1 往叶子节点算二叉树的遍历前序遍历：根…

人工智能 2023年6月28日
0081
使用pandas从excel表格中取一列数值报错，注意空格

使用pandas从excel数据中取某一列时报错： KeyError Traceback (most recent call last)E:\ProgramFiles\Anacon…

人工智能 2023年7月5日
0058
聚类的评价指标

聚类的评价指标对于聚类结果的评价方法一般可以分为内部评估法（internal evaluation）与外部评估方法（external evaluation）。外部评估方法是指在…

人工智能 2023年6月15日
00192
mysql的union和union all

sql中 union 和 union all 的用法如果我们需要将两个 select 语句的结果作为一个整体显示出来，我们就需要用到 union 或者 union all 关键字…

人工智能 2023年7月29日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

tensorflow2.x（一） 显存不够或内存不够要怎么办？

从tensorflow数据存取方式讲起

1. Preloaded data

2. Feeding

2. Reading from file

; 下面正式开始数据转存

1.首先将数据数组转为Tensor格式，并按照 tfrecords的存储方式存储。

2.利用tensorflow内集成的数据流管道分批次读取TFR大数据集，并行训练

大家都在看

tensorflow2.x（一）显存不够或内存不够要怎么办？