pytorch 模型GPU推理时间探讨3——正确计算模型推理时间

2023年7月21日下午1:48 • 人工智能 • 阅读 80

前言

上文说到，在统计pytorch模型的推理时间时发现每次的前几次推理耗时都非常多，而且在后面多次的推理中，其时间也呈现出很大的变化，后来经过调研，得知模型在GPU上推理时，需要对GPU进行一个 _warm up_阶段，使得显卡达到工作状态。对于后续多次推理时间的变化，差异较大，这一问题，是因为使用的计时工具是python标准库time里的perf_counter方法，该方法由CPU来执行，也就是说计时是在CPU上进行的，而实际计算是在GPU上进行的，这就涉及到同步异步计算的问题了，下面介绍同步异步计算以及怎么正确的计算模型推理时间。
还没看过前两篇的同学可以去看一看。下面是链接
Pytorch GPU模型推理时间探讨
 Pytorch GPU模型推理时间探讨2——显卡warm up

同步计算

上图表示同步计算，（手工画图，字见谅），CPU将要计算的数据以及模型通过总线发送给GPU，等发送完后通知GPU开始计算，这时开始perf_counter计数，显卡开始计算，此时CPU陷入阻塞，啥事也不做，等待显卡完成计算，当显卡完成计算后，将结果和结束消息发送给CPU，CPU停止计数。这一过程就是同步计算，CPU和GPU之间进行通信需要通过总线，而通信就有开销，所以这会导致CPU的计时极大的不准确性，同步的方式还带来了CPU的资源浪费，在一段时间里啥事也不做。

; 异步计算

知道了同步计算，异步计算就好理解了，上图中，CPU将数据和模型传到GPU后，通知GPU后就开始一个计数的线程，然后就去做其他事，等GPU完成计算后，给CPU发一个消息，CPU再停止计数。这样的异步计算，虽然没有CPU资源的浪费，但还是有通信上的损失，所以计时还是不准确。
所以，我们需要在GPU上，让GPU自己对自己进行计时。

正确计算GPU推理时间

如上图所示，正确的计时方法应该是由GPU自身发起，而不是在CPU上执行time的方法。在torch中，有 _torch.cuda.Event_这个类可以用来计时。具体用法例子如下：

model = Model()
input = th.randn(batch_size, in_c, in_h, in_w, dtype = th.float32)

starter, ender = th.cuda.Event(enable_timing=True), th.cuda.Event(enable_timing=True)

start = perf_counter()
model.to(device)
input = input.to(device)
to_gpu = (perf_counter() - start) * 1000

starter.record()
for _ in range(10):
    _ = model(input)
ender.record()
th.cuda.synchronize()
warm_up_time = starter.elapsed_time(ender)
print("GPU warm up time: ", warm_up_time)

timings = []
with th.no_grad():
    for i in range(100):
        starter.record()
        res = model(input)
        ender.record()

        th.cuda.synchronize()
        curr_timing = starter.elapsed_time(ender)
        timings.append(round(curr_timing, 3))

如果对你有帮助，不妨点个赞再走？

Original: https://blog.csdn.net/weixin_44801799/article/details/126236311
Author: pip install USART
Title: pytorch 模型GPU推理时间探讨3——正确计算模型推理时间

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/707152/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用SwinUnet训练自己的数据集

参考博文： https://blog.csdn.net/qq_37652891/article/details/123932772 数据集准备遥感图像多类别语义分割，总共分为7类…

人工智能 2023年5月28日
00142
[机器学习、Spark]Spark MLlib分类

👨‍🎓👨‍🎓博主：发量不足 📑📑本期更新内容：Spark MLlib分类 🔥🔥 📑📑下篇文章预告：Hadoop全分布部署🔥🔥🔥 简介：耐心，自信来源于你强大的思想和知识基础！！目…

人工智能 2023年7月25日
0057
【MATLAB第5期】源码分享#基于小波时间散射网络(WTSN)和长短期记忆网络 (LSTM) 的ECG信号分类模型，含源代码+中文注释，保姆级教学

【MATLAB第5期】源码分享#基于小波时间散射网络(WTSN)和长短期记忆网络 (LSTM) 的ECG信号分类模型，含源代码+中文注释，保姆级教学引言 1.小波散射网络关于小…

人工智能 2023年7月1日
00102
数据库的核心和基础、DBS三级模式结构、关系模型、数据、数据库、模式、内模式、外模式

教材：《数据库系统概论（第五版）》王珊高教出版社目录数据、数据库 * 数据管理技术经历的阶段 DBMS 必需功能数据库的核心和基础 * 数据模型 – 组成三要素…

人工智能 2023年6月1日
0070
Mask-RCNN所需labelme数据格式转换

目录踩坑为啥没有yaml 咋转换好使 16bit转8bit?? 子文件拿出合并，如何批量重命名踩了太多坑，屡败屡战！巨大成功，搞了2个小时，终于可以实现，将labelme的…

人工智能 2023年7月10日
0068
Yolov5的配置+训练（超级详细！！！）

我本来说只是单纯的记录一下第一次跑代码的流程的，结果看到了这么多大家都收藏和点赞，我决定再稍微改改他的排版，希望更多地朋友能在CV方向迅速上手！一、NVIDIA驱动安装与更新首先查…

人工智能 2023年7月4日
0070
双系统Ubuntu22.04深度学习环境配置与踩坑记录

双系统Ubuntu22.04深度学习环境配置踩坑记录前言目录 * 相关版本主要参考教程 Ubuntu安装 Nvidia和CUDA安装 – 踩坑经历官网安装所遇问…

人工智能 2023年5月23日
0074
关于Focal loss损失函数的代码实现

Focal loss的公式：其中用到的交叉熵损失函数表达式是（3） F L （ p t ） = − ( 1 − p t ) γ log ⁡ p t (1) FL（p_{t}） = …

人工智能 2023年6月24日
0081
pip install tensorflow 时报错 ERROR: Could not find a version that satisfies the requirement tensorflow

在安装对应版本tensorflow时，pip install tensorflow 时报错一、Bug报错截图：例如：ERROR: Could not find a versio…

人工智能 2023年5月23日
00146
OpenCV卡尺工具

1. 卡尺区域的生成及绘制，基于GDI+完成图形绘制实现代码： else if(regionEx?.Region is RotatedRectF){RotatedRectF rr…

人工智能 2023年6月18日
0069
python基于ocr的视频字幕提取

导读在无数次的996加班后的下午，忽然听见了QQ的震动，我发现有人居然给我发消息~原来是我的妹妹给我发来了消息，内容如下：她现在正兼职帮学校帮老师配教学视频的字幕，他们配上去了，…

人工智能 2023年7月18日
0060
Pytorch中torch.unsqueeze()和torch.squeeze()函数解析

一. torch.squeeze()函数解析 1. 官网链接 torch.squeeze()，如下图所示： ; 2. torch.squeeze()函数解析 torch.squee…

人工智能 2023年7月22日
00101
程序员最浪漫的表白方式，将情书写在她的照片里，Python简直太厉害啦~

人生苦短，我用Python 序言实现步骤 * – 1、准备工作 2、Pillow 介绍 3、实战演练序言这不光棍节快到了，表弟准备写一封情书给他的女神，想在光棍节…

人工智能 2023年6月26日
0091
SwinIR实战：详细记录SwinIR的训练过程

文章目录 SwinIR实战：详细记录SwinIR的训练过程。下载训练代码数据集训练完整的代码： SwinIR实战：详细记录SwinIR的训练过程。论文地址：https:/…

人工智能 2023年6月23日
00109
超级详细的 Maven 教程（基础+高级）

1. Maven 是什么 Maven 是 Apache 软件基金会组织维护的一款专门为 Java 项目提供构建和依赖管理支持的工具。一个 Maven 工程有约定的目录结构，约…

人工智能 2023年7月31日
0070
机器学习笔记 – 探索性数据分析(EDA) 学习进阶

一、什么是 EDA？探索性数据分析 (EDA) 是一种数据分析方法/哲学，它采用多种技术（主要是图形）。 1、最大限度地洞察数据集；2、揭示底层结构；3、提取重要变量；4、检测异…

人工智能 2023年7月15日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pytorch 模型GPU推理时间探讨3——正确计算模型推理时间

如果对你有帮助，不妨点个赞再走？

大家都在看