CUDA学习笔记（对图像进行并行加速运算）

2023年5月28日下午7:28 • 人工智能 • 阅读 70

在对CUDA的kernel函数有了一定了解之后，就可以对图像进行多线程加速计算，下面是我在CPU和GPU上各自遍历一张图像，对比两者的性能差异。
这里需要用到opencv的函数读取图像以及显示图像，因此opencv的头文件需要包含进去。其他的注意事项主要是图像的内存分配和存储类型问题，比如彩色图像是三通道的，申请的内存为 row * col * sizeof(uchar3)。

首先在CPU上遍历一张彩色图像的所有像素：

    for (int i = 0; i < row; i++)
    {
        for (int j = 0; j < col; j++)
        {
            int index = i * row + j;
            dst.data[3 * index + 0] = (uchar)src.data[3 * index + 0];
            dst.data[3 * index + 1] = (uchar)src.data[3 * index + 1];
            dst.data[3 * index + 2] = (uchar)src.data[3 * index + 2];

        }
    }

在GPU上遍历一张图像的所有像素，其kernel函数为：

__global__ void Traverse(uchar3* _src_dev, uchar3* dst_dev, int col,int row )
{

    int tid = blockIdx.z * (gridDim.x * gridDim.y) * (blockDim.x * blockDim.y * blockDim.z) \
        + blockIdx.y * gridDim.x * (blockDim.x * blockDim.y * blockDim.z) \
        + blockIdx.x * (blockDim.x * blockDim.y * blockDim.z) \
        + threadIdx.z * (blockDim.x * blockDim.y) \
        + threadIdx.y * blockDim.x \
        + threadIdx.x;
    if (tid < col * row* 3) {
        dst_dev[tid].x = _src_dev[tid].x ;
        dst_dev[tid].y = _src_dev[tid].y ;
        dst_dev[tid].z = _src_dev[tid].z ;
    }
}

线程索引计算方法各有不同，很多新手会在这个地方犯迷糊，从其他地方看到了这个万能计算方法（仅限于单个维度的线程索引），用起来相当省事。
下面是完整的代码：

#include "cuda_runtime.h"
#include "iostream"
#include "opencv2/opencv.hpp"
#include

using namespace std;
using namespace cv;

__global__ void Traverse(uchar3* _src_dev, uchar3* dst_dev, int col,int row )
{

    int tid = blockIdx.z * (gridDim.x * gridDim.y) * (blockDim.x * blockDim.y * blockDim.z) \
        + blockIdx.y * gridDim.x * (blockDim.x * blockDim.y * blockDim.z) \
        + blockIdx.x * (blockDim.x * blockDim.y * blockDim.z) \
        + threadIdx.z * (blockDim.x * blockDim.y) \
        + threadIdx.y * blockDim.x \
        + threadIdx.x;
    if (tid < col * row* 3) {
        dst_dev[tid].x = _src_dev[tid].x ;
        dst_dev[tid].y = _src_dev[tid].y ;
        dst_dev[tid].z = _src_dev[tid].z ;
    }
}

int main()
{
    Mat src = cv::imread("E:\\picture\\source\\lena.jpg");
    Mat dst=src;
    int col = src.cols;
    int row=src.rows;

    clock_t start = clock();
    for (int i = 0; i < row; i++)
    {
        for (int j = 0; j < col; j++)
        {
            int index = i * row + j;
            dst.data[3 * index + 0] = (uchar)src.data[3 * index + 0];
            dst.data[3 * index + 1] = (uchar)src.data[3 * index + 1];
            dst.data[3 * index + 2] = (uchar)src.data[3 * index + 2];

        }
    }
    cout << "cpu所耗费的时间：" << (double)(clock() - start)<< "ms" << "\n";
    cv::imshow("dst", dst);

    uchar3* src_dev, * dst_dev;
    Mat _dst = Mat(row, col , CV_8UC3);
    cudaMalloc((void**)&src_dev, row * col * sizeof(uchar3));
    cudaMalloc((void**)&dst_dev, row * col * sizeof(uchar3));
    cudaMemcpy(src_dev, src.data, row * col * sizeof(uchar3), cudaMemcpyHostToDevice);

    dim3 grid(1 + (col * row / (32 * 32 + 1)), 1, 1);
    dim3 block(32, 32, 1);

    cudaEvent_t start1, stop1;
    cudaEventCreate(&start1);
    cudaEventCreate(&stop1);
    cudaEventRecord(start1, 0);

    Traverse << < grid, block >> > (src_dev, dst_dev,col,row);
    cudaEventRecord(stop1, 0);
    cudaEventSynchronize(stop1);
    float time1;
    cudaEventElapsedTime(&time1, start1, stop1);
    cout << "Gpu所耗费的时间：" << time1 << "ms" << "\n";
    cudaMemcpy(_dst.data, dst_dev, row * col * sizeof(uchar3), cudaMemcpyDeviceToHost);
    cv::imshow("_dst", _dst);

    cudaFree(src_dev);
    cudaFree(dst_dev);

    waitKey(0);
    system("pause");
    return 0;
}

最后的计算结果为：

需要注意的是，由于一张图片的计算量有限，除非是特别大的图像或者数据集，否则cuda并行计算的优势并不明显，甚至会比CPU的计算时间还要长，此外这里是对像素进行遍历拷贝复制，需要频繁的进行内存读取操作，这并不能体现出GPU的并行计算优势。
刚才演示的是单个维度的线程索引，现在用两个维度的线程进行测试，核函数改为：

__global__ void Traverse(uchar3* _src_dev, uchar3* dst_dev, int col, int row)
{
    int x = threadIdx.x + blockIdx.x * blockDim.x;
    int y = threadIdx.y + blockIdx.y * blockDim.y;
    int offset = x + y * blockDim.x * gridDim.x;

    dst_dev[offset].x = _src_dev[offset].x;
    dst_dev[offset].y = _src_dev[offset].x;
    dst_dev[offset].z = _src_dev[offset].x;
}

上面的测试用例是512*512的lena图像，使用CUDA的时间优势还是没有体现出来，为了证明GPU的加速性能，下面换用 3000*2000的图片进行测试。
CUDA学习笔记（对图像进行并行加速运算）

这的例子只是为了介绍一下最基本的CUDA对图片进行并行加速的思路，方便大家举一反三，触类旁通，其实在这个基础上稍加改动就可以尝试用CUDA对图像进行各种图像处理的操作，比如阈值分割，两个图象叠加等。
比如核函数改为：

__global__ void Traverse(uchar3* _src_dev, uchar3* dst_dev, int col,int row )
{

    int tid = blockIdx.z * (gridDim.x * gridDim.y) * (blockDim.x * blockDim.y * blockDim.z) \
        + blockIdx.y * gridDim.x * (blockDim.x * blockDim.y * blockDim.z) \
        + blockIdx.x * (blockDim.x * blockDim.y * blockDim.z) \
        + threadIdx.z * (blockDim.x * blockDim.y) \
        + threadIdx.y * blockDim.x \
        + threadIdx.x;
    if (tid < col * row * 3) {
        dst_dev[tid].x = 255- _src_dev[tid].x;
        dst_dev[tid].y = 255- _src_dev[tid].y;
        dst_dev[tid].z = 255- _src_dev[tid].z;
    }
}

核函数改为：

__global__ void Traverse(uchar3* _src_dev, uchar3* dst_dev, int col,int row )
{

    int tid = blockIdx.z * (gridDim.x * gridDim.y) * (blockDim.x * blockDim.y * blockDim.z) \
        + blockIdx.y * gridDim.x * (blockDim.x * blockDim.y * blockDim.z) \
        + blockIdx.x * (blockDim.x * blockDim.y * blockDim.z) \
        + threadIdx.z * (blockDim.x * blockDim.y) \
        + threadIdx.y * blockDim.x \
        + threadIdx.x;
    if (tid < col * row * 3) {
        dst_dev[tid].x = 0.3 * _src_dev[tid].x;
        dst_dev[tid].y = 0.6 * _src_dev[tid].y;
        dst_dev[tid].z = 0.1 * _src_dev[tid].z;
    }
}

核函数改为：

__global__ void Traverse(uchar3* _src_dev, uchar* dst_dev, int col,int row )
{

    int tid = blockIdx.z * (gridDim.x * gridDim.y) * (blockDim.x * blockDim.y * blockDim.z) \
        + blockIdx.y * gridDim.x * (blockDim.x * blockDim.y * blockDim.z) \
        + blockIdx.x * (blockDim.x * blockDim.y * blockDim.z) \
        + threadIdx.z * (blockDim.x * blockDim.y) \
        + threadIdx.y * blockDim.x \
        + threadIdx.x;
    if (tid < col * row * 3) {
        dst_dev[tid] = 0.3 * _src_dev[tid].x+ 0.6 * _src_dev[tid].y+ 0.1 * _src_dev[tid].z;
    }

}

Original: https://blog.csdn.net/Asabc12345/article/details/122413671
Author: 滑了丝的螺丝钉
Title: CUDA学习笔记（对图像进行并行加速运算）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/533276/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV学习笔记14-计算机视觉中的背景减除介绍及代码实现

参考文章：https://blog.csdn.net/tengfei461807914/article/details/81588808 https://zhuanlan.zhih…

人工智能 2023年7月26日
0070
HALCON 引擎学习一

HALCON与C#结合处理图象时，通常情况是将HALCON图像处理部分导出C#代码，然后执行。而HALCON提供了一种脚本执行算法的方式，该方式的优点是：1、C#代码与HALCON…

人工智能 2023年6月20日
0088
红外目标检测算法与数据集

1. 概述本文为作者在查找文献时发现的一些关于红外目标检测的算法和数据集。 2.开源作者 [1] 程明明：文章+代码+ LaTeX+PPT 3. 算法 [1] Saed Mora…

人工智能 2023年6月17日
00104
Pandas DataFrame新增一列

一、直接赋值二、df.apply()方法三、np.where()方法四、df.assign()方法五、按照条件选择分组分别赋值在进行数据分析时，经常需要按照一定的条件创建…

人工智能 2023年7月7日
0080
【春节档排片地域可视化分析】

春节档排片地域可视化分析数据来源：https://www.heywhale.com/mw/project/6201173f7a7c9a0017c3236a/dataset 一、明…

人工智能 2023年6月11日
0097
【NLP_关系抽取】BiGRU-Dual Attention模型训练、评估与使用

重要参考用Bi-GRU和字向量做端到端的中文关系抽取（作者：羊肉泡馍与糖蒜）原文链接：用Bi-GRU和字向量做端到端的中文关系抽取代码链接：https://github.co…

人工智能 2023年6月1日
0082
C语言函数详解

一、函数的定义与分类 1.定义 2.分类二、库函数 1.库函数存在的意义 2.库函数的学习和使用三、自定义函数 1.自定义函数的组成 2.示例（1）写一个函数找出两个整数的最…

人工智能 2023年7月29日
0062
mmsegmentation 训练自制数据集全过程

1.简介 mmsegmentation是目前比较全面和好用的用于分割模型的平台，原始的github链接https://github.com/open-mmlab/mmsegment…

人工智能 2023年6月16日
0068
前端面试常问整理 —— 看代码说结果

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月30日
0059
机器学习——对数几率回归模型及python代码实现

《机器学习：公式推导与代码实践》鲁伟著读书笔记。上一章介绍了线性回归的数学推导过程以及python实现，可以知道线性回归模型就是对数据进行线性拟合或者说是回归，然后采用训练好的模型…

人工智能 2023年6月13日
0088
【多元统计分析】聚类分析——spss上机实验

聚类分析例题来自于中国人民大学《多元统计分析》第五版何晓群著例题3.5 数据获取扫码关注微信公众号回复：例3.5 如果你觉得很有用，可以点点关注哦~你的关注是美滋滋继续努力…

人工智能 2023年7月18日
0050
R语言和RStudio安装，载入TXT、CSV和XLSX（利用RODBC）文件

系列文章 R语言进行系统聚类分析并作图（数据来源国家统计局）R语言载入arules程序包的Epub数据集，使用Apriori算法，进行关联规则分析R语言利用贝叶斯分类法(klaR程…

人工智能 2023年6月19日
00145
segmentation_models.pytorch实战：使用segmentation_models.pytorch图像分割框架实现对人物的抠图

文章目录摘要二分类语义分割的常用做法数据集 segmentation_models.pytorch简介与使用 * 一、安装二、创建模型训练测试总结摘要在前面的文章…

人工智能 2023年6月25日
0080
安装pycocotools时遇到ERROR: Could not build wheels for pycocotools which use PEP 517 and cannot be instal

操作系统：ubuntu18.04.6 最近在安装MMdetection3d时，其中一步需要安装pycocotools，但是直接采用 pip install pycocotools …

人工智能 2023年5月26日
0081
拿走不谢，数据可视化地图制作教程

地图，是一种基于地理位置使用不同深浅的颜色来表示不同范围的分布情况的可视化图形，直观的展现各区域分析指标的分布。它也是数据大屏可视化展示的重要图形类型之一。比如下面大屏，以全国…

人工智能 2023年7月18日
0082
在双曲空间进行细粒度实体分类

Fine-Grained Entity Typing in Hyperbolic Space 论文地址：https://aclanthology.org/W19-4319/代码：h…

人工智能 2023年7月1日
0048

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

CUDA学习笔记（对图像进行并行加速运算）

大家都在看