Windows11+VS2019+CUDA11.8配置过程

2023年7月27日上午7:36 • 人工智能 • 阅读 108

最近要处理大规模点云数据，用CPU跑感觉有点慢，想通过GPU加速点云处理过程，于是想要学习CUDA编程。

很多教程提到在安装CUDA之前，需要打开cmd，输入nvidia-smi，查看显卡支持的CUDA版本。这个步骤我在安装CUDA之前没有做，我是直接安装了，但是建议查一下。事后，还是查了一下，发现直接写的是11.8

; CUDA下载安装

根据官方教程可以发现，VS2019和Win11是可以跟CUDA11.8配置的。

安装过程一路默认，默认路径一般在C盘。

安装完毕之后，打开cmd，输入nvcc -V试一试看看能否查到CUDA版本，可以的话应该是没问题。

VS2019与CUDA配置

可以打开一个现有的VS项目，或者新建一个空项目。右键点击源文件，添加新建项就可以创建一个CUDA文件，后缀是.cu。若是创建CUDA头文件，后缀就是.cuh。debug为x64

然后，右键点击这个cu文件，选择属性，将项类型改成CUDA C++。

选择项目，点击右键–>生成依赖项–>自定义生成–>选择CUDA11.8

右键项目，找到CUDA C/C++ ——>Common，输入C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8

当然，也还是要配置包含目录和库目录，这个和VS配置其他库一样
包含目录：C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\include
库目录：C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\lib\x64
Windows11+VS2019+CUDA11.8配置过程

链接器——>输入——>附加依赖项

cublas.lib
cublasLt.lib
cuda.lib
cudadevrt.lib
cudart.lib
cudart_static.lib
cufft.lib
cufftw.lib
cufilt.lib
curand.lib
cusolver.lib
cusolverMg.lib
cusparse.lib
nppc.lib
nppial.lib
nppicc.lib
nppidei.lib
nppif.lib
nppig.lib
nppim.lib
nppist.lib
nppisu.lib
nppitc.lib
npps.lib
nvblas.lib
nvjpeg.lib
nvml.lib
nvptxcompiler_static.lib
nvrtc.lib
nvrtc_static.lib
nvrtc-builtins_static.lib
OpenCL.lib

完成配置之后，通常要先运行一个例程试一试看看效果。但是报错

未定义标识符”__syncthreads”

这篇博客中解释到这个情况加什么头文件都不行，我试了也发现确实是不行。但是好像可以编译运行。

另一个博主也是这么说，传送门

; 应输入表达式

这个好像也是可以忽略的，也是没找到什么办法。

测试代码

error.cuh文件

#pragma once
#include

#define CHECK(call)                                   \
do                                                    \
{                                                     \
    const cudaError_t error_code = call;              \
    if (error_code != cudaSuccess)                    \
    {                                                 \
        printf("CUDA Error:\n");                      \
        printf("    File:       %s\n", __FILE__);     \
        printf("    Line:       %d\n", __LINE__);     \
        printf("    Error code: %d\n", error_code);   \
        printf("    Error text: %s\n",                \
            cudaGetErrorString(error_code));          \
        exit(1);                                      \
    }                                                 \
} while (0)

XXX.cu代码

#include
#include
#include "error.cuh"
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include "device_functions.h"
#include

#define TILE_DIM 32
#define BLOCK_SIZE 32
#define N 3001

__managed__ int input_M[N * N];
int cpu_result[N * N];

__global__ void ip_transpose(int* data)
{
    __shared__ int tile_s[TILE_DIM][TILE_DIM + 1];
    __shared__ int tile_d[TILE_DIM][TILE_DIM + 1];

    int x = blockIdx.x * TILE_DIM + threadIdx.x;
    int y = blockIdx.y * TILE_DIM + threadIdx.y;

    if (blockIdx.y > blockIdx.x) {
        int dx = blockIdx.y * TILE_DIM + threadIdx.x;
        int dy = blockIdx.x * TILE_DIM + threadIdx.y;
        if (x < N && y < N)
        {
            tile_s[threadIdx.y][threadIdx.x] = data[(y)*N + x];
        }
        if (dx < N && dy < N)
        {
            tile_d[threadIdx.y][threadIdx.x] = data[(dy)*N + dx];
        }

        __syncthreads();
        if (dx < N && dy < N)
        {
            data[(dy)*N + dx] = tile_s[threadIdx.x][threadIdx.y];
        }
        if (x < N && y < N)
        {
            data[(y)*N + x] = tile_d[threadIdx.x][threadIdx.y];
        }
    }
    else if (blockIdx.y == blockIdx.x)
    {
        if (x < N && y < N)
        {
            tile_s[threadIdx.y][threadIdx.x] = data[(y)*N + x];
        }
        __syncthreads();
        if (x < N && y < N)
        {
            data[(y)*N + x] = tile_s[threadIdx.x][threadIdx.y];
        }
    }
}

void cpu_transpose(int* A, int* B)
{
    for (int j = 0; j < N; j++)
    {
        for (int i = 0; i < N; i++)
        {
            B[i * N + j] = A[j * N + i];
        }
    }
}

int main(int argc, char const* argv[])
{

    cudaEvent_t start, stop_gpu;
    CHECK(cudaEventCreate(&start));
    CHECK(cudaEventCreate(&stop_gpu));

    for (int i = 0; i < N; ++i) {
        for (int j = 0; j < N; ++j) {
            input_M[i * N + j] = rand() % 1000;
        }
    }
    cpu_transpose(input_M, cpu_result);

    CHECK(cudaEventRecord(start));
    unsigned int grid_rows = (N + BLOCK_SIZE - 1) / BLOCK_SIZE;
    unsigned int grid_cols = (N + BLOCK_SIZE - 1) / BLOCK_SIZE;
    dim3 dimGrid(grid_cols, grid_rows);
    dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
    ip_transpose << <dimGrid, dimBlock >> > (input_M);
    CHECK(cudaDeviceSynchronize());
    CHECK(cudaEventRecord(stop_gpu));
    CHECK(cudaEventSynchronize(stop_gpu));

    float elapsed_time_gpu;
    CHECK(cudaEventElapsedTime(&elapsed_time_gpu, start, stop_gpu));
    printf("Time_GPU = %g ms.\n", elapsed_time_gpu);

    CHECK(cudaEventDestroy(start));
    CHECK(cudaEventDestroy(stop_gpu));

    int ok = 1;
    for (int i = 0; i < N; ++i)
    {
        for (int j = 0; j < N; ++j)
        {
            if (fabs(input_M[i * N + j] - cpu_result[i * N + j]) > (1.0e-10))
            {
                ok = 0;
            }
        }
    }

    if (ok)
    {
        printf("Pass!!!\n");
    }
    else
    {
        printf("Error!!!\n");
    }

    return 0;
}

结果

GPU信息读取代码

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include

void myDeviceInfo();

int main()
{

    myDeviceInfo();
    cudaDeviceSynchronize();
    return 0;
}

void myDeviceInfo()
{
    int dev_count;
    cudaGetDeviceCount(&dev_count);
    cudaDeviceProp dev_prop;
    int i;
    for (i = 0; i < dev_count; i++) {
        cudaGetDeviceProperties(&dev_prop, i);
        printf("----------- Information of device %d -----------\n", i);
        printf("The streaming multiprocessor(SM) number is %d\n", dev_prop.multiProcessorCount);
        printf("The max thread block numberof per SM is %d\n", dev_prop.maxBlocksPerMultiProcessor);
        printf("The max threads number of per SM is %d\n", dev_prop.maxThreadsPerMultiProcessor);
        printf("The max threads number of per block is %d\n", dev_prop.maxThreadsPerBlock);
        printf("The max thread blocks number in (x, y, z) dim is (%d, %d, %d)\n", dev_prop.maxGridSize[0], dev_prop.maxGridSize[1], dev_prop.maxGridSize[2]);
        printf("The max threads number of (x, y, z) dim is (%d. %d, %d)\n", dev_prop.maxThreadsDim[0], dev_prop.maxThreadsDim[1], dev_prop.maxThreadsDim[2]);
        printf("----------- Information of device end -----------\n");
    }
}

参考

教程1
教程2
教程3
教程4
教程5

Original: https://blog.csdn.net/dyk4ever/article/details/127162493
Author: Meditation-
Title: Windows11+VS2019+CUDA11.8配置过程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/718024/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Alexnet论文介绍（超详细）——ImageNet Classification with Deep Convolutional Neural Networks

近期开始阅读cv领域的一些经典论文，本文整理计算机视觉的奠基之作—— Alexnet 论文原文：ImageNet Classification with Deep Convolut…

人工智能 2023年5月26日
0099
【解题报告】CF练一下题 | 难度CF2500左右

【解题报告】CF练一下题 | 难度CF2500左右 Ciel and Gondolas | CF321E * 题意思路 | dp | 决策单调性 | 二维前缀和代码 Least…

人工智能 2023年6月27日
0091
多模态情感分析论文解读——CTFN模型

论文：CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation…

人工智能 2023年6月24日
00116
4j导入节点与关系_3-Neo4j图数据库导入数据

一、Neo4j 1.1 简介相对传统的 Relational Database Management System，比如MySQL，PostgreSQL。Neo4j有以下特点： …

人工智能 2023年6月10日
0078
小熊飞桨练习册-06Paddlex垃圾分类

文件说明文件说明 train.py 训练程序 quant.py 量化程序 prune.py 裁剪程序 test.py 测试程序 infer.py 预测程序 onekey.sh …

人工智能 2023年6月4日
0086
2.ROS机器视觉——ROS图像(imgmsg)与opencv(cv2)对接

参考：古月学院和ROS机器人开发实践目标：实现ROS系统读取摄像头的图像，ROS读取的图像数据转化为opencv中的图像，opencv对接受的图像进行处理，最后返回给ROS系统可…

人工智能 2023年6月19日
0062
自监督模型—HCSC

论文地址 HCSC: Hierarchical Contrastive Selective Coding (arxiv.org) 开源代码 PyTorch implementati…

人工智能 2023年5月31日
00128
nlp 分词提取关键词的基本操作

概述从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以及运用人类的语言, 实现机器语言和人类语言之间的沟通桥梁. 关键词关键词 …

人工智能 2023年5月28日
0071
【OpenCV】学习笔记（一）：OpenCV4.5.5文件介绍

文章目录摘要一、简介 * 1.计算机视觉 2.OpenCV 3.OpenCV文件夹二、build文件夹 * 1.bin 2.etc 3.include 4.x64 5.其他 …

人工智能 2023年6月17日
0069
用python实现神经网络

一、BP神经网络这里介绍目前常用的BP神经网络，其网络结构及数学模型如下： x为 n 维向量， y 为 n 维向量，隐含层有 q 个神经元。假设 N 有个样本数据， 𝑦 𝑡 , …

人工智能 2023年7月27日
0069
【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）

文章目录前言 0 摘要 1 Introduction and Motivating Work 2 Approach * 2.0 模型整体结构 2.1 数据集 2.2 选择一种高效…

人工智能 2023年7月27日
00112
jupyter notebook的常见报错问题：ModuleNotFoundError:No Module named “cv2“

安装好jupyter notebook之后，我们希望能运行上自己的代码来亲自验证在数据挖掘上遇到的问题以及进行数据可视化的问题。但是呢，我们通常需要引入cv2这个库，于是我们imp…

人工智能 2023年6月16日
0098
opencv 摄像头偏色问题自动变亮问题解决办法

相信很多人使用摄像头的时候发现图片有严重偏色，比如蓝的突然变粉红，黄，白的也变黄等等之类的问题：如下来自百度百科：白平衡，字面上的理解是白色的平衡。白平衡是描述显示器中红、绿、蓝…

人工智能 2023年7月18日
00203
《Effective C++》阅读总结（二）:类的构造、析构和赋值

第二章类的构造、析构和赋值今天是周六早上，但很不幸待会儿还是要去公司，本月kpi还剩一些工作要做，这个月计划的Effective C++学习，也基本完成了，最后一章节模板相关那…

人工智能 2023年6月4日
0065
docker 使用2台服务器安装 Canal 同步 Mysql 数据

canal [kə’næl]，译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费当前的 canal 支持源端 MySQL …

人工智能 2023年6月26日
0062
【OpenCV 例程 300 篇】104. 运动模糊退化模型

专栏地址：『youcans 的 OpenCV 例程 300篇 – 总目录』【第 7 章：图像复原与重建】104. 运动模糊退化模型105. 湍流模糊退化模型【you…

人工智能 2023年6月20日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Windows11+VS2019+CUDA11.8配置过程

; CUDA下载安装

未定义标识符”__syncthreads”

; 应输入表达式

测试代码

结果

参考

大家都在看