实现卷积的几种代码方式

2023年6月17日上午6:12 • 人工智能 • 阅读 86

摘要

卷积的基本元素有着input size、kernel size、stride、padding、group以及dilation等等。在卷积中有着卷积(convolution)和转置卷积(transpose convolution)。其中卷积常常用于局部建模和下采样，而转置卷积则多用于上采用。本次学习针对二者的具体代码展开，并分别对官方api和手动复现进行学习比对。

卷积（convolution）

1、pytorch实现

在pytorch中有两个实现卷积的方法。一种是以类的形式，另外一种是以函数的进行进行调用。二者区别则为，以函数的进行调用无需手动化实例kernel，若以类的形式进行调用的话，则需自己手动将相关张量实例化。

首先对一些张量进行初始化，在二维的卷积中，input_size一搬是四维的张量。

import torch
import torch.nn as nn
import torch.nn.functional as F
import math

in_channels = 1 #输入的通道数
out_channels = 1 #输出的通道数
kernel_size = 3 #卷积核大小
batch_size = 1  #样本的数目
bias = False
input_size = [batch_size, in_channels, 4, 4]

通过类进行实现。首先实例化二维卷积对象，其次生成输入、调用正态分布随机函数，最后将将input_feature_map作为conv_layer的输入得到output_feature_map。

conv_layer = torch.nn.Conv2d(in_channels,out_channels,kernel_size,bias=bias)#实例化二维卷积的对象
input_feature_map = torch.randn(input_size) #生成输入，调用正态分布的随机函数
output_feature_map = conv_layer(input_feature_map) #将input_feature_map作为conv_layer的输入

通过函数进行实现，直接传入input，和kernel张量。

output_feature_map1 = F.conv2d(input_feature_map, conv_layer.weight)

最后来看二者的结果是否相同。

print(output_feature_map)
print(output_feature_map1)
print(torch.allclose(output_feature_map,output_feature_map1))

经验证二者结果是相同的。

2、对input展开矩阵相乘

将每次滑动相乘区域的input拉直，然后将这些向量拼凑成一个矩阵，之后和kernel矩阵进行矩阵相乘。在这里即可以手动写，也可以通过调用torch.Unfold完成。

先对一些张量进行初始化。

input = torch.randn(5,5)   #卷积输入特征图
kernel = torch.randn(3,3)   #卷积核
bias = torch.randn(1)       #卷积偏置，默认输出通道数目等于一，长度为1的随机量

step1: 用原始的矩阵运算来实现二维卷积，先不考虑batchsize维度和channels维度。pytorch中的维度是反过来的，从里到外，即从左到右，从上到下进行填充。

def matrix_multiplication_for_conv2d(input, kernel, bias=0, stride=1, padding=0):    
    if padding > 0:      
        input = F.pad(input, (padding, padding, padding, padding)) #对input进行填充操作  

    input_h, input_w = input.shape  
    kernel_h, kernel_w = kernel.shape  

    output_h = (math.floor((input_h - kernel_h)/stride) + 1)    #卷积输出的高度    
    output_w = (math.floor((input_w - kernel_w)/stride) + 1)    #卷积输出的宽度    
    output = torch.zeros(output_h, output_w)    #初始化输出矩阵    

    for i in range(0, input_h-kernel_h+1,stride):     #对高度进行遍历    
        for j in range(0, input_w-kernel_w+1,stride):     #对宽度进行遍历          
            region=input[i:i+kernel_h, j:j+kernel_w]    #取出被核滑动到的区域            
            output[int(i/stride), int(j/stride)] = torch.sum(region * kernel) +bias     #点乘，并赋值给输出位置的元素  

    return output

step2：用原始的矩阵运算来实现二维卷积，先不考虑batchsize维度和channels维度，flatten input版本。

def matrix_multiplication_for_conv2d_flatten(input, kernel, bias=0, stride=1, padding=0):
    if padding>0:
        input = F.pad(input,(padding, padding, padding, padding))

    input_h, input_w = input.shape
    kernel_h, kernel_w = kernel.shape

    output_h = (math.floor((input_h-kernel_h)/stride)+1)    #卷积输出的高度
    output_w = (math.floor((input_w-kernel_w)/stride)+1)    #卷积输出的高度
    output = torch.zeros(output_h,output_w)     #初始化输出矩阵

    region_matrix = torch.zeros(output.numel(), kernel.numel())  #存储着所有的拉平后特征区域
    kernel_matrix = kernel.reshape((kernel.numel(), 1))     #kernel的列向量（矩阵）形式
    row_index = 0
    for i in range(0,input_h-kernel_h+1,stride):    #对高度维进行遍历
        for j in range(0,input_w-kernel_w+1,stride):    #对宽度维进行遍历
            region = input[i:i+kernel_h,j:j+kernel_w]   #取出被核滑动到的区域
            region_vector = torch.flatten(region)
            region_matrix[row_index] = region_vector
            row_index +=1

    output_matrix = region_matrix @ kernel_matrix
    output=output_matrix.reshape(output_h, output_w) +bias

    return  output

对三者的结果进行验证。

#矩阵运算实现卷积的结果
mat_mul_conv_output = matrix_multiplication_for_conv2d(input, kernel, bias=bias, padding=1, stride=2)

#调用PyTorch API卷积的结果
pytorch_api_conv_output = F.conv2d(input.reshape((1,1,input.shape[0],input.shape[1])),\                                   kernel.reshape((1,1,kernel.shape[0],kernel.shape[1])),\                                   padding=1,\                                  
                                bias=bias, stride=2).squeeze(0).squeeze(0)

#矩阵运算实现卷积的结果，flatten input版本
mat_mul_conv_output_flatten = matrix_multiplication_for_conv2d_flatten(input, kernel, bias=bias, padding=1, stride=2)

#验证flatten版本卷积、非flatten版本卷积与PyTorch官方的卷积结果
print(mat_mul_conv_output_flatten)
print(mat_mul_conv_output)
print(pytorch_api_conv_output)
flag1 = torch.allclose(mat_mul_conv_output_flatten, pytorch_api_conv_output)
flag2 = torch.allclose(mat_mul_conv_output, pytorch_api_conv_output)
flag3 = torch.allclose(mat_mul_conv_output_flatten,mat_mul_conv_output)

print(flag1)
print(flag2)
print(flag3)

验证结果为三者一致。

step3: 用原始的矩阵运算来实现二维卷积，考虑batchsize维度和channels维度

def matrix_multiplication_for_conv2d_full(input, kernel, bias=0, stride=1, padding=0):
    #input、kernel都是思维张量
    if padding > 0:
        input = F.pad(input, (padding, padding, padding, padding, 0, 0, 0, 0))

    bs ,in_channel, input_h ,input_w = input.shape
    out_channel, in_channel, kernel_h ,kernel_w = kernel.shape
    if bias is None:
        bias = torch.zeros(out_channel)

    output_h = (math.floor((input_h - kernel_h) / stride) + 1)  # 卷积输出的高度
    output_w = (math.floor((input_w - kernel_w) / stride) + 1)  # 卷积输出的宽度
    output = torch.zeros(bs, out_channel, output_h, output_w)   #初始化输出矩阵

    for ind in range(bs):
        for oc in range(out_channel):
            for ic in range(in_channel):
                for i in range(0, input_h-kernel_h+1,stride):   #对高度进行遍历
                    for j in range(0, input_w-kernel_w+1,stride):   #对宽度进行遍历
                        region = input[ind, ic, i:i+kernel_h,j:j+kernel_w]  #取出被核滑动到的区域
                        output[ind, oc, int(i/stride), int(j/stride)] +=torch.sum(region * kernel[oc, ic])   #点乘，并赋值给输出位置的元素
            output[ind,oc] +=bias[oc]

    return output

验证matrix_multiplication_for_conv2d_full与pytorch官方API是否一致

input = torch.randn(2, 2, 5, 5)
kernel = torch.randn(3, 2, 3, 3)
bias = torch.randn(3)

pytorch_conv2d_api_output = F.conv2d(input, kernel ,bias=bias, padding=1, stride=2)
mm_conv2d_full_output = matrix_multiplication_for_conv2d_full(input, kernel ,bias=bias, padding=1, stride=2)
flag = torch.allclose(pytorch_conv2d_api_output,mm_conv2d_full_output)

 print("all close:", flag)

结果为二者一致

3、对kernel展开以及矩阵相乘

将每一步滑动相乘看作是把kernel填充到跟input一样大小的矩阵，然后将这个新的矩阵拉直，之后将每一步拉直后的向量堆叠起来构成一个kernel矩阵，再用这个kernel矩阵和input矩阵进行矩阵相乘。

def get_kernel_matrix(kernel, input_size):
    #基于kenerl和输入特征图的大小来得到填充拉直后的kernel堆叠后的矩阵
    kernel_h, kernel_w = kernel.shape
    input_h, input_w = input_size
    num_out_feat_map = (input_h-kernel_h + 1) * (input_w-kernel_w + 1)
    result = torch.zeros((num_out_feat_map, input_h*input_w))   #初始化结果矩阵，输出特征图元素个数*输入特征图元素个数
    count = 0
    for i in range(0,input_h-kernel_h+1, 1):
        for j in range(0,input_w-kernel_w+1, 1):
            padded_kernel = F.pad(kernel, (j,input_w-kernel_w-j, i, input_h-kernel_h-i))    #填充成跟输入特征图一样大小
            result[count] = padded_kernel.flatten()
            count += 1
    return result

result是基于kenerl和输入特征图的大小来得到填充拉直后的kernel堆叠后的矩阵

对结果和官方api进行验证。

kernel = torch.randn(3,3)
input = torch.randn(4,4)
kernel_matrix = get_kernel_matrix(kernel, input.shape)  #4*16

mm_conv2d_full_output = kernel_matrix @ input.reshape((-1, 1))  #通过矩阵乘积来计算卷积
pytorch_conv2d_output = F.conv2d(input.unsqueeze(0).unsqueeze(0), kernel.unsqueeze(0).unsqueeze(0))

print(mm_conv2d_full_output.reshape((2,2)))
print(pytorch_conv2d_output)   #2*2

可见二者是一致的。

转置卷积

将kernel矩阵转置再和卷积的输出进行相乘，即实现了上采样效果。同样的在转置卷积中，可以通过调用api和手写完成。

1、API实现

kernel = torch.randn(3,3)
input = torch.randn(4,4)

pytorch_transposed_conv2d_output = F.conv_transpose2d(pytorch_conv2d_output, kernel.unsqueeze(0).unsqueeze(0))

2、对kernel矩阵转置+矩阵相乘

转置就是将kernel_matrix矩阵的负一维和负二维交换一下再与mm_conv2d_full_output矩阵相乘得出，即反向运算。

mm_conv2d_full_output = kernel_matrix @ input.reshape((-1, 1))
mm_transposed_conv2d_output = kernel_matrix.transpose(-1, -2) @ mm_conv2d_full_output

对于手算和调用api结果进行验证，结论一致。

print(mm_transposed_conv2d_output.reshape((4,4)))
print(pytorch_transposed_conv2d_output)

总结

在对卷积的相关代码进行学习后，对于卷积的原理认识更加深刻了，在当前的大部分程序中，对于卷积大部分都是调用官方api，但通过手写卷积代码可以加深对其的理解，，手写框架代码也尤为重要。通过上手，对于PyTorch的许多方法不是很熟悉，因此下周准备对PyTorch的相关知识进行系统的学习。

Original: https://blog.csdn.net/gldzkjdxwzs/article/details/126333355
Author: 白小李
Title: 实现卷积的几种代码方式

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628936/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据分析——pandas玩转数据分析

pandas第一讲——利用pandas创建excel文件 import pandas as pd 导入pandas包 df=pd.DataFrame() 定义一个变量变量类型是d…

人工智能 2023年7月6日
0073
小样本目标检测（few-shot object detection）网络结构

文章目录 * – 论文一：带有注意力RPN和多关系检测器的小样本目标检测网络 – 论文二：Frustratingly Simple Few-Shot Obj…

人工智能 2023年7月10日
00109
单层感知器线性分类、多层感知器非线性分类样例调用matlab神经网络工具箱实现

%给定样本输入向量P，目标输出向量T %net = newp（PR,S,TF,LF） %PR为输入矢量的取值范围的最大值和最小值 S为神经元的个数 TF为网络的传递函数默认为ha…

人工智能 2023年7月3日
0070
手把手教你opencv做人脸识别（附源码+文档）

文章目录 * – 一、环境 – 二、使用Haar级联进行人脸检测 – 三、Haar级联结合摄像头 – 四、使用SSD的人脸检测 &#…

人工智能 2023年6月16日
0083
【AVD】C++ 不解码获取 JPG 图片宽高、旋转信息等 EXIF 信息

前段时间写过一篇 FFmpeg 获取 JPG 图片旋转信息等 Exif 信息。但有些时候，我们并不想，或者暂时不想解码图片，而只想获取图片的宽高等相关信息。而上篇文章中提到的使用 …

人工智能 2023年6月22日
00101
遥感数字图像处理复习（朱文泉）

第一章：数字图像基础 1.图像：①广义上讲我们肉眼所见的世界就是图像 ②图像是客观存在的二位、三位灰度或彩色的图在认知感觉中所产生的”像” 模拟图像：在图…

人工智能 2023年6月20日
0055
【opencv-python-face_recognition人脸识别，分辨人物是否为同一个人】人脸检测，识别出人物框，并能根据两次输入图片分辨是否为同一个人

效果两个同样的人能识别为true两个不一样的人能识别为false ; 准备要求装opencv库等基础库装numpy库等基础库cv2 和 np 自己搜索安装装cmake库等基础库…

人工智能 2023年7月20日
0088
【trick 1】Label Smoothing（标签平滑）—— 分类问题中错误标注的一种解决方法

目录一、提出背景二、Label Smoothing 原理三、Label Smoothing 在YOLO中的应用 label smoothing是一种在分类/检测问题中，防…

人工智能 2023年7月2日
0085
【PyTorch】构造VGG19网络进行本地图片分类（超详细过程）——程序代码

本篇博客主要解决以下3个问题：如何自定义网络（以VGG19为例）。如何自建数据集并加载至模型中。如何使用自定义数据训练自定义模型。第一篇：【PyTorch】构造VGG19网…

人工智能 2023年7月2日
0078
线性回归是一种回归算法，它假设输入特征和输出变量之间存在线性关系。它使用最小二乘法来拟合一个直线或超平面，以便最好地描述输入和输出之间的关系

介绍线性回归是一种用于建立输入特征和输出变量之间线性关系的回归算法。通过使用最小二乘法，它寻找一个最佳拟合的直线或超平面，以描述输入特征和输出变量之间的关系。算法原理线性回归…

人工智能 2023年12月31日
0031
希尔排序详解

目录希尔排序的别名希尔排序的思想现实举例数据举例第一轮：第二轮：第三轮：希尔排序和插入排序的比较拿以上述例子举例：算法实现：希尔排序的别名希尔排序是插入排序…

人工智能 2023年6月26日
0095
MXNe

MXNet简介 MXNet是一个深度学习框架，它允许你以高效和可扩展的方式构建和训练神经网络模型。它提供了灵活的接口和丰富的功能，使得开发者能够轻松地使用MXNet来解决各种机器学…

人工智能 2023年12月31日
0030
训练时是否使用显卡和怎么使用多张显卡的问题

前言：修改代码时心生疑问，故写此文章，以便参考。 *model.to(device)和model.cuda()的区别： .to(device) 可以指定CPU 或者GPU devi…

人工智能 2023年7月22日
0091
如何用Pandas读取一个csv文件

一，csv文件 csv文件是什么？csv文件是一个文件类型。这种文件不像excel,word,ppt……这些文件一样，它们的区别就在于，如果你用MacOs(…

人工智能 2023年7月6日
0086
机器学习强基计划0-2：什么是机器学习？和AI有什么关系？

目录 0 写在前面 1 什么是机器学习？ * 1.1 定义 1.2 编程逻辑 2 机器学习与AI的关系 * 2.1 人工智能三大学派 2.2 机器学习在AI中 3 机器学习能干什么…

人工智能 2023年7月26日
0076
质量评估指标：SSIM（Structural similarity 结构相似性）

文章目录一、结构相似性二、定义三、应用四、SSIM源码一、结构相似性 SSIM 是一种基于感知的模型，它将图像退化视为结构信息的感知变化，同时还结合了重要的感知现象，如亮…

人工智能 2023年6月17日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

实现卷积的几种代码方式

摘要

卷积（convolution）

1、pytorch实现

2、对input展开矩阵相乘

3、对kernel展开以及矩阵相乘

转置卷积

1、API实现

2、对kernel矩阵转置+矩阵相乘

总结

大家都在看