python实现卷积操作

2023年7月12日下午10:21 • 人工智能 • 阅读 47

前言

卷积神经网络与全连接神经网络类似, 可以理解成一种变换, 这种变换一般由卷积、池化、激活函数等一系列操作组合而成. 本文就”卷积”部分稍作介绍.

卷积介绍

卷积可以看作是输入和卷积核之间的内积运算, 是两个实质函数之间的一种数学运算. 在卷积运算中, 通常使用卷积核将输入数据进行卷积运算得到的输出作为特征映射, 每个卷积核可获得一个特征映射.

如图所示, 一张大小为5 × 5 × 3 5 \times5 \times3 5 ×5 ×3的图片经过零填充后, 大小变为 7 × 7 × 3 7 \times 7 \times 3 7 ×7 ×3. 使用两个大小为3 × 3 × 3 3 \times 3 \times 3 3 ×3 ×3的卷积核进行步长为1 1 1的卷积运算, 最后得到一个大小为3 × 3 × 2 3 \times 3 \times 2 3 ×3 ×2的 feature map.

可以看到, 卷积核在图片所对应的矩阵中滑动. 每滑动到一个位置, 将对应数字相乘并求和, 得到一个特征图矩阵的元素.

注意, 卷积核每次滑动的步长为1 1 1, 才能滑动到矩阵的边缘部分.

; 1.1 卷积的三种模式:

FULL

橙色部分为image, 蓝色部分为filter. full模式的意思是, 从filter和image刚相交开始做卷积, 白色部分为填0.
SAME

当filter的中心与image的边角重合时, 开始做卷积运算.
VALID

当filter全部在image里面的时候，进行卷积运算.

1.2 feature map 公式计算

首先定义如下参数,

输入大小B × H × W × C B \times H\times W \times C B ×H ×W ×C
卷积核大小b × h × w × C b \times h \times w \times C b ×h ×w ×C
步长S S S

1.FULL:
输出大小 B × ⌊ H + h + 1 S ⌋ × ⌊ W + w + 1 S ⌋ × b B \times \lfloor \frac {H + h +1} S \rfloor \times \lfloor \frac {W + w +1} S \rfloor \times b B ×⌊S H +h +1 ⌋×⌊S W +w +1 ⌋×b

2.SAME:
输出大小 B × ⌊ H S ⌋ × ⌊ W S ⌋ × b B \times \lfloor \frac HS \rfloor \times \lfloor \frac WS \rfloor\times b B ×⌊S H ⌋×⌊S W ⌋×b

3.VALID:
输出大小 B × ⌊ H − h + 1 S ⌋ × ⌊ W − w + 1 S ⌋ × b B \times \lfloor \frac {H – h +1} S \rfloor \times \lfloor \frac {W – w +1}{S} \rfloor \times b B ×⌊S H −h +1 ⌋×⌊S W −w +1 ⌋×b

Tensorflow中的卷积有”same”和”valid”两种模式
Pytorch中可以直接通过设置参数”padding”来控制零层的填充.

同样, 我们可以基于零层填充的圈数P P P, 得到我们的另一个计算公式:
输出大小 B × ⌊ H − h + 2 P S + 1 ⌋ × ⌊ W − w + 2 P S + 1 ⌋ × b B \times \lfloor \frac{H-h+2P}{S} + 1 \rfloor \times \lfloor \frac{W-w+2P}{S} + 1 \rfloor \times b B ×⌊S H −h +2 P +1 ⌋×⌊S W −w +2 P +1 ⌋×b

代码实现

import numpy as np
import math

class Conv2D():
    def __init__(self, inputShape, outputChannel, kernelSize, stride=1, method=""):
        self.height = inputShape[1]
        self.width = inputShape[2]
        self.inputChannel = inputShape[-1]
        self.outputChannel = outputChannel
        self.batchSize = inputShape[0]
        self.stride = stride
        self.kernelSize = kernelSize
        self.method = method

        self.weights = np.random.standard_normal([self.inputChannel, kernelSize, kernelSize, self.outputChannel])
        self.bias = np.random.standard_normal(self.outputChannel)

"""
        # This part has some problems

        if method == "FULL":
            self.output = np.zeros(inputShape[0],
                                   math.floor((inputShape[1] - kernelSize + 2 * (kernelSize - 1)) / self.stride) + 1,
                                   math.floor((inputShape[2] - kernelSize + 2 * (kernelSize - 1)) / self.stride) + 1,
                                   self.outputChannel)
"""

        if method == "SAME":
            self.output = np.zeros(
                (self.batchSize, math.floor(self.height / self.stride), math.floor(self.width / self.stride),
                 self.outputChannel))

        if method == "VALID":
            self.output = np.zeros([self.batchSize, math.floor((self.height - kernelSize + 1) / self.stride),
                                    math.floor((self.width - kernelSize + 1) / self.stride),
                                    self.outputChannel])

    def forward(self, x):
        weights = self.weights.reshape([-1, self.outputChannel])

"""

        if self.method == "FULL":
            x = np.pad(x, (
                (0, 0), (self.kernelSize - 1, self.kernelSize - 1), (self.kernelSize - 1, self.kernelSize - 1),
                (0, 0)), 'constant', constant_values=0)

"""
        if self.method == "SAME":
            x = np.pad(x, (
                (0, 0), (self.kernelSize // 2, self.kernelSize // 2), (self.kernelSize // 2, self.kernelSize // 2),
                (0, 0)), 'constant', constant_values=0)

        convOut = np.zeros(self.output.shape)

        for i in range(self.batchSize):
            img_i = x[i]

            colImage_i = self.im2col(img_i, self.kernelSize, self.stride)
            convOut[i] = np.reshape(np.dot(colImage_i, weights) + self.bias, self.output[0].shape)
        return convOut

    def im2col(self, image, kernelSize, stride):
        imageCol = []
        for i in range(0, image.shape[0] - kernelSize + 1, stride):
            for j in range(0, image.shape[1] - kernelSize + 1, stride):
                col = image[i:i + kernelSize, j:j + kernelSize, :].reshape([-1])

                imageCol.append(col)
        imageCol = np.array(imageCol)
        return imageCol

inputData = np.random.random((4, 5, 5, 3))
print("inputShape: ", inputData.shape)
kernel = list([3, 3, 32])
print("kernel size: ", kernel)
conv2d = Conv2D(inputShape=inputData.shape, outputChannel=kernel[2], kernelSize=kernel[0], stride=1, method='VALID')
outputData = conv2d.forward(inputData)
print("outputShape: ", outputData.shape)

本文形状的命名方式为( batchsize , height , width , channels ) (\text {batchsize}, \text {height}, \text {width}, \text {channels})(batchsize ,height ,width ,channels ), 与Tensorflow中命名一致.

与Pytorch中的命名为( batchsize , channels , height , width ) (\text {batchsize}, \text {channels}, \text {height}, \text {width})(batchsize ,channels ,height ,width )有所不同.

重点:
由于图片转换后得到的矩阵为4维矩阵, 我们在进行计算处理的过程中会对矩阵进行降维处理; 并且在进行矩阵乘法时, 也要注意两矩阵是否满足 矩阵乘法的条件.

参考资料:

https://zhuanlan.zhihu.com/p/63974249
https://blog.csdn.net/god_frey09/article/details/105188005
https://blog.csdn.net/v_JULY_v/article/details/51812459
https://www.jianshu.com/p/46b6615a7251
https://blog.csdn.net/dwyane12138/article/details/78449898

Original: https://blog.csdn.net/weixin_48320163/article/details/121097758
Author: uodgnez
Title: python实现卷积操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/688513/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Anaconda的下载和安装（保姆级别教程）

Anaconda的下载、安装及使用 * – anaconda简介 – anaconda下载 – anaconda安装 – anaco…

人工智能 2023年7月6日
0052
[附源码]java毕业设计宠物商城

项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclis…

人工智能 2023年6月26日
0080
基本参数：axis、skipna

基本参数：axis、skipna import numpy as np1import pandas as pdimport datetime df = pd.DataFrame({…

人工智能 2023年7月7日
0075
VAE的Pytorch实现和可视化

我的代码在kaggle上跑的 VAE import torch import torchvision from torch import nn from torch import …

人工智能 2023年7月24日
0060
基于Pytorch中安装torch_geometric简单详细完整版

基于Pytorch中安装torch_geometric简单详细完整版介绍：PyTorch Geometric 中设计了一种新的表示图数据的存储结构，也是 PyTorch Geom…

人工智能 2023年7月21日
0070
机器学习基于Adult数据集的逻辑回归与朴素贝叶斯分类

一：逻辑回归分类的原理逻辑回归和线性回归最大的区别在于线性回归的输出一般是连续的，而逻辑回归的输出一般是离散的，但是输入可以是连续的。逻辑回归也使用了线性回归的函数，即h(θ)=…

人工智能 2023年7月1日
0087
一文教你使用图像超分辨率模型（针对小白，不训练）

一文教你使用图像超分辨率模型前言笔者最近负责了一下图像超分辨率的技术调研。个人觉得图像超分辨率这个技术挺有用的，便做一个简单的分享。针对小白，且仅分享如何使用。也就是把这张图超…

人工智能 2023年5月26日
0073
计算神经网络推理时间的正确方法

前言在网络部署这一块中，计算网络的推理时间是至关重要的一方面，但是，正确而有意义地测量神经网络的推理时间或延迟的任务，需要深刻的理解。即使是有经验的程序员也经常会犯一些常见的错误…

人工智能 2023年7月13日
00101
微软深度神经网络语音，定制个性化的自然人声

以往，谈及对合成语音的刻板印象，很多人会联想到《星球大战》中的C-3PO——那个有着近似人类外形金光闪闪的家伙，它是整个系列影片中毫无争议的搞笑担当，其动作僵硬而滑稽，说起话来喋喋…

人工智能 2023年5月27日
0080
【NSDictionary的概述 Objective-C语言】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月28日
0080
HTML：1.初识web

认识WEB 「网页」主要是由 文字、 图像和 超&#x94FE…

人工智能 2023年6月4日
0078
基于 Openpose 实现人体动作识别

作者|李秋键出品|AI科技大本营(ID:rgznai100) 引言伴随着计算机视觉的发展和在生活实践中的广泛应用，基于各种算法的行为检测和动作识别项目在实践中得到了越来越多的应…

人工智能 2023年5月26日
0080
PySpark线性回归与广义线性模型

PySpark线性回归与广义线性模型 * – + 1.线性回归 + 2.岭回归(Ridge Regression)与LASSO回归(LASSO Regression) …

人工智能 2023年6月18日
00160
什么是tensorflow

什么是tensorflow tenroflow是Google开源软件库，为机器学习工程中的问题提供了一整套解决方案。类比于Spark/Flink是大数据工程问题的解决方案。该软件库…

人工智能 2023年5月23日
0082
np.savetxt()将代码中数据存到本地(复数or十进制or字符串)

python存储代码中数据到本地txt文件、读取本地txt中数据并转换为array类型使用np.savetxt()存数据到本地，使用np.loadtxt()从本地文件读取。其中…

人工智能 2023年7月5日
0076
ros中SLAM的EVO、APE测评——SLAM精度测评（一）

用于处理、评估和比较里程计和SLAM算法的轨迹输出。 evo是一款用于视觉里程计和slam问题的轨迹评估工具。核心功能是能够绘制相机的轨迹，或评估估计轨迹与真值的误差。支持多种数据…

人工智能 2023年7月28日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python实现卷积操作

; 1.1 卷积的三种模式:

1.2 feature map 公式计算

大家都在看