五、卷积神经网络CNN3（2D与3D卷积、池化）

2023年7月13日上午3:51 • 人工智能 • 阅读 53

2D卷积

2D 卷积操作如图 1 所示，为了解释的更清楚，分别展示了单通道和多通道的操作。且为了画图方便，假定只有 1 个 filter，即输出图像只有一个 chanel。

其中，针对单通道，输入图像的 channel 为 1，卷积核尺寸为 (k_h, k_w, 1)，卷积核在输入图像上的的空间维度（即(height, width)两维）上进行进行滑窗操作，每次滑窗和 (k_h,k_w) 窗口内的 values 进行卷积操作（现在都用相关操作取代），得到输出图像中的一个value。

针对多通道，假定输入图像的 channel 为 3，卷积核尺寸为 (k_h, k_w, 3)，卷积核在输入图像上的的空间维度（即(h, w)两维）上进行进行滑窗操作，每次滑窗与 3 个 channels上的 (k_h, k_w) 窗口内的所有的 values 进行相关操作，得到输出图像中的一个 value。

3D卷积

3D 卷积操作如图 2 所示，同样分为单通道和多通道，且只使用一个 filter，输出一个channel。

其中，针对单通道，与 2D 卷积不同之处在于，输入图像多了一个 length 维度，卷积核也多了一个 k_l 维度，因此卷积核在输入 3D 图像的空间维度（height 和 widthw 维）和 length维度上均进行滑窗操作，每次滑窗与 (k_h, k_w, k_l) 窗口内的 values 进行相关操作，得到输出 3D 图像中的一个value.

针对多通道，则与 2D 卷积的操作一样，每次滑窗与 3 个 channels 上的 (k_h, k_w, k_l)窗口内的所有 values 进行相关操作，得到输出 3D 图像中的一个 value。

池化方法

在卷积神经网络中，我们经常会碰到池化操作，而池化层往往在卷积层后面，通过池化来降低卷积层输出的特征向量，同时改善结果（不易出现过拟合）。
为什么可以通过降低维度呢？
因为图像具有一种”静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值)来代表这个区域的特征。

一般池化（General Pooling ）

池化作用于图像中不重合的区域（这与卷积操作不同），过程如下图。

我们定义池化窗口的大小为 sizeX，即下图中红色正方形的边长，定义两个相邻池化窗口的水平位移/竖直位移为 stride。一般池化由于每一池化窗口都是不重复的，所以 sizeX=stride。

最常见的池化操作为平均池化 mean pooling 和最大池化 max pooling：
平均池化：计算图像区域的平均值作为该区域池化后的值。
最大池化：选图像区域的最大值作为该区域池化后的值。

重叠池化（OverlappingPooling ）

重叠池化正如其名字所说的，相邻池化窗口之间会有重叠区域，此时 sizeX>stride。

空金字塔池化（Spatial Pyramid Pooling ）

空间金字塔池化可以把任何尺度的图像的卷积特征转化成相同维度，这不仅可以让 CNN处理任意尺度的图像，还能避免 cropping 和 warping 操作，导致一些信息的丢失，具有非常重要的意义。

一般的 CNN 都需要输入图像的大小是固定的，这是因为全连接层的输入需要固定输入维度，但在卷积操作是没有对图像尺度有限制，所有作者提出了空间金字塔池化，先让图像进行卷积操作，然后转化成维度相同的特征输入到全连接层，这个可以把 CNN 扩展到任意大小的图像。

空间金字塔池化的思想来自于 Spatial Pyramid Model，它一个 pooling 变成了多个 scale 的pooling。用不同大小池化窗口作用于卷积特征，我们可以得到 1X1,2X2,4X4 的池化结果，由于 conv5 中共有 256 个过滤器，所以得到 1 个 256 维的特征，4 个 256 个特征，以及 16 个 256维的特征，然后把这 21 个 256 维特征链接起来输入全连接层，通过这种方式把不同大小的图像转化成相同维度的特征。

对于不同的图像要得到相同大小的 pooling 结果，就需要根据图像的大小动态的计算池化窗口的大小和步长。假设 conv5 输出的大小为 aa，需要得到 nn 大小的池化结果，可以让窗口大小 sizeX[a/n] 为，步长为[a/n] 。下图以 conv5 输出的大小为 13*13 为例。

疑问：如果 conv5 输出的大小为 1414，[pool11]的 sizeX=stride=14，[pool22]的
sizeX=stride=7，这些都没有问题，但是，[pool44]的 sizeX=5，stride=4，最后一列和最后一行
特征没有被池化操作计算在内。
SPP 其实就是一种多个 scale 的 pooling，可以获取图像中的多尺度信息；在 CNN 中加入SPP 后，可以让 CNN 处理任意大小的输入，这让模型变得更加的 flexible。

Original: https://blog.csdn.net/weixin_53832681/article/details/124674782
Author: 满满myno
Title: 五、卷积神经网络CNN3（2D与3D卷积、池化）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/689015/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

实践题目：使用pandas处理excel多行到多列

文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言使用pandas实现excel的复杂多列到多行转换一、需求使用pandas实现ex…

人工智能 2023年7月8日
0066
一种基于 OpenPose 的跌倒检测系统

1. 项目背景简介人们在行走和奔跑等情况下，经常会发生摔倒的情况。对于正常人而言，在摔倒不是特别严重的情况下，人们可以立刻起来或者打电话报警或者通知家人，然而对于一些特殊的人群…

人工智能 2023年7月29日
00123
实体链接在OPPO小布助手和OGraph的实践应用

1 问题背景精准直达的知识问答能力对营造小布”懂知识、更懂你”的形象非常重要。在语音助手场景，经常会出现一词多义或者口语化表达等问题。例如:李白出装，李白…

人工智能 2023年6月5日
00109
python机器学习二分类混淆矩阵_读书笔记（11）Logistic 回归分类算法及应用

设想这样一些场景：电商企业想要判断用户是否会选择某种支付方式；金融企业想要将用户划分为不同的信用等级；某件商品在接下来的一个月内是否被销售；根据人体内的某个肿瘤特征，判断其是否为恶…

人工智能 2023年6月18日
0059
PaddleHub实战篇{ERNIE实现文新闻本分类、ERNIE3.0 实现序列标注}【四】

NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏详细介绍：[NLP专栏简介：数据增强、智能…

人工智能 2023年5月28日
0060
Python使用numpy包编写自定义函数计算平均绝对误差(MAE、Mean Absolute Error)、评估回归模型和时间序列模型、解读MAE

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0069
Framework如何支持模型的训练和部署

详细介绍在机器学习中，模型的训练和部署是非常重要的环节。一个好的框架可以大大简化这一过程，提高开发效率。本文将介绍一个框架如何支持模型的训练和部署，包括算法原理、公式推导、计算步…

人工智能 2024年1月1日
0042
图像分割之U-Net、U2-Net及其Pytorch代码构建

图像分割之U-Net、U2 -Net及其Pytorch代码构建 1、图像分割图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。做法便是对图片中…

人工智能 2023年7月12日
0055
python机器学习手写算法系列——DBSCAN聚类

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
0078
RNA 21. SCI 文章中单基因富集分析

点击关注，桓峰基因桓峰基因生物信息分析，SCI文章撰写及生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你 88篇原创内容公众号…

人工智能 2023年7月16日
0065
数据分析入门 | kaggle泰坦尼克任务（二）—＞pandas基础

系列索引：数据分析入门 | kaggle泰坦尼克任务; 文章目录一、pandas基础 * （1）数据类型（2）基本操作（3）筛选的逻辑（4）loc函数和iloc函数：一、…

人工智能 2023年7月18日
0050
【华为云ModelArts】识别你的专属云宝

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
0070
【模型压缩】量化精度损失分析

1, 如何进行模型量化？按照量化阶段的不同，一般将量化分为 quantization aware training(QAT) 和 post-training quantizati…

人工智能 2023年7月14日
0065
MongoDB 的安装详细过程

MongoDB的简介简介 1、MongoDB 是为了快速开发互联网 Web 应用而设计的数据库系统。 2、MongoDB 的设计目标是极简、灵活、作为 Web 应用栈的一部分。 …

人工智能 2023年7月29日
0054
Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

论文地址：https://arxiv.org/abs/2006.04388论文代码：https://github.com/implus/GFocal一阶段检测器基本将目标检测定义为…

人工智能 2023年7月9日
0090
rgb与hsi空间详解及其相互转化（python+opencv）

rgb与hsi空间详解及其相互转化 1. 彩色图像的颜色空间 * 1.1 RGB颜色空间 1.2. HSI颜色空间 2. RGB颜色空间与HSI颜色空间之间的转换 * 2.1 RG…

人工智能 2023年5月26日
00150

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31