YOLOv5之Focus与6×6卷积的理解

2023年7月21日上午6:24 • 人工智能 • 阅读 69

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、Foucs
*
1.Focus简介
2.对Focus的疑问
二.Focus为何又被替换成卷积层
三.Focus是否可以作为一种数据增强的处理方式

前言

最近正在学习 yolov5算法，以 yolov5s模型为例，其中的 focus模块在被改成了一个 kernel_size=6的卷积层，为什么较大的卷积核进行卷积比 focus模块更有效呢？

一、Foucs

1.Focus简介

Foucs模块使将原本的 feature map按下图方式分成四份，再 concat到一起进行一次卷积.

这里是 Focus模块的源码：

class Focus(nn.Module):

    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):

        super().__init__()
        self.conv = Conv(c1 * 4, c2, k, s, p, g, act)
def forward(self, x):
        return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2],
                            x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1))

为了理解 torch.cat()中拼接部分具体操作，我们需要自己做个小实验验证一下：

import torch
import numpy as np
import torch.nn as nn

a = torch.tensor([[[[0,1],[2,3]],
                [[0,1],[2,3]],
                [[0,1],[2,3]],
                ]])

print(a.size())
print(a[...].size())
print(a[...,:2,:2].size())
print(a[...,::2,::2].size())
print(a[...,::2,::2].size(), '\n', a[...,::2,::2])
print(a[...,1::2,::2].size(), '\n', a[...,1::2,::2])
print(a[...,::2,1::2].size(), '\n', a[...,::2,1::2])
print(a[...,1::2,1::2].size(), '\n', a[...,1::2,1::2])
b = torch.cat([a[...,::2,::2], a[...,1::2,::2]
                ,a[...,::2,1::2], a[...,1::2,1::2]],1)
print(b.size())
print(b)

a.shape由 [1, 3, 2, 2]变至 [1, 12, 1, 1]，通道数增大四倍，w与h缩小两倍.
a[...,::2,::2] 取左上角
a[...,1::2,::2]取左下角
a[...,::2,1::2]取右上角
a[...,1::2,1::2]取右下角
再通过 torch.cat()其在第二个维度上堆叠起来，在对其进行 kernel_size=3,stride=1卷积特征提取.

2.对Focus的疑问

在 github上有人问过 focus对mAP的影响，原作者是这么回答的

大意是 Foucs()模块是为了减少了 FLOPs并增加计算速度设计的，并不会增加 mAP;另一方面1个 foucs模块代替了 3个yolov3/4层.

我们来计算一下 focus的参数量与计算量(忽略 bias)
F L O P s = ( 3 ∗ 4 ) ∗ 32 ∗ 3 ∗ 3 ∗ 320 ∗ 320 = 353894400 FLOPs = (34)3233320320=353894400 F L OP s =(3 ∗4 )∗32 ∗3 ∗3 ∗320 ∗320 =353894400
P a r a m = 3 ∗ 4 ∗ 32 ∗ 3 ∗ 3 = 3456 Param =343233=3456 P a r am =3 ∗4 ∗32 ∗3 ∗3 =3456
再来计算一下卷积层的参数量与计算量(忽略 bias)
F L O P s = 3 ∗ 32 ∗ 3 ∗ 3 ∗ 320 ∗ 320 = 88473600 FLOPs = 33233320320=88473600 F L OP s =3 ∗32 ∗3 ∗3 ∗320 ∗320 =88473600
P a r a m = 3 ∗ 32 ∗ 3 ∗ 3 = 864 Param =33233=864 P a r am =3 ∗32 ∗3 ∗3 =864
一个 Focus的参数量与计算量大约是 conv的4倍，但一个focus结构可以替换3个conv层，所以参数量与计算量都是减少的.

再来计算一下 k=6卷积层的参数量与计算量(忽略 bias)
F L O P s = 3 ∗ 32 ∗ 6 ∗ 6 ∗ 320 ∗ 320 = 35389440 FLOPs = 33266320320=35389440 F L OP s =3 ∗32 ∗6 ∗6 ∗320 ∗320 =35389440
P a r a m = 3 ∗ 32 ∗ 6 ∗ 6 = 3456 Param =33266=3456 P a r am =3 ∗32 ∗6 ∗6 =3456
所以 k=6卷积层在理论上等价于 focus结构
那么 focus虽然降低了计算成本，但是其采样方式会不会破坏图片的空间信息或者混淆GT框的边界坐标呢？

将空间信息堆叠到通道空间中，可能会减少一个像素的回归信息价值，但对于大多数实例而言回归精度都不会接近一个像素,因此 focus的采样方式并对回归精度产生影响极小.另外focus结构的位置问题，在分类网络中放在后面可能会更有用，但是在目标检测模型中对 mAP@0.5:0.95的影响更大， mAP@0.5影响较小.

对于focus的采样方式是否会破坏原有图像的空间信息，我们只要将focus的采样的4个模块输出来看一看即可.

import cv2
import numpy as np
img = cv2.imread(r'C:/Users/HP/Desktop/p.jpg')

new_img = cv2.resize(img, (320, 320))
cv2.imwrite(r'./0.jpg',new_img)
img = img.transpose(2,1,0)
img = np.expand_dims(img, 0)
print(img.shape)

new_img = img[...,::2,::2]
print(new_img.shape)
new_img = new_img[0]
print('shape',new_img.shape)
new_img = new_img.transpose(2,1,0)
cv2.imwrite(r'./1.jpg',new_img)
new_img = img[...,1::2,::2]
print(new_img.shape)
new_img = new_img[0]
new_img = new_img.transpose(2,1,0)
cv2.imwrite(r'./2.jpg',new_img)
new_img = img[...,::2,::2]
print(new_img.shape)
new_img = new_img[0]
new_img = new_img.transpose(2,1,0)
cv2.imwrite(r'./3.jpg',new_img)
new_img = img[...,1::2,1::2]
print(new_img.shape)
new_img = new_img[0]
new_img = new_img.transpose(2,1,0)
cv2.imwrite(r'./4.jpg',new_img)
img1 = cv2.imread(r'./1.jpg')
img2 = cv2.imread(r'./2.jpg')
img3 = cv2.imread(r'./3.jpg')
img4 = cv2.imread(r'./4.jpg')
h = np.hstack((img1, img2, img3, img4))
cv2.imwrite(r'./5.jpg',h)

原图 3x640x640:

通过两幅图片对比得知，经过 focus下采样得到的特征图并不会丢失特征信息，对语义的影响并不大，且下采样后的每一个像素点的感受野都增大了，与卷积层的下采样方式一样，没有丢失原图的信息.

二.Focus为何又被替换成卷积层

yolov5后期将focus结构又替换成了 k=6的卷积层，我猜想可能是因为这样的方式来代替 3个conv层的原因是在提高了运算速度前提下，运用较大的卷积核增大了感受野，在性能方面可能会获得了一定的提升.

另一方面,考虑到focus的切片处理，与卷积相比，多出了几次运算 concat操作，可能会增加一定的内存开销.

三.Focus是否可以作为一种数据增强的处理方式

Focus可以被看作一种下采样方式，与 transforms.Resize相比哪种方式的效果更好，或是可以在调整图片大小时将两种方式混用，在以后的实验中可以一试.

————————————————————————————————————————————————————————

2022.6.26
更正一下 focus的感受野，与 6x6的 conv感受野大小相同，并不是 kener_size设为6会增大感受野

Original: https://blog.csdn.net/xiahan_qian/article/details/125086079
Author: 月光下的小白兔
Title: YOLOv5之Focus与6×6卷积的理解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/706509/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习环境配置8——（30系显卡）windows下的torch==1.7.1环境配置

深度学习环境配置8——（30系显卡）windows下的torch==1.7.1环境配置注意事项 * 一、2021/10/8更新学习前言各个版本pytorch的配置教程环境内…

人工智能 2023年7月20日
0062
PGL图学习

图学习初印象什么是图什么是图学习图学习的应用图学习如何做图学习库简介 PGL使用 * 环境安装使用PGL来创建一张图什么是图图的两个基本元素：点、边图是一种同意描…

人工智能 2023年6月1日
0090
线性回归应用简要介绍

本文简单介绍了线形回归模型的使用场景、原理以及使用时的注意事项，下一篇会进入代码实践。目录 1、线性回归的应用场景 1.1 做预测 1.2 用来做模型解释 1.3 实验效果评估 …

人工智能 2023年6月17日
0090
【小白学习keras教程】一、基于波士顿住房数据集训练简单的MLP回归模型

@Author：Runsen 多层感知机（MLP）有着非常悠久的历史，多层感知机(MLP)是深度神经网络(DNN)的基础算法 ; MLP基础知识目的：创建用于简单回归/分类任务的…

人工智能 2023年6月17日
0080
Pycharm生成.exe文件

1>打开Pycharm，点击Terminal终端，在终端输入命令： pip install pyinstaller，等待安装完成 2>使用pyinstall生成.exe…

人工智能 2023年7月5日
0092
图像分割（语义分割）的局限以及解决方法

图像分割的难点在哪里？ – 知乎2020.6.10：更新了部分解决方法和一个难点。 2020.1.22：更新有哪些可能有效的解决方法。前言：这是本专栏的第一篇文章，主…

人工智能 2023年7月26日
0064
【机器视觉案例】(8) AI视觉，手势控制电脑鼠标，附python完整代码

各位同学好，今天和大家分享一下如何使用 MediaPipe+Opencv通过手势识别来控制电脑鼠标的移动和点击，如果有兴趣的话，可以代替鼠标去打游戏。先放图看效果。用画图板来测试 …

人工智能 2023年6月25日
00120
LightGBM 二元分类、多类分类、 Python的回归和分类器应用

LightGBM是一个梯度提升框架，它使用基于树的学习算法。与其他提升算法相比，它被设计为分布式且高效。可以用于比较的模型是 XGBoost，它也是一种提升方法，与其他算法相比，它…

人工智能 2023年7月1日
0095
torch_geometric(pyg)的介绍和简单使用

最近做毕业设计，需要用到图神经网络（以下简称GNN）。由于刚入门GNN，不想看大段的公式和相关论文（然而事实证明该看的永远逃不了），所以怎么办？百度上找呗！因为自己平时用pytor…

人工智能 2023年6月17日
0049
【PaperRead】无监督图像分类技术

1.基于深度学习参考论文：A survey on Semi-, Self- and Unsupervised Techniques in Image Classification…

人工智能 2023年7月3日
0074
医院药品管理系统丨医药商城系统（Java+Web+MySQL）

目录摘要 IAbstract II 绪论 1 1.1 本课题的研究背景 1 1.2 国内外研究现状 1 1.3 本课题的主要工作 2 1.4 目的和意义 3 开发工具及技术 4…

人工智能 2023年6月30日
00128
Python Pandas用法整理

Pandas简介 Pandas是一-种基于NumPy的开源的数据分析工具包,提供了高性能、简单易用的数据结构和数据分析函数。Pandas提供了方便的类表格和类SQL的操作，同时提…

人工智能 2023年7月7日
0069
Android基于opencv4.6.0实现人脸识别功能

前言步骤： 1.整合opencv 2.获取相机的SurfaceView传到native层去检测(亦或是不断的获取SurfaceView的Bitmap，传到native层) 3.检…

人工智能 2023年6月18日
00100
R语言glm拟合logistic回归模型实战：基于glm构建逻辑回归模型及模型系数统计显著性分析、每个预测因子对响应变量的贡献

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
0051
蒙特卡罗（Monte Carlo) 模拟

蒙特卡罗模拟（方法），也称为计算机随机模拟方法、统计模拟法、统计试验法，是基于”随机数”的计算方法，或者是说把概率现象作为研究对象的数值模拟方法。其数学基…

人工智能 2023年7月4日
0094
浅谈人工智能（AI）

文章目录人工智能 (AI) 一、人工智能简介 * 1.1.人工智能定义和发展历史 1.2.人工智能发展必备三要素 – 1.2.1.三要素 1.2.人工智能发展必备三要…

人工智能 2023年6月23日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

YOLOv5之Focus与6×6卷积的理解

文章目录

1.Focus简介

2.对Focus的疑问

————————————————————————————————————————————————————————

大家都在看