【YOLOV4】(7) 特征提取网络代码复现（CSPDarknet53+SPP+PANet+Head），附Tensorflow完整代码

2023年5月24日下午7:09 • 人工智能 • 阅读 72

各位同学好，今天和大家分享一下如何使用 TensorFlow 构建YOLOV4目标检测算法的特征提取网络。

完整代码在我的Gitee中，有需要的自取：https://gitee.com/dgvv4/yolo-target-detection/tree/master

1. CSPDarkNet53

CSPDarkNet53 骨干特征提取网络在 YOLOV3 的 DarkNet53网络的基础上引入了 CSP结构。该结构 增强了卷积神经网络的学习能力；移除了计算瓶颈；降低了显存的使用；加快了网络的推理速度。

CSP结构图如下。图像输入经过一个 3*3卷积的下采样层；然后输出特征图经过 1*1卷积分为两路分支，且 卷积后的特征图的通道数为输入特征图通道数的一半。主干部分再通过11卷积调整通道数，经过若干个残差卷积块之后，再使用11卷积整合通道特征。 最后将残差边和11卷积输出特征图在通道维度上堆叠，再经过11卷积融合通道信息。

【YOLOV4】(7) 特征提取网络代码复现（CSPDarknet53+SPP+PANet+Head），附Tensorflow完整代码

模型的骨干就是由多个CSP结构组合而成， 但是第一个CSP结构和其他的CSP结构不相同。以输入图像的shape为 [416,416,3] 为例。 有如下两点不同： 第一个CSP结构是先经过一个标准卷积块下采样，然后 经过3*3卷积提取特征，不改变通道数64；在主干卷积分支的 残差块，先11卷积下降通道数32，再33卷积上升通道数64。

输入图像的shape为[416.416,3]， 网络不断进行下采样来获得更高的语义信息，输出三个有效特征层， feat1的shape为 [52,52,256] 负责预测小目标，feat2的shape为[26,26,512] 负责预测中等目标，feat3的shape为[13,13,1024] 负责预测大目标

代码展示：

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, regularizers

#（1）Mish激活函数
def mish(x):
    # x*tanh(ln(1+ex))
    x = x * tf.math.tanh(tf.math.softplus(x))
    return x

#（2）标准卷积块
def conv_block(inputs, filters, kernel_size, strides):
    # 卷积+BN+Mish
    x = layers.Conv2D(filters, kernel_size, strides,
                      padding='same', use_bias=False,  # 有BN不要偏置
                      kernel_regularizer=regularizers.l2(5e-4))(inputs)  # l2正则化

    x = layers.BatchNormalization()(x)
    x = mish(x)

    return x

#（3）残差块
def res_block(inputs, filters):

    residual = inputs  # 残差边
    # 1*1卷积调整通道
    x = conv_block(inputs, filters, kernel_size=(1,1), strides=1)
    # 3*3卷积提取特征
    x = conv_block(x, filters, kernel_size=(3,3), strides=1)
    # 残差连接输入和输出
    x = layers.Add()([x, residual])

    return x

#（4）CSP结构
def csp_bolck(inputs, filters, num):

    # 卷积下采样
    x = conv_block(inputs, filters, kernel_size=(3,3), strides=2)

    # 1*1卷积在通道维度上下降一半
    shortcut = conv_block(x, filters//2, (1,1), strides=1)  # 残差边
    mainconv = conv_block(x, filters//2, (1,1), strides=1)  # 主干卷积

    # 重复执行残差结构
    for _ in range(num):
        mainconv = res_block(inputs=mainconv, filters=filters//2)

    # 1*1卷积调整通道
    mainconv = conv_block(mainconv, filters//2, (1,1), strides=1)

    # 输入和输出在通道维度堆叠
    x = layers.concatenate([mainconv, shortcut])

    # 1*1卷积整合通道
    x = conv_block(x, filters, (1,1), strides=1)

    return x

#（5）主干网络
def cspdarknet(inputs):

    # [416,416,3]==>[416,416,32]
    x = conv_block(inputs, filters=32, kernel_size=(3,3), strides=1)
    # [416,416,32]==>[208,208,64]
    x = csp_bolck(x, filters=64, num=1)
    # [208,208,64]==>[104,104,128]
    x = csp_bolck(x, filters=128, num=2)

    # [104,104,128]==>[52,52,256]
    x = csp_bolck(x, filters=256, num=8)
    feat1 = x

    # [52,52,256]==>[26,26,512]
    x = csp_bolck(x, filters=512, num=8)
    feat2 = x

    # [26,26,512]==>[13,13,1024]
    x = csp_bolck(x, filters=1024, num=4)
    feat3 = x

    return feat1, feat2, feat3

2. SPP

SPP加强特征提取结构 能在一定程度上解决多尺度的问题。如下图

对网络模型输出的 feat3先经过三个卷积层调整通道数，然后 分别使用池化核size为 55，99，13*13 的最大池化，通过padding=’same’ 使得池化前后的特征图的shape是完全相同的。 然后将原始输入和三种池化的结果特征图在通道维度上堆叠。最后经过三次卷积融合通道信息。

代码展示

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from CSPDarknet53 import cspdarknet  # 导入网络模型
from CSPDarknet53 import conv_block  # 导入标准卷积块

def spp(inputs):

    # 获取网络的三个输出特征层
    feat1, feat2, feat3 = cspdarknet(inputs)

    # 对最后一个输出特征层进行3次卷积
    # [13,13,1024]==>[13,13,512]
    p5 = conv_block(feat3, filters=512, kernel_size=(1,1), strides=1)
    # [13,13,512]==>[13,13,1024]
    p5 = conv_block(p5, filters=1024, kernel_size=(3,3), strides=1)
    # [13,13,1024]==>[13,13,512]
    p5 = conv_block(p5, filters=512, kernel_size=(1,1), strides=1)

    # 经过不同尺度的最大池化后相堆叠
    maxpool1 = layers.MaxPooling2D(pool_size=(13,13), strides=1, padding='same')(p5)
    maxpool2 = layers.MaxPooling2D(pool_size=(9,9), strides=1, padding='same')(p5)
    maxpool3 = layers.MaxPooling2D(pool_size=(5,5), strides=1, padding='same')(p5)

    # 四种尺度在通道维度上堆叠[13,13,2048]
    p5 = layers.concatenate([maxpool1, maxpool2, maxpool3, p5])

    # 三次卷积调整通道数
    # [13,13,2048]==>[13,13,512]
    p5 = conv_block(p5, filters=512, kernel_size=(1,1), strides=1)
    # [13,13,512]==>[13,13,1024]
    p5 = conv_block(p5, filters=1024, kernel_size=(3,3), strides=1)
    # [13,13,1024]==>[13,13,512]
    p5 = conv_block(p5, filters=512, kernel_size=(1,1), strides=1)

    return feat1, feat2, p5

3. PANet

PANet 将网络输出的有效特征层和SPP结构的输出进行特征融合，它是由两个特征金字塔组成， 一个是将低层的语义信息向高层融合（左），另一个是将高层的语义信息向低层融合（右）。

首先， 对SPP结构的输出p5进行卷积和上采样，对网络输出的2626512的特征图卷积，将两个结果在通道维度上堆叠，再经过5次卷积，输出特征图shape为2626256。然后将结果再进行卷积和上采样，网络输出的5252256的特征图经过1*1卷积，两个特征图在通道维度上堆叠。完成左侧特征金字塔的信息融合。同理右侧的特征金字塔。

代码展示

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from CSPDarknet53 import conv_block  # 网络模型和标准卷积块
from SPP import spp  # 导入spp加强特征提取模块

5次卷积操作提取特征减少参数量
def five_conv(x, filters):
    x = conv_block(x, filters, (1,1), strides=1)
    x = conv_block(x, filters*2, (3,3), strides=1)
    x = conv_block(x, filters, (1,1), strides=1)
    x = conv_block(x, filters*2, (3,3), strides=1)
    x = conv_block(x, filters, (1,1), strides=1)
    return x

def panet(inputs):

    # 获得网络的三个有效输出特征层
    feat1, feat2, p5 = spp(inputs)

    #（1）
    # 对spp结构的输出进行卷积和上采样
    # [13,13,512]==>[13,13,256]==>[26,26,256]
    p5_upsample = conv_block(p5, filters=256, kernel_size=(1,1), strides=1)
    p5_upsample = layers.UpSampling2D(size=(2,2))(p5_upsample)

    # 对feat2特征层卷积后再与p5_upsample堆叠
    # [26,26,512]==>[26,26,256]==>[26,26,512]
    p4 = conv_block(feat2, filters=256, kernel_size=(1,1), strides=1)
    p4 = layers.concatenate([p4, p5_upsample])

    # 堆叠后进行5次卷积[26,26,512]==>[26,26,256]
    p4 = five_conv(p4, filters=256)

    #（2）
    # 对p4卷积上采样
    # [26,26,256]==>[26,26,512]==>[52,52,512]
    p4_upsample = conv_block(p4, filters=128, kernel_size=(1,1), strides=1)
    p4_upsample = layers.UpSampling2D(size=(2,2))(p4_upsample)

    # feat1层卷积后与p4_upsample堆叠
    # [52,52,256]==>[52,52,128]==>[52,52,256]
    p3 = conv_block(feat1, filters=128, kernel_size=(1,1), strides=1)
    p3 = layers.concatenate([p3, p4_upsample])

    # 堆叠后进行5次卷积[52,52,256]==>[52,52,128]
    p3 = five_conv(p3, filters=128)

    # 存放第一个特征层的输出
    p3_output = p3

    #（3）
    # p3卷积下采样和p4堆叠
    # [52,52,128]==>[26,26,256]==>[26,26,512]
    p3_downsample = conv_block(p3, filters=256, kernel_size=(3,3), strides=2)
    p4 = layers.concatenate([p3_downsample, p4])

    # 堆叠后的结果进行5次卷积[26,26,512]==>[26,26,256]
    p4 = five_conv(p4, filters=256)

    # 存放第二个有效特征层的输出
    p4_output = p4

    #（4）
    # p4卷积下采样和p5堆叠
    # [26,26,256]==>[13,13,512]==>[13,13,1024]
    p4_downsample = conv_block(p4, filters=512, kernel_size=(3,3), strides=2)
    p5 = layers.concatenate([p4_downsample, p5])

    # 堆叠后进行5次卷积[13,13,1024]==>[13,13,512]
    p5 = five_conv(p5, filters=512)

    # 存放第三个有效特征层的输出
    p5_output = p5

    # 返回输出层结果
    return p3_output, p4_output, p5_output

验证
if __name__ == '__main__':

    inputs = keras.Input(shape=[416,416,3])
    p3_output, p4_output, p5_output = panet(inputs)

    print('p3.shape:', p3_output.shape,  # (None, 52, 52, 128)
          'p4.shape:', p4_output.shape,  # (None, 26, 26, 256)
          'p5.shape:', p5_output.shape)  # (None, 13, 13, 512)

4. Head

YOLOHead 由一个33卷积层和一个11卷积层构成，33卷积整合之前获得的所有特征信息，11卷积获得三个有效特征层的输出结果。

代码如下，其中 1*1卷积的通道数为 num_anchors(5+num_classes)。以输出结果p3_output 为例，shape为 [512,512,num_anchors(5+num_classes)]，可理解为， 将一张图片划分成 512*512 个网格，当某一个目标物体的中心点落在某网格中，该物体就需要该网格生成的预测框去预测。

每个网格预先设置了 num_anchors=3 个先验框，网络会对这3个先验框的位置进行调整，使其变成最终的预测框。此外， 5+num_classes可以理解为4+1+num_classes。其中 4 代表先验框的调整参数(x, y, w, h)， 调整已经设定好了的框的位置，调整后的结果是最后的预测框； 1 代表先验框中是否包含目标物体，值越接近0代表不包含目标物体， 越接近1代表包含目标物体； num_classes 代表目标物体的种类，VOC数据集中num_classes=20，它的值是 目标物体属于某个类别的条件概率。

通过yolohead获得预测结果

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, Model
from PANet import panet  # 导入panet加强特征提取方法
from CSPDarknet53 import conv_block  # 导入标准卷积快

对PANet的特征输出层处理获得最终的预测结果
def yoloHead(inputs, num_anchors, num_classes):
    '''
    num_anchors每个网格包含先验框的数量, num_classes分类数
    num_anchors(5+num_classes)代表: 每个先验框有5+num_classes个参数, 即(x,y,w,h,c)和20个类别的条件概率
    每一个特征层的输出代表: 每一个网格上每一个先验框内部是否包含物体, 以及包含物体的种类, 和先验框的调整参数
    '''

    # 获得三个有效特征层
    p3_output, p4_output, p5_output = panet(inputs)

    # 3*3卷积[52,52,128]==>[52,52,256]
    p3_output = conv_block(p3_output, filters=256, kernel_size=(3,3), strides=1)
    # [52,52,256]==>[52,52,num_anchors(5+num_classes)]
    p3_output = conv_block(p3_output, filters=num_anchors*(5+num_classes),
                           kernel_size=(1,1), strides=1)

    # [26,26,256]==>[26,26,516]
    p4_output = conv_block(p4_output, filters=512, kernel_size=(3,3), strides=1)
    # [26,26,512]==>[26,26,num_anchors(5+num_classes)]
    p4_output = conv_block(p4_output, filters=num_anchors*(5+num_classes),
                           kernel_size=(1,1), strides=1)

    # [13,13,512]==>[13,13,1024]
    p5_output = conv_block(p5_output, filters=1024, kernel_size=(3,3), strides=1)
    # [13,13,1024]==>[13,13,num_anchors(5+num_classes)]
    p5_output = conv_block(p5_output, filters=num_anchors*(5+num_classes),
                           kernel_size=(1,1), strides=1)

    # 构建模型
    model = Model(inputs, [p5_output, p4_output, p3_output])

    return model

查看模型结构
if __name__ == '__main__':

    inputs = keras.Input(shape=[416,416,3])  # 构造输入
    # 接收模型，传入先验框数量3，分类数20
    model = yoloHead(inputs, num_anchors=3, num_classes=20)
    # 网络架构
    model.summary()

感谢太阳花的小绿豆博主的网络结构图

Original: https://blog.csdn.net/dgvv4/article/details/123818580
Author: 立Sir
Title: 【YOLOV4】(7) 特征提取网络代码复现（CSPDarknet53+SPP+PANet+Head），附Tensorflow完整代码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/508967/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

微服务系列文章目录

QQ群：1022985150 VX：kklldog 一起探讨学习.NET技术作者：Agile.Zhou(kklldog)出处：http://www.cnblogs.com/kkll…

人工智能 2023年6月6日
0087
ubuntu18.04安装cuda和cudnn

一、安装 cuda 1. 首先查看自身电脑最高支持的cuda版本为多少，在终端输入以下指令 nvidia-smi 可以看到我的最高支持 cuda 11.4 。 2. 打开英伟达官网…

人工智能 2023年6月16日
00125
【课程笔记】中科大信息论（四）

马尔可夫过程的熵率熵率为什么要研究熵率除了研究i.i.d.随机变量的熵，之前已经从条件熵的角度研究了两个关联的随机变量之间的关系，现在想进一步研究当这些随机变量来自于某个随…

人工智能 2023年6月4日
0099
时序模型：循环神经网络（RNN）

1. 模型定义循环神经网络（recurrent neural network, RNN）是一类专门设计处理不定长序列数据的神经网络。与使用一种新计算1作为核心的卷积神经网络不…

人工智能 2023年7月12日
00129
视频监控智能交通数据集（目标检测、跟踪）

前言总结一下视频监控的数据集，用于目标检测、跟踪，持续跟新中……….。一、UA-DETRAC 数据集 UA-DETRAC是一个具有挑战性的真…

人工智能 2023年6月25日
0092
ZZNUOJ_用C语言编写程序实现1342：支配值数目(附完整源码)

题目描述知f[]与g[]两个整数数组，元素都已经从小到大排好序，请写一个程序，算出f[]中比g[]中元素大的对数。换句话说，f[0]比g[]中多少个元素大，f[1]比g[]中多少…

人工智能 2023年6月29日
0066
机器学习中的七种分类算法

目录 1 分类任务的类型 1.1 二元分类 1.2 多元分类 1.3 多标签分类 1.4 不平衡分类 2 分类算法如何工作 3 数据预处理 4 创建测试集和训练集 5 选择模型 6…

人工智能 2023年6月12日
0060
【读书笔记】《利用Python进行数据分析》第2版_第八章数据规整：连接、联合与重塑

使用PeriodIndex将数据处理后形成Idata 多时间序列的长格式，或具有两个或更多个键的数据（键date和item）使用DataFrame的 pivot方法将数据处理为按…

人工智能 2023年7月18日
0081
LIO-SAM学习笔记-整体框架

开源SLAM系统：LIO-SAM源码解析 | 攻城狮の家 LIO-SAM在LEGO-LOAM上的改进由于支持手持设备，因此没有对地面点进行特殊处理紧耦合的lidar+imu融合…

人工智能 2023年7月28日
0068
yolov5创新 C3GN：引荐HorNet递归门控卷积GnConv重构目标检测颈部网络

yolov5创新 C3GN：引荐HorNet递归门控卷积GnConv重构目标检测颈部网络递归门控卷积GnConv模块：主要思想：通过门控卷积和递归设计执行高阶空间交互，新的操作…

人工智能 2023年6月16日
0097
红外小目标检测中ROC曲线的绘制

ROC曲线的绘制前言一、一般目标检测中ROC的意义二、红外小目标检测中的ROC曲线三、检测结果以及存在问题 * 问题1：一幅图像中检测目标比真实目标数目多问题2：一幅图像…

人工智能 2023年7月9日
0065
R实战 | 限制性立方样条(RCS)

RCS 在科学研究中，我们经常构建回归模型来分析 自变量和 因变&am…

人工智能 2023年7月4日
0092
清华镜像用不了？conda安装tensorflow教程以及多种报错的解决（windows环境）

conda安装tensorflow教程以及报错处理（windows环境） 1.在很多教程中，作者会让我们先创建一个虚拟环境，在这个虚拟环境创建时一般会指定python的版本，如下面…

人工智能 2023年5月23日
0073
Pytorch搭建CNN进行图像分类

PyTorch是一个开源的Python机器学习库，2017年1月，由Facebook人工智能研究院（FAIR）基于Torch推出。最近抽出时间来亲身实践一下用PyTorch搭建一个…

人工智能 2023年5月26日
0081
数据分析案例（口罩厂亏损）—-明确目的

数据分析前需了解的基础知识 1.jupyter代码编辑器2.pandas库基础知识3.数据分析流程 pandas库 pandas库是一个专门用来解决数据分析问题的库，其有两大优点1…

人工智能 2023年7月8日
0083
VGG19续读【精细】，为什么叫做VGG19?==＞【每一层可以看做是很多个局部特征的提取器，可以用作局部特征提取】

目录总体架构图：实际代码中问题：重要的点 Thinking1：使用3×3卷积核替代7×7卷积核的好处？ Thinking2：多少个3×3的卷积核…

人工智能 2023年6月25日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【YOLOV4】(7) 特征提取网络代码复现（CSPDarknet53+SPP+PANet+Head），附Tensorflow完整代码

代码展示：

代码展示

代码展示

大家都在看