目标检测算法(YOLOv4)

2023年7月10日上午6:11 • 人工智能 • 阅读 67

目标检测算法(YOLOv4)

本文要来介绍很火的目标检测算法YOLOv4，该算法是在原有YOLO目标检测架构的基础上，采用了近些年CNN领域中最优秀的优化策略，从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面都有着不同程度的优化.

论文题目：YOLOv4: Optimal Speed and Accuracy of Object Detection

; 主要贡献

YOLOv4在YOLOv3上各个部分做改进,在保证速度的同时,大幅提高了模型的检测精度,并降低硬件使用的要求.

由上图可以看出:

YOLOv4在MS COCO数据集上获得了43.5%的AP值(65.7% AP50).
YOLOv4在与EfficientDet同等性能的情况下,速度是EfficientDet的两倍;
与YOLOv3相比,YOLOv4的AP和FPS分别提高了10%和12%.

该研究的主要贡献如下:

建立了一个强大高效的目标检测模型,并且使用1080TI或2080TI的GPU就可以进行训练
验证了SOTA的Bag-of-Freebies和Bag-of-Specials目标检测方法在检测器训练过程中的影响
改进了一些tricks,SOTA的方法,包括CBN,PAN,SAM等,使之更加高效,并你能够在单个GPU上训练

Tricks

Tricks一般指在网络训练和测试时所采用的技巧,在作者论文里将tricks分为两大类:Bag-of-Freebies 和 Bag-of-Specials.

Bag-of-Freebies是指在网络训练时所用到的技巧,不影响推理预测的时间,主要包括以下几个方面:

数据增强: Random erase, CutOut,Hide-and-seek,Grid mask,GAN, MixUp,CutMix
正则化方法: DropOut,DropConnect
处理数据不平衡问题: focal loss, Online hard example mining, hard negative example mining
处理预测框回归问题: MSE,IOU,GIOU,DIOU/CIOU

Bag-of-specials是指在网络设计或处理时所用到的技巧,轻微增加推理预测时间,但可以提升较大的精度,主要包括:

感受野: SPP,ASPP,RFB
特征融合: FPN,PAN
注意力机制: attention module
激活函数: Swish, Mish
NMS: Soft-NMS,DIou NMS

网络结构

目标检测一般由以下几个部分组成:

Input: 指图片的输入
BackBone: 在ImageNet预训练的主干
Neck:通常用来提取不同层级的特征图
Head: 预测对象类别以及预测框的检测器,通常分为两类Dense Prediction(one stage)以及Sparse Prediction (two stage)

; YOLOv4的模型架构由三部分组成:

BackBone: CSPDarknet53
Neck: SPP + PAN
HEAD: YOLO HEAD

下面分别针对三个部分进行详细展开阐述.

BackBone–CSPDarknet53

为了使网络能够快速操作并并行化优化,作者提供了两种神经网络主干

对于GPU,在卷积层中使用少量组(1-8group)的卷积,并将ResNeXt50,Darknet53分别与Cross Stage Partial Network(CSPNet)结合,组成了CSPResNeXt50和CSPDarknet53

由下表的实验证明CSPResNeXt50适合用于分类网络,而CSPDarknet53更适合用于检测网络,因此作者最后选择使用CSPDarknet53作为特征提取的主干

对于VPU,则使用了分组卷积(grouped-convolution),但不再使用Squeeze-and-excitement(SE)块,主要包括以下模型: EfficientNet-lite/MixNet/GhostNet/MobileNetV3

Cross Stage Partial Network (CSPNet)

在目标检测任务中通常是运行在小型设备上,因此需要计算量较低的模型,以缩短推理预测时间.CSPNet论文的作者认为预测计算量高的问题是由于网络优化中梯度信息重复导致,因此提出了跨阶段局部网络(CSPNet).

CSPNet的主要目的是使网络架构能够实现获取更丰富的梯度融合信息并降低计算量,作法是先将Base Layer的特征图划分为两个部分,然后在经过transition->concatenation->transition将两个部分融合起来.

上图中的Transition layer代表过度层,主要包含1X1卷积层以及pooling层.

上述作法使得CSPNet解决了三个问题:

增加CNN的学习能力,即便将模型轻量化,也能够保持准确性
去掉计算量较高的计算瓶颈结构
降低内存占用

上图为CSPNet结合不同的backbone后的结果,由上图中可以看出:

在ImageNet分类的准确率保持不变或是稍微提升一些,但是计算量却大幅下降.
在MS COCO检测的结果,CSPNet的AP50明显高于其他方法,并且在相同精度时,FPS要快很多.

; Neck–SPP+PAN

Neck部分的主要作用在于能够扩大感受野以及融合不同尺度特征图的信息(更好的进行特征融合)

SPP(Spatial Pyramid Pooling): 在网络的最后一层concat所有特征图,后面能够继续接CNN模块

下图a为YOLOv2的网络结构,将最后一层摊平后接上全链接层；图b则为使用SPP架构,将最后一层的特征图concat起来.

PANet(Path Aggregation Network): 以FPN为基础进行改进,将串起来的层数再多加一层

另外还有将原本相加的部分修改为合并(concat),效果会比相加来的好,但是缺点就是通道数变多,计算量会变大.

HEAD–YOLO HEAD

YOLOv4的Head和YOLOv3的head部分一样,这里不再累述.

BOF and BOS

Bag-of-Freebies是指在网络训练时所用到的技巧,不影响推理预测的时间
Bag-of-Specials是指在网络设计或处理时所用到的技巧,轻微增加推理预测时间,但可以提升较大的精度

在对BOF和BOS进行详细展开之前,我们先来看一下YOLOv4所采用的完整方法有哪些:

接着我们对其中的每一项分别进行展开说明.

; BoF for Backbone

CutMix

CutMix是2019年提出的数据增强的方式,

其核心思想是将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值,分类结果按一定的比例分配.

从下图中可以看出CutMix的Image以及Label是由两张不同的照片组合而成的,此外,数据增强还有另外两个方式: Mixup以及Cutout

Mixup: 将随机的两张样本按比例混合,分类的结果按比例分配
Cutout: 随机的将样本中的部分区域Cut掉,并且填充0像素值,分类的结果不变

; Mosaic data augmentation

Mosaic 是作者新创的数据增强方法,采用随机缩放,裁剪的方式混合拼接4中图像进行训练,可以说是CutMix的加强版.

采用这种方法可以丰富检测数据集,并且因为随机缩放增加了很多小目标,让模型的稳健性更好.此外,作者考虑到可能需要只使用单个GPU的计算也能达到好的效果,因此使用Mosaic训练时,可以直接计算4张图片的数据,使得Mini-batch的大小不需要很大.

DropBlock regularizaton

DropBlock与Dropout功能类似,也是避免overfitting的一种正则化方法,于2018年提出.

上图中,图b是使用Dropout的方法,会随机删除神经元的数量,但网络仍然可以从相邻的激活单元中学习到相同信息.

图c是使用DropBlock的方法,随机将整个局部区域进行删减,网络就会去注重学习某些特征以实现正确分类而得到更好的泛化效果.

; Class Label smoothing

Label Smoothing 是图像分类经常会用到的一种正则化方法.

在分类任务中,通常会将输出用softmax进行归一化处理,再使用one-hot label去计算cross-entropy function来训练模型.但是使用one-hot向量表示容易导致网络overfitting的问题,因此Label Smoothing就是将one-hot label 变得更加soft, 使得计算loss时可以有效抑制overfitting的现象,提高模型的泛化能力.

具体做法如下图所示,降低正确类别的权重,另一方面提高错误类别的权重.

y k L S = y k ( 1 − α ) + α K y_k^{LS}=y_k(1-\alpha)+\frac{\alpha}{K}y k L S =y k (1 −α)+K α
其中,K为类别数,为超参,在为正确类别时为1,错误类别时为0

BoS for Backbone

Mish activation

Mish是连续可微的非单调激活函数,跟ReLU相比,Mish的梯度更加平滑,并且在负值时允许有较小的负梯度,可以稳定网络的梯度流,具有更好的泛化能力.

公式定义如下:
f ( x ) = x tanh ⁡ ( ln ⁡ ( 1 + e x ) ) f(x)=x\tanh(\ln(1+e^x))f (x )=x tanh (ln (1 +e x ))

YOLOv4作者使用CSPDarknet53网络在ImageNet数据集上做图像分类任务,发现使用了Mish激活函数的TOP-1和TOP-5的精度比没有使用时都略高一些.

因为YOLOv4的Backbone中都使用了Mish激活函数,而后面的网络层则还是使用leaky relu函数.

; Multiinput weighted residual connections (MiWRC)

YOLOv4参考了EfficientDet的架构以及方式,使用了多输入加权的残差链接(MiWRC)作为backbone的BOS.

EfficientDet的backbone使用EfficientNet, Neck为BiFPN

由下图可以看出EfficientNet-B0的架构通过多个MBConv Block构成,MBConv Block就是指MobileNet V2的Inverted Residual Block.

MBConv的主要架构如下右图所示,其设计是先升维再降维,与residual block先降维在升维的操作不同,而这样的设计可以让MobileNet v2能够更好的利用残差连接以提升准确率.

BiFPN是由PANet进行进化,删除贡献程度小的节点,并提出跨尺度融合的优化方法,在输入与输出结点中间加入connection.

MiWRC的思想源自于BiFPN,在FPN中每一层取得的feature都视为平等的,而MiWRC则认为不同层的feature理应有不同的重要性,需针对不同尺度的特征给予不同的权重比例.

BoF for detector

CIOU-Loss

在介绍CIOU-loss之前,先说明IOU loss的缺点以及各个IOU loss的演进过程, 框回归loss进化过程如下:

Smooth L1 Loss -> IOU Loss(2016) -> GIOU Loss(2019) -> DIOU Loss(2020) -> CIoU Loss(2020)

接下来对上述loss进行展开说明.

IOU Loss

使用IOU Loss会有两个问题:

当预测框和目标框不相交时,IOU为0,无法反映两个框之间的远近,此时损失函数不可导,也就是说无法计算梯度,因此无法优化两个框不相交的情况
IOU无法反映预测框与目标框的重合大小,如下图所示,这三种情况拥有相同的IOU值,但是重合度不同

之后的GIoU,DIoU,CIoU都是基于IOU loss增加一个惩罚项:
L I O U = 1 − I O U L = 1 − I O U + R ( B , B g t ) L_{IOU}=1-IOU \L=1-IOU+R(B,B^{gt})L I O U =1 −I O U L =1 −I O U +R (B ,B g t )

; GIOU Loss (Generalized IOU Loss)

GIOU 为了解决预测框与目标框不重叠的问题,因此在IOU loss的基础上增加一个惩罚项,比IOU 更能反映两个框的接近程度.

由上图可以看到C为目标框Ground Truth与预测框Predict的最小包围框

由上图可以得知,当两个框距离越远,GIOU loss越大,因此GIOU 相比IOU更能反映两个框的接近程度.

虽然GIOU解决了IOU的梯度问题,但是仍存在一些缺点…

在训练过程中,GIOU会倾向于先增大predict bounding box的大小,使它能够与gt有所重叠,如此一来才能计算IOU loss.这个操作会导致消耗大量的时间,影响模型收敛速度.
由下图可以看到predict bounding box的变化过程,绿色框为目标框的gt,黑色框为anchor box,蓝色框为预测框predict bounding box.

若预测框刚好在目标框内部时,此时GIOU loss 与 IOU loss的值一样,无法区分相对位置,如下图所示:

当两个框平行或者垂直时,会导致GIOU loss的值一样

DIOU Loss (Distance IOU Loss)

基于IOU与GIOU存在的问题,作者提出了两个问题:

直接最小化预测框与目标框之间归一化距离是否可行,以达到更快的收敛速度
如何在预测框与目标框有重叠时,回归地更准确

DIOU考虑了重叠面积与中心点的距离,增加了一个惩罚项用于最小化两个框的中心点距离
L D I O U = 1 − I O U + ρ 2 ( b , b g t ) c 2 b , b g t 分别表示 B , B g t 的中心点 , ρ 是欧式距离 , c 是最小距离包围两个框的对角线长度 L_{DIOU}=1-IOU+\frac{\rho^2(b,b^{gt})}{c^2}\b,b^{gt}分别表示B,B^{gt}的中心点,\\rho是欧式距离,\c是最小距离包围两个框的对角线长度L D I O U =1 −I O U +c 2 ρ2 (b ,b g t )b ,b g t 分别表示B ,B g t 的中心点,ρ是欧式距离,c 是最小距离包围两个框的对角线长度

DIOU loss的优点为:

DIOU 能够直接优化两个框之间的距离,而GIOU趋向减少最小包围框的面积,因此比GIOU loss收敛速度更快.如下图所示:

当预测框在目标框内部时,GIOU loss 与IOU loss的值相同,此时GIOU退化成IOU而无法区分其相对位置,DIOU可以更好地优化此类问题.如下所示:

可以将DIOU替换IOU用于计算NMS算法中,即论文中提出的DIOU-NMS

; CIOU Loss (Complete IOU Loss)

一个好的目标框损失损失函数应考虑三个因素:重叠面积,中心点距离,长宽比,DIOU loss考虑了重叠面积与中心点距离,但没有考虑长宽比,因此作者提出了CIOU loss将三个因素都考虑到,并且模型的收敛精度更高.

CIOU在DIOU的基础上多增加了一个惩罚项,考虑了长宽比的因素.公式如下:
L C I O U = 1 − I O U + ρ 2 ( b , b g t ) c 2 + α ν , ν = 4 π 2 ( a r c t a n w g t h g t − a r c t a n w h ) 2 , α = ν ( 1 − I O U ) + ν b , b g t 分别表示 B , B g t 的中心点 , ρ 是欧式距离 , c 是最小距离包围两个框的对角线长度 , α 是权重函数 , 依据两个框之间的距离来调整 , ν 是衡量长宽比的相似性 L_{CIOU}=1-IOU+\frac{\rho^2(b,b^{gt})}{c^2}+\alpha\nu,\\nu=\frac{4}{\pi^2}(arctan\frac{w^{gt}}{h^{gt}}-arctan\frac{w}{h})^2,\\alpha=\frac{\nu}{(1-IOU)+\nu}\b,b^{gt}分别表示B,B^{gt}的中心点,\\rho是欧式距离,\c是最小距离包围两个框的对角线长度,\\alpha是权重函数,依据两个框之间的距离来调整,\\nu是衡量长宽比的相似性L C I O U =1 −I O U +c 2 ρ2 (b ,b g t )+αν,ν=π2 4 (a r c t a n h g t w g t −a r c t a n h w )2 ,α=(1 −I O U )+ννb ,b g t 分别表示B ,B g t 的中心点,ρ是欧式距离,c 是最小距离包围两个框的对角线长度,α是权重函数,依据两个框之间的距离来调整,ν是衡量长宽比的相似性
CIOU loss的梯度类似于DIOU loss,但是要考虑v的梯度,以下是v的梯度计算公式:
∂ ν ∂ w = 8 π 2 ( a r c t a n w g t h g t − a r c t a n w h ) ∗ h w 2 + h 2 , ∂ ν ∂ h = − 8 π 2 ( a r c t a n w g t h g t − a r c t a n w h ) ∗ h w 2 + h 2 \frac{\partial\nu}{\partial w}=\frac{8}{\pi^2}(arctan\frac{w^{gt}}{h^{gt}}-arctan\frac{w}{h})\frac{h}{w^2+h^2},\\frac{\partial\nu}{\partial h}=-\frac{8}{\pi^2}(arctan\frac{w^{gt}}{h^{gt}}-arctan\frac{w}{h})\frac{h}{w^2+h^2}∂w ∂ν=π2 8 (a r c t a n h g t w g t −a r c t a n h w )∗w 2 +h 2 h ,∂h ∂ν=−π2 8 (a r c t a n h g t w g t −a r c t a n h w )∗w 2 +h 2 h
w 2 + h 2 w^2+h^2 w 2 +h 2在这种情况下通常是一个小值 h h h和w w w在[0,1]范围内,可能产生梯度爆炸. 因此在我们的实现中,为了稳定收敛,简单地去除w 2 + h 2 w^2+h^2 w 2 +h 2 将步长1 w 2 + h 2 \frac{1}{w^2+h^2}w 2 +h 2 1 替换为1,梯度方向仍然与等式一致

CmBN (Cross mini-Batch Normalization)

下图表示三种不同的BN方式:

BN是对当前mini-batch进行归一化,但往往batch size都很小,可能会发生抽样不均匀而导致归一化会有问题,因此有很多对于小batch size的 BN方法.
CBN的想法就是将之前mini-batch一起计算,但不保留太多个mini-btach,做法是对当前及当前3个mini-batch的结果进行归一化
YOLOv4新创的CmBN是基于CBN去做修改,在mini-batch之间不做更新计算,而是在一个batch做完后才去更新网络参数.

; SAT (self-Adversarial Training)

SAT是作者创新的一种数据增强的方法,分成两个阶段完成:

首先,先对训练样本进行前向传播,然后进行反向传播时修改图片像素(不修改网络权重),降低模型检测性能,通过这种方式让神经网络对自身执行对抗式学习,制造出图片没有检测对象的错觉.这一阶段其实就是在在增加样本的训练难度.
第二阶段,就是使用这些修改过的图片对模型进行训练

上述训练方式有助于推广模型和降低模型过拟合问题.

Eliminate grid sensitivity

作者在观测一段物体检测的影片中发现,因为检测物体的中心点多位于接近Grid中心,而导致在Grid边缘时较难检测,但实际状况物体移动的路线是连续的,所以其中心位置应该也是连续的,也就是说物体可能会出现在Grid边缘.

作者认为之所以有 检测物体的中心点多位于接近Grid中心点的问题存在,是因为Sigmoid函数的梯度,由下图可以看到Sigmoid在Grid边缘时倒数接近0,容易发生梯度消失,导致中心点在Grid边缘时很难学习到准确的结果.

Sigmoid

Sigmoid导数

因此作者在Sigmoid函数做了些改变,将Sigmoid乘以一个大于1的值,并且考虑到不同的Grid Size对于边界效应的敏感度,采用 ( 1 + x ) ∗ S i g m o i d − ( 0.5 ∗ x ) (1+x)Sigmoid-(0.5x)(1 +x )∗S i g m o i d −(0 .5 ∗x )

Cosine annelaling 是利用余弦函数来调整学习率,一开始会先缓慢的降低学习率,然后中途在加速下降,最后再次缓慢下降.

Pytorch提供了两个版本的Cosine annealing

torch.optim.lr_scheduler.CosineAnnealingLR (optimizer, T_max, eta_min=0, last_epoch=-1, verbose=False)

optimizere 指优化器
T_max是指最大的迭代次数,表示cos周期的1/4
eta_min是指最小学习率
last_epoch是指最后一个epoch的索引,默认为-1
verbose表示是否要印出更新的消息

公式如下:
η t = η m i n + 1 2 ( η m a x − η m i n ) ( 1 + c o s ( T c u r T m a x π ) ) η t 是指 l e a r n i n g r a t e , η m a x 是指最大 l e a r n i n g r a t e , η m i n 是指最小 l e a r n i n g r a t e , T c u r 是指当前迭代次数 , T m a x 是指最大迭代次数 η_t=η_{min}+\frac{1}{2}(η_{max}−η_{min})(1+cos(\frac{T_{cur}}{T_{max}}π))\η_t是指learning rate,\η_{max}是指最大learning rate,\η_{min}是指最小learning rate,\T_{cur}是指当前迭代次数,\T_{max}是指最大迭代次数ηt =ηm i n +2 1 (ηm a x −ηm i n )(1 +c o s (T m a x T c u r π))ηt 是指l e a r n i n g r a t e ,ηm a x 是指最大l e a r n i n g r a t e ,ηm i n 是指最小l e a r n i n g r a t e ,T c u r 是指当前迭代次数,T m a x 是指最大迭代次数

torch.optim.lr_scheduler.CosineAnnealingWarmRestarts (optimizer, T_0, T_mult=1, eta_min=0, last_epoch=-1, verbose=False)

它与CosinAnnealingLR()参数有两个不一样的地方:

optimizere 指优化器
T_0是指第一次重新启动的迭代次数
T_mult是指一个因子在重新启动后增加T i T_i T i ,默认值:1
eta_min是指最小学习率,默认为0
last_epoch是指最后一个epoch的索引,默认为-1
verbose表示是否要印出更新的消息

公式如下:
η t = η m i n + 1 2 ( η m a x − η m i n ) ( 1 + c o s ( T c u r T i π ) ) η t 是指 l e a r n i n g r a t e , η m a x 是指最大 l e a r n i n g r a t e , η m i n 是指最小 l e a r n i n g r a t e , T c u r 是指重新启动后的迭代次数 , T m a x 是指第 i 轮的迭代次数 η_t=η_{min}+\frac{1}{2}(η_{max}−η_{min})(1+cos(\frac{T_{cur}}{T_i}π))\\η_t是指learning rate,\η_{max}是指最大learning rate,\η_{min}是指最小learning rate,\T_{cur}是指重新启动后的迭代次数,\T_{max}是指第i轮的迭代次数ηt =ηm i n +2 1 (ηm a x −ηm i n )(1 +c o s (T i T c u r π))ηt 是指l e a r n i n g r a t e ,ηm a x 是指最大l e a r n i n g r a t e ,ηm i n 是指最小l e a r n i n g r a t e ,T c u r 是指重新启动后的迭代次数,T m a x 是指第i 轮的迭代次数

; Optimal hyperparameters

使用基因算法Genetic Algorithms来选择超参数.作法是先随机组合超参数去做训练,然后挑选出最好的10%超参数再去随机组合并训练,最后选择最佳的模型.

BoS for detector

SAM-block

SAM源自于论文CBAM(Convolutional Block Attention Module)的论文,提出了两种注意力机制的技巧.

先来介绍一下CBAM,如下图所示,输入一个特征F,先进行Channel attention module后得到权重系数和原来的特征F相乘,然后在进行Spatial attention module后得到权重系数和原来的特征F相乘,最后就可以得到缩放后的新特征.

接着我们来介绍Channel attention module(通道注意力模块),该模块就是将输入的特征F分别进行全局的Maxpooling与Averagepooling,接着将这两个输入到一个权重共享的MLP,再将这两个进行element-wise summation操作后经过Sigmoid函数会得到权重系数Mc,再将这个权重系数与原来的特征F相乘,就可以得到缩放后的新特征.

Spatial attention module(空间注意力模块), 首先对不同的feature map上相同位置的像素值进行全局的Maxpooling与Average pooling,接着将这两个spatial attention map 进行concat, 再利用一个7X7的卷积后经过Sigmoid函数会得到权重系数Ms,在将这个权重系数与原来的特征F相乘,就可以得到缩放后的新特征,如下所示:

YOLOv4将SAM修改为pointwise attention,由下图可以看到它不做Maxpooling 与Average pooling的操作,而是直接接一个7X7的卷积层,如下:

; DIOU-NMS

在经典的NMS中,置信度最高的检测框和其他检测框会逐一算出对应的IOU值,并将值超过阈值的检测框过滤掉.但是在实际情况下,当两个不同的物体靠的很近时,由于IOU值比较大,在经过NMS算法后,往往只剩下一个检测框,这样容易导致有漏检的状况发生.

DIOU-NMS不仅考虑IOU的值,还考虑两个框的中心点的距离.如果两个框之间的IOU比较大,但是他们中心点之间的距离比较远,则会被认为是不同物体的检测框而不会被过滤掉.

以下是DIOU-NMS的公式:
s i = { s i , I O U − R D I O U ( M , B i ) < ε 0 , I O U − R D I O U ( M , B i ) ≥ ε , s i 为分类置信度 , ε 为 N M S t h r e s h o l d , M 为最高置信度的检测框 s_i=\begin{cases} s_i, IOU-R_{DIOU}(M, B_i)
解释:

得分最高的预测框M和其他框的DIOU值比IOU值大时, 的置信度仍可以保持;反之,就将的置信度设置为0

Original: https://blog.csdn.net/weixin_51296032/article/details/123025966
Author: victor-gx
Title: 目标检测算法(YOLOv4)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682239/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

（项目笔记）opencv人脸识别

Haar级联： Haar特征：边缘特征，线性特征，中心环绕特征，对角线特征这些特征组合为特征模板，特征模板里有白色和黑色矩形，模板特征即为白色矩形像素和减去黑色矩形像素和。 Ha…

人工智能 2023年6月18日
0063
线性回归笔记

线性回归：通过模型进行训练，拟合出线性的曲线作为预测举例：通过房屋面积预测房子价格首先，我们需要通过一个线性函数去拟合线性函数，公式如下所示，其中为拟合的线性曲线中的系数，x…

人工智能 2023年6月18日
0078
【tensorflow2.6】图片数据建模流程：猫狗分类，83.6%识别率

目标：识别猫和狗文章目录 * – 一、猫狗数据集 – 二、训练环境 – 三、数据处理 – 四、建立模型 – 五、图像处…

人工智能 2023年5月25日
0071
逻辑回归(Logistic Regression)

逻辑回归逻辑回归是一种预测分析，解释因变量与一个或者多个自变量之间的关系，与线性回归不同之处在于它的目标变量有几种类别，所以逻辑回归主要用于解决回归问题。逻辑回归实际上是一个概率…

人工智能 2023年6月25日
0069
Python数据分析详解

Python数据分析详解 python在数据分析方面有哪些优势数据分析的流程是什么？ Excel格式 import pandas as pd data = pd.read_exc…

人工智能 2023年7月8日
0060
设计模式学习（二十四）：Spring 中使用到的设计模式

设计模式学习（二十四）：Spring 中使用到的设计模式作者：Grey 原文地址：博客园：设计模式学习（二十四）：Spring 中使用到的设计模式 CSDN：设计模式学习（二十…

人工智能 2023年6月29日
0061
python实现非正态分布转正态分布（BoxCox转换）

功能：将一维非正态分布数据转化为正态分布输入：xlsx文件含有”患者密度（人/10万人）”一列输出：将”患者密度（人/10万人）&#8221…

人工智能 2023年7月15日
0075
多元线性回归算法预测房价

目录一、前言（一）多元线性回归模型（二）表达式和计算模型二、EXCEL求解回归方程三、用机器学习库Sklearn库重做上面的多元线性回归。四、参考文章一、前言（一）…

人工智能 2023年6月17日
00102
操作系统学习笔记9 | 内存的换入和换出

分段和分页是内存管理的最重要的两个机制，而虚拟内存是实现分段和分页结合的重要方法。为了实现虚拟内存，就必须要有换入和换出机制。参考资料： 1. 为什么要引入换入和换出虚拟内存…

人工智能 2023年6月4日
0073
[MySQL]事务ACID详解

目录 1. 事务的概念 2. 事务的特性 3.事务控制语法 4. 事务并发异常 5. 事务隔离级别事务的概念事务指逻辑上的一组操作, 组成这组操作的各个单元, 除非全部正确执行…

人工智能 2023年7月31日
0065
常用激活函数的优缺点

非线性激活函数是深度学习网络重要的组成部分，随着近几年的快速发展，越来越多的激活函数被提出与改进。选择一个合适的激活函数将决定了模型的最终结果。下文总结了13种常见的激活函数的计算…

人工智能 2023年7月14日
0051
Pandas知识点-连接操作concat

Pandas知识点-连接操作concat Pandas提供了多种将Series、DataFrame对象合并的功能，有concat(), merge(), append(), joi…

人工智能 2023年7月7日
0087
【语音识别】玩转语音识别 2 知识补充

【语音识别】⚠️玩转语音识别 2⚠️ 知识补充概述 RNN 计算 RNN 存在的问题 LSTM GRU Seq2seq Attention 模型 Teacher Forcing …

人工智能 2023年5月25日
0067
目标检测-分水岭分割与阈值分割对比

1.1 对阴影的处理基于阈值的分割，是在以某个阈值T，对图像进行分割。分割时由于拍摄时图像阴影处导致分割不理想，结果虽然达到理想预期。但是二值化后的结果以阴影部分外围与图像融合，…

人工智能 2023年7月10日
0057
Python笔记-DataFrame长宽数据的转换

宽数据转长数据，使用melt方法 df.melt(id_vars=None, value_vars=None, var_name=None, value_name=’v…

人工智能 2023年7月7日
00148
【代码实践】使用CLIP做一些多模态的事情

CLIP到底有多强，让我们来试试吧！ CLIP模型及代码地址：GitHub – openai/CLIP: Contrastive Language-Image Pret…

人工智能 2023年7月4日
0069

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

目标检测算法(YOLOv4)

; 主要贡献

Tricks

网络结构

; YOLOv4的模型架构由三部分组成:

BackBone–CSPDarknet53

; Neck–SPP+PAN

HEAD–YOLO HEAD

BOF and BOS

; BoF for Backbone

CutMix

; Mosaic data augmentation

DropBlock regularizaton

; Class Label smoothing

BoS for Backbone

Mish activation

; Multiinput weighted residual connections (MiWRC)

BoF for detector

CIOU-Loss

IOU Loss

; GIOU Loss (Generalized IOU Loss)

DIOU Loss (Distance IOU Loss)

; CIOU Loss (Complete IOU Loss)

CmBN (Cross mini-Batch Normalization)

; SAT (self-Adversarial Training)

Eliminate grid sensitivity

; Optimal hyperparameters

BoS for detector

SAM-block

; DIOU-NMS

大家都在看