目标检测 /yolo算法原理的详解

2023年7月12日上午1:22 • 人工智能 • 阅读 118

前言

目标检测

目标检测目前有两类流行算法:一类是基于Region Proposal的R-cnn系列（比如r-cnn,fast r-cnn,faster r-cnn）,他们是属于two stage的，需要先使用Selective search 或者cnn网络（RPN）来产生Region proposal,然后再对Region proposal上做分类和回归。 另一类就是yolo，ssd系列的one stage算法，它仅仅使用一个cnn来直接预测不同目标的类别和位置；第一类方法精确度要高一些，但速度比较慢，第二类方法精确度相比第一类要低一些，但速度比较快。本文主要讲述YOLO v1算法的原理。

一. yolo v1算法原理

从整体上看，yolo是通过一个cnn网络模型来实现end-to-end的目标检测，整个流程如下图所示：

YOLO的检测过程

该过程整体上首先是将输入的图像resize成448*448的大小，然后送入cnn中，运行该cnn网络,接着采用非极大值抑制的方法进行筛选，最后处理网络预测结果得到检测的目标。

接下来详细的分析整个过程，首先对输入的图像resize成448448的大小送入到cnn模型中，yolo中的cnn模型是将输入的图像分割成SS大小的网格，然后对每一个单元格都会预测B个边界框（bounding boxes），每个边界框都包含5个预测值：x,y,w,h 和confidence（置信度），其中x,y就是预测边界框的中心坐标，中心坐标（x，y）的预测值是相对于该单元格左上角坐标点的偏移值，并且单位是相对于单元格大小的，与单元格对齐（即相对于当前grid cell的偏移值），使得范围变成0到1，单元格的坐标定义如图1所示；而边界框的w和h的预测值是相对于整个图片的宽和高的比例（即w和h进行归一化，分别除以图像的w和h，这样最后的w和h就在0到1范围了）。另外每一个单元格（grid cell）都有C个类别的概率预测值，其表示的是由该单元格负责预测的边界框，在包含目标条件下属于各个类别的概率。但是这些概率值其实是在各个边界框置信度下的条件概率，即p(classi | object).

图1

所谓 置信度其实就是这个边界框含有目标的可能性大小与这个边界框的准确度的乘积。前者记为Pr(object),当边界框的为背景时（没有目标），Pr(object)=0,当边界框包含目标时，Pr(object)=1,

后者记为边界框的准确度可以用预测框与实际框（ground truth）的IOU（intersection over union，交并比）来表示，记为

， 因此置信度为

前面已经有 每一个单元格（grid cell）的C个类别的概率预测值Pr(class i | object)，我们可以计算 每个边界框的类别置信度：

边界框类别置信度反映的是该边界框中目标属于各个类别的可能性大小以及边界框匹配目标的好坏

每个边界框的类别置信度的过程图如下：这里把图片分割成了77的网格，每个单元格有2个预测边框，一共有20个类别，则整张图片共有772个边框，每个边框的类别置信度为201

图2

即得到每个边界框属于20类的confidence score。也就是说最后会得到20（772）=2098的置信度矩阵。

二.网络模型

网络上采用的是 GoogLeNet，24个卷积层+2个全连接层，卷积层主要用来提取特征，全连接层主要用来预测类别概率和坐标。输入的是448448，最后的输出是7730，这个30是20+25，20代表类别数量，2代表每一个单元格有2个边界框，5代表（x,y,w,h,c）,具体含义前面讲过，7*7是单元格的数量。模型如下图3

图3

PS：这里有三点需要注意

①原文YOLO模型未使用inception module，而是使用1×1卷积层（此处1×1卷积层的存在是为了跨通道信息整合）+3×3卷积层简单替代

②原文YOLO作者先在ImageNet数据集上预训练网络，而且网络只采用fig3的前面20个卷积层，输入是224224大小的图像。然后在检测的时候再加上随机初始化的4个卷积层和2个全连接层，同时输入改为更高分辨率的448448。

③Relu层改为pRelu，即当x

三.损失函数

YOLO算法是将目标检测看出一个回归问题，所以将均方差作为损失函数，损失函数分为定位误差部分和分类误差部分，对于不同部分他们的比重值 λ；对于定位误差，即边界框中心坐标误差以及边界框的宽高误差，均采用的比重是λcoord=5， 而对于不含目标的边界框的置信度误差所采用的比重是λnoobj=0.5, 含有目标的边框的置信度误差的比重λ=1， 每个单元格的分类误差的比重λ=1， 所以采用均方误差

对于相等的误差值，大物体误差对检测的影响应小于小物体误差对检测的影响。这是因为，相等的位置偏差占大物体的比例远小于同等偏差占小物体的比例，比如原来大物体w=10，h=20，预测出来w=8，h=22，跟原来小物体w=3，h=5，预测出来w1，h=7相比，经过计算两个物体损失影响是一样的，实际上大物体的误差对检测的影响要比小物体小，所以YOLO将物体大小的信息项（w和h）进行求平方根来改进这个问题，即预测值变为了（x，y, w， h）

另外由于每一个单元格有多个边界框，但是每一个单元格其对应类别只有一个， 如果在训练时，多个边界框存在目标，那就只选择与真实边框（ground truth）的IOU最大的那个边界框来负责预测该目标，而其它边界框认为不存在目标。这样设置的结果使每一个单元格只对应一个边框，一个类别。大家可能会想如果一个单元格内存在多个目标怎么办，其实这时候Yolo算法就只能选择其中一个来训练，这也是Yolo算法的缺点之一。要注意的一点时，对于不存在对应目标的边界框，其误差项就是只有置信度，坐标项误差是没法计算的。而只有当一个单元格内确实存在目标时，才计算分类误差项，否则该项也是无法计算的。
综上所述，损失函数如下：

第一行的式子表示边界框中心坐标的误差，第二行式子表示边界框的宽高误差，第三行式子表示含有目标的边界框的置信度误差，第四项式子表示不含有目标的边界框的置信度误差，第五行式子表示含有目标的单元格的类别误差；这里注意置信度Ci的值，如果不存在目标，则Pr(object)=0,那么置信度Ci=0,如果存在目标，则Pr(object)=1，需要确定

值，才能得到置信度Ci的值；为了方便计算，你可以将Ci置为1；

四.网络训练

前面已经讲过YOLO的cnn模型（GoogleNet）,在训练之前，先在ImageNet上进行了预训练，其预训练的分类模型采用之前图中前20个卷积层，然后添加一个average-pool层和全连接层。预训练之后，在预训练得到的20层卷积层之上加上随机初始化的4个卷积层和2个全连接层。由于检测任务一般需要更高清的图片，所以将网络的输入从224×224增加到了448×448。整个网络的流程如下图所示：

一张图片经过该模型的处理后得到一个7730的张量，刚好是我们需要的所有数据信息，这个30是20+25，20代表类别数量，2代表每一个单元格有2个边界框，5代表（x,y,w,h,c）,具体含义前面讲过，77是单元格的数量。我们可以将其划分为三个部分：①类别概率部分，[7,7,20]，②边界框置信度部分，[7,7,2]，③边界框部分，[7,7,2,4]，类别概率部分边界框置信度部分=边界框类别置信度（矩阵[7,7,2]乘以[7,7,20],为了方便计算，我们可以先将它们各补一个维度来完成[7,7,2,1]×[7,7,1,20]），两者相乘可以得到边界框类别置信度[7,7,2,20],这里总共有77*2=98个边界框，如前面的图二所示，所有的数据信息已经得到，接下来有两种策略得到边界框的类别结果和置信度

第一种策略：对于每个预测框选择类别置信度最大的类别作为该预测框的类别标签，然后通过上一步得到了每个预测框的类别标签以及该类别的置信度，然后设置置信度阈值，将小于该置信度阈值的边框过滤掉，经过这样处理后，剩下的就是置信度比较高的边框，然后对这些预测框进行NMS算法处理，最后留下来的检测结果。

这里提一下非极大值抑制算法（NMS），NMS算法主要解决一个目标被多次检测到的问题，比如人脸识别，如果人脸被多个边界框检测到，这时我们通过nms算法得到的是一个效果最好的检测框；NMS算法原理是首先从所有预测边界框中选择类别置信度最大的边界框，然后计算该边界框与剩余其他边界框进行IOU（交并比），如果其IOU值大于一定阈值（重复度过高），则将该边界框过滤掉，接下来对剩余的边界框重复上述过程，直至处理完所有的边界框。

第二种策略：是原YOLO论文中使用的策略，首先对每个类别使用NMS，然后再确定各个边界框的类别，其过程如下图4所示，其过程是对于772=98个边界框，首先设置一定阈值，然后对每一个边界框的类别置信度与阈值作比较，如果小于该阈值，则将该类别置信度设置为0，接着对所有边界框的置信度从高到低做排序，然后对所有边界框分类别的 （矩阵的每一行）进行NMS，得到一个最佳边界框获得该类别以及其置信度（该过程NMS:针对某一类别，选择类别置信度最大的bounding box，然后计算它和其它bounding box的IOU值，如果IOU大于阈值0.5，说明重复率较大，该置信度设为0，如果IOU不大于阈值0.5，则不改，再选择该行剩下的置信度里面最大的那个bounding box，然后计算该bounding box和其它bounding box的IOU，重复比较阈值过程，直到这一行所有的边界框结束为止；然后进行下一个类别，每一类别重复以上过程直到最后），这里不是剔除其他边界框，最后从每一个边界框中选择最大的类别置信度作为该边界框的类别标签以及置信度，最后筛选出置信度大于0的边界框作为检测的最后结果， 如果小于0，说明这个边界框里面没有物体，跳过即可 。

图4

五.YOLO v1的代码实现

源码：https://e.coding.net/xucancan1/yolov1/YOLOv1.git

效果：

六.YOLO的优缺点

优点：

第一点Yolo采用一个CNN网络来实现检测，是单管道策略，其训练与预测都是end-to-end，所以Yolo算法比较简洁且速度快。

第二点由于Yolo是对整张图片做卷积，所以其在检测目标有更大的视野，它不容易对背景误判。

缺点：

第一点Yolo各个单元格仅仅预测两个边界框，而且属于一个类别，如果一个单元格有两个以上的目标，就只能预测一个，对于小目标物体以及物体比较密集的也检测不好，比如一群小鸟

第二点定位不准确，Yolo对于在物体的宽高比方面泛化率低，就是无法定位不寻常比例的物体。

参考：

https://blog.csdn.net/u014380165/article/details/72616238

https://zhuanlan.zhihu.com/p/32525231

Original: https://blog.csdn.net/hgnuxc_1993/article/details/116945869
Author: 无尽的沉默
Title: 目标检测 /yolo算法原理的详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686670/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

干货！自动驾驶场景下的多目标追踪与实例分割

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！多目标跟踪和分割 (MOTS) 需要将视频中给定的类别的物体进行检测、分类、跟踪和像素级分割。在其重要的应用场景自动…

人工智能 2023年6月2日
0061
使用 python 实现 Logistic 回归

使用 python 实现 Logistic 回归 * – 原理回顾 – + 预测函数 + 代价函数 + 参数更新 – 代码分析 – …

人工智能 2023年6月17日
00108
WPF_某SDK的使用心得_一定要区分32位和64位

1 重新编译SDK，生成32位/64位的库 ① 新建一个项目（类库的项目） ② 关闭 VS ③ 拷贝官方提供的项目文件把刚刚创建项目的默认生成文件删除，除了.sln文件以外右键…

人工智能 2023年6月29日
0056
深度学习论文精读[7]：nnUNet

相较于常规的自然图像，以UNet为代表的编解码网络在医学图像分割中应用更为广泛。常见的各类医学成像方式，包括计算机断层扫描（Computed Tomography, CT）、核磁共…

人工智能 2023年6月23日
0062
基于YOLOV7的桥梁基建裂缝检测

自从YOLO诞生依赖，关于YOLO的各种版本迭代更新就从未停止过，前不久的时候官方也推出了全新一代的YOLOv7模型，在各大主流视觉任务上都取得了很大的进步。官方项目地址在这里，…

人工智能 2023年7月28日
0096
一类Chen混沌系统的混沌吸引子——MATLAB实现

1999年，美国休斯顿大学陈关荣教授发现了一个新的混沌吸引子——C h e n Chen C h e n系统，即陈氏混沌系统，它与L o r e n z Lorenz L o r …

人工智能 2023年6月16日
0067
树莓派视觉小车 — 人脸追踪（人脸识别、PID控制舵机运动）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月17日
0076
yolov5模型压缩之模型剪枝

目前看来，yolo系列是工程上使用最为广泛的检测模型之一。yolov5检测性能优秀，部署便捷，备受广大开发者好评。但是，当模型在前端运行时，对模型尺寸与推理时间要求苛刻，轻量型模型…

人工智能 2023年6月23日
00122
猿创征文｜Python-sklearn机器学习之旅：我的第一个机器学习实战项目

[二、 _征文_内容1、本次 _征文_活动以”仁爱久和·敬业求精”为主题，要求结合工作实际，充分表达我院的精神风貌,表达作为”久和”…

人工智能 2023年7月4日
0070
group convolution (分组卷积)详解

文章目录【普通卷积】【group convolution (分组卷积)】【深度可分离卷积】【普通卷积】上图为普通卷积示意图，为方便理解，图中只有一个卷积核，此时输入输出数…

人工智能 2023年5月26日
0075
在Linux系统下安装Neo4j图数据库

在Linux系统下安装Neo4j图数据库文章目录在Linux系统下安装Neo4j图数据库 1.Java JDK * 1.1 安装 1.2 查看安装路径 2. Neo4j * 2…

人工智能 2023年6月1日
0090
图像基础操作——读取、显示、保存

一幅被定义为二维函数f（x，y）坐标的图像，亮度为任何坐标（x，y）处的振幅。当f的x，y和振幅都是有限且离散的量时，称为数字图像。一、读取图像：imread（’f…

人工智能 2023年7月19日
0061
[论文笔记]Geometrically Constrained Trajectory Optimization for Multicopters

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月28日
0043
逻辑回归算法

1、逻辑回归理论逻辑回归也被称为广义线性回归模型，它与线性回归模型的形式基本上相同，都具有 theta * xb，其中theta是待求参数，其区别在于他们的因变量不同，多重线性回…

人工智能 2023年6月18日
0048
掌握玩家“最大公约数”，趣丸集团以TT语音为矛解码电竞新经济

让游戏保持生命力的最好办法，是把它养成为一门电竞赛事。国内英雄联盟、王者荣耀、Dota 2等游戏的发展历程已经证明了电竞产业的前景。电竞是以用户为基础的，反之，对于游戏行业的核心…

人工智能 2023年5月25日
0080
matlab智能算法之遗传算法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月31日
0052

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

目标检测 /yolo算法原理的详解

大家都在看