【Object Detection史上最详细YOLOv1-v5详解】YOLO：You Only Look Once

2023年7月12日下午2:01 • 人工智能 • 阅读 68

系列文章目录

文章目录

系列文章目录
Introduction
Unified Detection

Introduction

【Object Detection史上最详细YOLOv1-v5详解】YOLO：You Only Look Once

在现有的目标检测方法出现之前，人们还是用极为朴素的思想来实现检测：比如将分类模型和不同尺寸的滑动窗口相结合（deformable parts models，DPM）。R-CNN将滑动窗口改进为了先验框，模型先生成一些潜在的候选框，接着对这些候选框做分类，最后对其进行后处理以减少重复检测。由于分为了两阶段，这些模型不仅耗时，且需要分开单独训练而难以优化。

YOLO将目标检测视作回归问题，使用卷积网络直接从图像像素预测包围盒（bounding box）及其类别，由于它是一个单一的网络（single network），因此可以端到端训练。它有一下优点：

YOLO很快，可以达到实时的处理速度。
YOLO使用图像的全局信息进行推理，它可以隐式地编码关于类别及其外观的上下文信息。
YOLO学习物体的泛化表示，它对全新的输入也有一定的泛化能力。

; Unified Detection

YOLO将图像分成S ∗ S S*S S ∗S的网格，如果某个物体的中心落到了网格里，那么这个网格就用来检测该物体。

每个网格被设置为可以预测B B B个包围框( x , y , w , h ) (x,y,w,h)(x ,y ,w ,h )，其中( x , y ) (x,y)(x ,y )是中心点坐标，数值为网格单元位置的偏移量；( w , h ) (w,h)(w ,h )是框的尺寸，用图像的尺寸进行归一化，这样( x , y , w , h ) (x,y,w,h)(x ,y ,w ,h )都是[ 0 , 1 ] [0,1][0 ,1 ]之间的数，并为包围框的置信度打分：P r ( O b j e c t ) ∗ I O U p r e d t r u t h Pr(Object)*IOU_{pred}^{truth}P r (O bj ec t )∗I O U p re d t r u t h ，以衡量包围框内是否有物体以及包围框的准确度。如果框内没有物体，则置信度为0 0 0，否则置信度等于预测框与真实框之间的I O U IOU I O U。网格同时还要预测C C C个条件类别概率P r ( C l a s s i ∣ O b j e c t ) Pr(Class_i|Object)P r (Cl a s s i ∣O bj ec t )，尽管之前提到网格可以预测B B B个包围框，但它只能预测出一个类别结果。

这些置信度打分和条件类别概率不是随便设计的，数学上，如果把这两个相乘：
P r ( C l a s s i ∣ O b j e c t ) ∗ P r ( O b j e c t ) ∗ I O U p r e d t r u t h = P r ( C l a s s i ) ∗ I O U p r e d t r u t h Pr(Class_i|Object)Pr(Object)IOU_{pred}^{truth}=Pr(Class_i)IOU_{pred}^{truth}P r (Cl a s s i ∣O bj ec t )∗P r (O bj ec t )∗I O U p re d t r u t h =P r (Cl a s s i )∗I O U p re d t r u t h 就得到了每个包围盒中特定类别的置信度打分，这个分数包含了框中出现物体的类别概率和预测框的好坏信息，理论上，这也就是我们完成检测所需要的全部信息。通过卷积神经网络经过一个全连接层，我们便得到了S ∗ S ∗ ( B ∗ 5 + C ) SS(B5+C)S ∗S ∗(B ∗5 +C )维度的向量，对应了所有网格及其两种数值的输出。

网络架构参考了G o o g L e N e t GoogLeNet G oo gL e N e t实现，在训练和推断时使用了D a r k n e t Darknet D a r kn e t框架，包含24 24 24个卷积层和2 2 2个全连接层。在I m a g e N e t ImageNet I ma g e N e t分类任务的224 ∗ 224 224*224 224 ∗224图像上预训练前20 20 20个卷积层，并将分辨率加倍后加上额外的4 4 4个卷积层和2 2 2个全连接层用于检测。

使用简单的平方和误差来优化模型参数，尽管这和MAP的目标并不十分一致，因为它将定位误差和分类误差同等对待。当网格内没有物体时，置信度打分为0 0 0，会产生比正常网格还要大的梯度，这种模型的不稳定性可能导致训练初期的发散。除此之外，平方和误差对大型框和小型框也一视同仁，但小型框的错误无疑比大型框的更加关键。为了解决这些问题，首先通过加权，增加包围盒坐标预测的损失，减少不包含对象的包围盒的置信度预测的损失；其次通过预测包围盒尺寸的平方根来减轻小型框的问题。

对于较大的物体而言，它可能占据了多个网格，非极大值抑制可以用来减少这样的检测错误。

尽管如此，YOLO还是有很多的局限性：由于模型设计上的限制，网格中物体数量是有上限的，这意味着成群出现的小物体可能不会全部检测出来。由于大型包围框和小型包围框在误差上的不等，小型框的小错误也会造成很大影响。YOLO出错的主要来源在于定位的不准确。

Original: https://blog.csdn.net/weixin_44898140/article/details/127097203
Author: 容嬷嬷当年一枝花
Title: 【Object Detection史上最详细YOLOv1-v5详解】YOLO：You Only Look Once

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/687782/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

解决numpy.core._exceptions.MemoryError: Unable to allocate 1.04 MiB for an array

报错 numpy.core._exceptions.MemoryError: Unable to allocate 1.04 MiB for an array with shape…

人工智能 2023年6月12日
0069
matlab余弦距离计算相似度

主要思路如下： ①输入三张图片 ②灰度化 ③归一化 ④获得三个直方图分布 ⑤每张图片分成64个区，三张图片得到三个向量 ⑤三个向量，两两之间计算余弦相似度结果：（图1）图1自…

人工智能 2023年5月28日
00121
【Java应用程序开发】【期末复习题】【2022秋】【答案近期更新完成】

文章目录零、考试说明一、单选题（175-2-2题，1’）二、多选题（16题，2’）三、判断题（20题，1’）四、简答题（18题，5&#…

人工智能 2023年7月30日
0070
【PyTorch】安装支持cuda的pytorch-1.10.2

【PyTorch】安装支持cuda的pytorch-1.10.2 1、背景 2、安装支持cuda的pytorch 1.10.2 3、验证pytorch是否可用cuda 4、使用wh…

人工智能 2023年7月22日
0046
学习笔记ing

动手深度学习tensorflow Liner Regression * 1.线性回归的基本要素 2.线性模型 3.损失函数 – 解析解 4.随机梯度下降（SGD) &#…

人工智能 2023年5月26日
0053
数字图像与机器视觉基础补充(2)

@TOC 一、将彩色图像文件转换为灰度文件使用Opencv 1.使用Opencv import cv2 as cv img = cv.imread(‘D:\car.BMP’,1) …

人工智能 2023年6月22日
00107
【 YOLO系列v1-v5 原理+代码解读+项目实践】

【 YOLO系列v1-v5 原理+代码解读+项目实践】文前白话 * 深度学习目标检测基础知识原理解析 – YOLO-V1 YOLO-V2 YOLO-V2增加的细节 …

人工智能 2023年7月11日
0060
3D视觉——2.人体姿态估计(Pose Estimation)入门——OpenPose含安装、编译、使用（单帧、实时视频）

上一话 3D视觉——1.人体姿态估计(Pose Estimation)入门——使用MediaPipe含单帧(Signel Frame)与实时视频(Real-Time Video)h…

人工智能 2023年6月24日
00114
反向传播算法是如何计算神经网络中的误差梯度的

问题介绍在神经网络中，反向传播算法是一种用于训练模型的常用方法。它通过计算神经网络中的误差梯度来更新模型的权重，从而实现模型的优化。本文将详细介绍反向传播算法的原理、公式推导、计…

人工智能 2024年1月5日
0048
常见的几种池化操作：MaxPool2d/AdaptiveMaxPool2d/AvgPool2d/AdaptiveAvgPool2d…（Pytorch）

池化操作零、池化操作一、MaxPool：最大池化 * 1）MaxPool1d – （1）调用方式（2）参数解析：一般我们只需要设置kernel_size和stri…

人工智能 2023年7月6日
0086
【嵌入式开发系统04】Unbuntu下图像处理开源软件库 Opencv3.4.11的安装、编译及应用初步

本文目的是主要介绍了怎样安装opencv，如何用opencv编译程序打开一个图片或者摄像头等，并为之后的人脸识别系统打了基础。文章目录（一）什么是Opencv？（二）Open…

人工智能 2023年6月22日
0089
语音识别入门第六节：基于DNN-HMM的语音识别系统

DNN-HMM语音识别系统将GMM-HMM过度到DNN-HMM时，只需简单的将GMM替换为DNN即可。但是在GMM-HMM可以进行冷启动，即先给一个初始的对齐，在初始的对齐上，使…

人工智能 2023年5月25日
0080
python之pil的使用

一：PIL功能介绍与安装 PIL，全称Python Image Library，主要作用是图像处理，可用于图片剪切、粘贴、缩放、镜像、水印、颜色块、滤镜、图像格式转换、色场空间转换…

人工智能 2023年6月20日
0086
内部和外部聚类算法评价指标

目录 1.内部评价指标 * 1.1 Silhouette Coefficient（轮廓系数） – sihoueette_score 参数介绍 silhouette_sa…

人工智能 2023年5月31日
0075
k-均值聚类算法

1聚类 1.1聚类定义聚类是把数据对象集合按照相似性划分为多个子集的过程。每个子集是一个簇(cluster)，使得簇中的对象彼此相似，但与其他簇中的对象不相似。聚类是无监督学习，…

人工智能 2023年5月31日
0075
python数据分析基础008 -利用pandas带你玩转excel表格（中下篇）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月14日
0052

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【Object Detection史上最详细YOLOv1-v5详解】YOLO：You Only Look Once

文章目录

大家都在看