【深度学习论文 02-1】YOLOv1论文精读

2023年10月28日上午2:30 • Python • 阅读 50

原论文链接：https://gitee.com/shaoxuxu/DeepLearning_PaperNotes/blob/master/YOLOv1.pdf

笔记版论文链接：https://gitee.com/shaoxuxu/DeepLearning_PaperNotes/blob/master/YOLOv1-PaperNotes.pdf

你只需要看一次：统一的、实时的目标检测

1. 简介

（1）主要作者简介：

Joseph Redmon：YOLOv1、YOLOv2、YOLOv3、DarkNet深度学习框架。

Ross Girshick：人称RGB大神，主要论文有DPM、R-CNN、Fast R-CNN、Faster R-CNN、FPN、Mask R-CNN、RetinaNet、YOLOv1等。

Ali Farhadi：Joseph Redmon在华盛顿大学的导师。

（2）YOLOv1特点：

R-CNN、SPP-Net、Fast R-CNN，Faster R-CNN等都是two-stage目标检测器，即第一阶段生成潜在候选框（Region Proposal）；第二阶段用CNN分类器逐一筛选每个候选框。这类网络虽然准确性较好，但速度太慢，很难达到实时检测（>30FPS）的需求。而YOLO属于 one-stage（单阶段）目标检测器，可以直接 端对端的优化检测性能，通常输入图像只需要经过一次前向预测就可回归得到类别和定位信息，且速度极快，能够很好地实现 实时的目标检测（YOLO实时最准、Fast YOLO实时最快）。

2. 论文思想

2.1 算法流程

（1）将原图划分为S*S网格（grid cell）；

（2）物体的中心点（也即Ground Truth人工标记框的中心点）落到哪个grid cell里，就由该grid cell负责检测这个物体，且检测这个物体的bounding box由该grid cell生成；

（3）每个grid cell预测B个bounding box（每个bounding box由5个参数组成：4个坐标（x, y, w, h）和一个置信度confidence）；

x, y 是bounding box中心点相对于所在grid cell左上角格点的坐标；

w, h 是bounding box相对于整幅图像的宽和高;

bounding box的confidence score定义如下：

Pr(Object)：bounding box是否包含物体，包含为1不包含为0；
IOU：Intersection Over Union，是指bounding box与ground truth的交并比，也就是预测框和真实标记框的交并比。
其乘积就是confidence score的标签值，对于负责预测的bounding box，Pr=1，这个标签值就相当于IOU。
注意上述的步骤是训练阶段，而在预测阶段是直接回归得到confidence，不需要计算Pr和IOU，而是隐式地包含了两者。

（4）B个bounding box中与Ground Truth框的IOU最大的bounding box负责检测这个物体；

（5）每个grid cell预测C个条件类别概率：Pr(Classi|Object) ，C表示目标检测的类别数，Pr(Classi|Object) 表示确认grid cell内有物体的前提下该物体是某类别的概率；

最终每个bounding box分类的confidence就是上述的Pr(Classi|Object)与（3）中bounding box置信度预测的乘积：

上式代表每个bounding box中第i个类别的概率，包含物体的分类精度和定位精度。

（6）训练阶段，就是不断迭代上述步骤，通过监督学习使得损失函数最小化的过程；而预测阶段，输入4484483的图像，只需经过一次神经网络，即可输出7730的张量（包含定位和分类信息）。

2.2 网络结构

该网络模型由24个卷积层+2个全连接层构成。输入4484483的图像，输出7730的张量。网络中的1*1卷积层，出自Network in network（NiN），在这里的作用是降维，减少权重个数和计算量。

Tips：CNN小知识补充

预训练：使用大型数据集预先训练模型的过程。常用预训练模型有VGG16/19、ResNet50等。

微调：将预训练过的模型作用于自己的数据集，并使参数适应自己数据集的过程。

卷积神经网络的核心是：

（1）浅层卷积层提取 基础特征，比如边缘、轮廓等；

（2）深层卷积层提取 抽象特征，比如整个脸型；

（3）全连接层根据 特征组合进行评分分类。

预训练模型的特点就是：用大型数据集做训练，已经具备了 提取浅层基础特征和深层抽象特征的能力。

2.3 预训练分类网络

在ImageNet 1000-class competition dataset上预训练了一个分类器，预训练网络使用图中前20个卷积 + 1个GAP(Global Average Pooling) + 1个全连接层，网络输入为224*224大小。

2.4 训练检测网络

（1）由于检测需要细粒度的图像信息，所以网络输入由预训练的224224改为448448；

（2）任少卿等人提出在预训练网络上增加卷积层和全连接层能够提升性能，所以训练网络改为上图所示：24个卷积层 + 2个全连接层；

（3）检测框的位置信息（x, y, w, h）都做了归一化处理；

x, y 是bounding box中心点相对于所在grid cell左上角格点的坐标；

w, h 是相对于整幅图像的宽和高。

（4）使用Leaky ReLU非线性激活函数；

θ(x) = x, x>0

θ(x) = 0.1x, otherwise

（5）使用sum-squared error损失函数；

（6）训练过程中采用变化的学习率；

最初的epoch，慢慢从10e-3升到10e-2（一上来就10e-2容易造成发散）；

紧接着75个epoch，学习率设为10e-2；

再接下来30个epoch，学习率降为10e-3；

最后30个epoch，学习率将为10e-4。

（7）为了避免过拟合，使用dropout和数据增强，数据增强包括：随机缩放，20%全图大小的平移，调整HSV色彩空间。

2.5 损失函数（L2 Loss）

损失函数分五部分，第1、2项为坐标回归误差；第3、4项为Confidence（置信度）回归误差；第5项为类别预测误差，即分类误差。

（1）负责检测物体的bbox中心定位误差

此处λcoord 取值为5，而（4）中λnoobj 取值为0.5，之所以如此设定，是因为图像中有很多grid cell是不包含物体的，这些grid cell中bbox的置信度都为0，这通常会压制或者说弱化那些含有包含物体的grid cell的梯度，导致模型不稳定，造成训练过早发散。所以设定λcoord = 5，λnoobj = 0.5，相当于加强bbox坐标预测损失（也就是定位误差），削弱不包含物体的bbox的置信度损失。

（2）负责检测物体的bbox宽高定位误差

式中，使用宽和高的平方根来代替宽和高，是因为在小框里边小的偏差比在大框里边影响更大，如下图示：

（3）负责检测物体的bbox的confidence误差

（4）不负责检测物体的bbox的confidence误差

（5）负责检测物体的grid cell的分类误差

3. YOLOv1的缺陷

（1）小目标检测差强人意，由于空间的约束导致可预测的目标数量受限，每个grid cell只能预测一个目标，整幅图像最多预测7*7=49个目标；

（2）很难泛化到新的或不常见纵横比或形状的目标；

（3）预测框使用了相对较粗粒度的特征（由于存在很多下采样层），这导致其定位误差较高；

（4）小框里的小的误差比在大框里的影响更大。（这个在损失函数的第二项中有相应的优化措施，即用宽高的平方根来代替宽高。个人猜测可能并没有达到预期效果）

4. 其他一些检测器的特点

DPM（Deformable parts models）

传统特征HOG、传统分类器SVM、滑动窗口方法、弹簧模型：子模型+主模型。

*R-CNN 使用region proposals代替sliding window apporoach

选择性搜索（Selective Search）生成潜在边界框、卷积网络提取特征、SVM打分、线性模型调整边界框、NMS非最大值抑制剔除重复检测框。

*Fast R-CNN

相比于R-CNN，做了以下几点改进

（1）卷积不再是对每个Region Proposal进行，而是直接对整张图像，相当于共享计算；

（2）用ROI Pooling进行特征的尺寸变换，因为全连接层的输入要求尺寸大小一样，因此不能把Region Proposal作为输入；

（3）用SoftMax代替原来的SVM分类器。

*Faster R-CNN

核心改进是使用 RPN （Region Propose Network）提取区域，代替Selective Search，极大的提升了检测框的生成速度。

RPN模块主要执行的流程为输入Faster R-CNN的公共Feature Map，生成Anchors，通过SoftMax分类器提取Positive Anchors；最后Proposal Layer负责综合positive anchors和对应bounding box regression偏移量获取proposals，同时剔除重叠和超出边界的proposals。

*Deep MultiBox

使用卷积神经网路代替Selective Search来预测ROI；但无法进行通用目标检测。

*OverFeat

使用卷积神经网路定位（高效实现了滑窗）；但是其优化的是定位而非检测性能，且是基于局部来预测的，无法推理全局背景。

*MultiGrasp

提出regression方法来预测抓取物体，但它只是一个更简单的目标检测任务，只需要预测目标的区域，而不需要预测目标的大小、位置、边界信息以及类别。

5. 论文精读笔记

可以点击 链接;下载高清原版笔记pdf，论文重点、专有名词解释、公式推导、复杂单词释义等都有清晰的标注。

参考资料

1、b站子豪兄YOLOv1论文精度（讲的特别清晰，建议一看）

2、模型微调fine-tune

3、一文详解R-CNN、Fast R-CNN、Faster R-CNN

4、读论文：YOLO

Original: https://www.cnblogs.com/shaoxx333/p/16126064.html
Author: 最菜程序员Sxx
Title: 【深度学习论文 02-1】YOLOv1论文精读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/806603/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用Python分析餐厅订单数据

相信很多小伙伴都多少了解过Python爬虫，如果没了解爬虫，建议你先去看我的爬虫入门，一片博客带你简单爬虫入门，但是不知道小伙伴们是否思考过我们爬取数据的目的，简单来说，我们通过网…

Python 2023年8月20日
0044
基于Python+Open CV的手势识别算法设计

素材资料下载： 1. 课题背景及分析 2. 算法设计 3. 算法实现与调试 4. 实验结果及分析 5. 今后研究及改进计划 6. 设计总结 7. 主要参考书目 8. 附件 1.1 …

Python 2023年10月27日
0048
00后少年的心力之作(已开源) | heartt（心力算法）

00后少年的心力之作(已开源) | 综合性极强的文本摘要算法: heartt 大家好，我是 heartt 算法的作者，一名热爱编程的学习者。今天，我要向大家介绍我的新算法：hear…

Python 2023年11月5日
0046
循环神经网络（RNN）实现股票预测

活动地址：CSDN21天学习挑战赛前言 1.什么是循环神经网络？一个最简单的循环神经网络如下图所示：这样的神经网络一共有3层，分别是输入层x，隐藏层h和输出层y。定义每一层的…

Python 2023年10月26日
0059
pytest系列(四) –yaml详解及接口项目实战

声明：参考B站视频，自学成长记录https://www.bilibili.com/video/BV1u5411A7Um?p=14 yaml文件什么是yaml yaml是一种数据格…

Python 2023年9月10日
0044
使用conda将python环境打包pack，移植到另一个linux服务器项目中

一：conda-pcak在什么情况下使用：二：conda常见的使用指令： 1：查看自己conda管理有几种python环境： 2：创建一个新的python环境： 3：对已经存在的…

Python 2023年9月8日
0041
反向传播不香了？解读 Hinton 大佬的 Forward-Forward 算法

大家好啊，我是董董灿。今天解读一篇Hinton大佬最近分享的论文。点击文章最下方卡片，关注我的公众号，有最新的文章和动态。在最近的NeurIPS2022会议上，图灵奖得主Hi…

Python 2023年10月8日
0062
pandas数据简单清洗

目录没有列头一个列有多个参数单位不统一缺失值处理规范化数据去除行内容完全重复的数据没有列头首先导入我们需要处理的数据 import pandas as pd df=…

Python 2023年8月8日
0070
怎样用Python搭建一个管理系统

最近有不少小伙伴问我，Python 怎么学，我的统一回答：就是实战，多练。无论做什么，都逃不过熟能生巧。其次就是从自己的兴趣出发，做一些实战小项目。往往一些小项目都藏着很多基础，这…

Python 2023年8月1日
0059
巧用 transition 实现短视频 APP 点赞动画

在各种短视频界面上，我们经常会看到类似这样的点赞动画：非常的有意思，有意思的交互会让用户更愿意进行互动。那么，这么有趣的点赞动画，有没有可能使用纯 CSS 实现呢？那当然是必…

Python 2023年10月23日
0032
【笔记】import matplotlib.pyplot（plt）的一些函数：plt.tight_layout()、plt.xticks()、plt.savefig()、plt.imshow()

Code1: filename = {str} ‘tfidf_matrix’ filename = {str} ‘tfidf_matrix’ tfidf = {ndarray: (…

Python 2023年8月31日
0038
矩池云快速安装torch-sparse、torch-geometric等包

租用机器，按自己需要的环境选择一个环境，我这里选择的是Pytorch 1.10。租用成功后点击租用页面的 Jupyterlab 链接。 Jupyterlab 里新建一个Termi…

Python 2023年10月25日
0034
《精通Python爬虫框架Scrapy》第8章 Scrapy编程

到目前为止，我们编写的爬虫主要用于定义爬取数据源的方式以及如何从中抽取信息。除了爬虫外，Scrapy还提供了能够调整其大多数方面功能的机制。比如，你可能会发现自己经常在处理如下的一…

Python 2023年10月6日
0022
详细设计说明书（GB8567——88）基于协同的在线表格forture-sheet

详细设计说明书 1引言 1.1编写目的该文档在概要设计的基础上，进一步的细化系统结构，展示了软件结构的图标，物理设计、数据结构设计、及算法设计、详细的介绍了系统各个模块是如何实现…

Python 2023年10月10日
0048
【深度学习】常见的神经网络层（上）

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页：knighthood2001😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤️👀 给大家推荐一款很火爆的刷题、面试求…

Python 2023年8月2日
0051
网络爬虫学习（三）-scrapy框架

目录一 Scrapy框架简介二 scrapy框架的基本使用 1) 环境的安装 2)基础命令 3）项目组成： 4）创建爬虫文件： 5）scrapy架构组成 6）五大核心组件 7…

Python 2023年10月2日
0026

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30