目标检测–YOLO

2023年7月11日下午11:34 • 人工智能 • 阅读 47

YOLO v1

论文思想：

1.1 将一幅图像分成S*S个网格，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object

1.2 每个网格要预测B个bounding box，每个bounding box处理要预测位置之外，还要附带一个confidence值，和C个类别的分数，共三十个参数

Pr(Object)值为0或1，为0时表示网格中不存在目标，为1时表示网格中存在目标

测试时：

损失函数

2.1 Q:为什么边界框损失中宽高的计算使用开方？

因为在预测边界框时，对于大目标和小目标来说，调整相同的宽高，其IoU是不同的，相同调整下，小目标的IoU改变小，大目标的IoU改变大，为了抑制这种现象，使用y=x^(1/2)，即相同的Δx，x越大，Δy越小。

idea:类似的凸函数应该有会这种效果。

3.YOLO v1的缺陷

3.1 对于群体小目标的检测效果很差，因为对于每个网格只预测两个bounding box并且只能有一个类。？？

3.2 对于出现新的尺寸和配置时，效果很差。

3.3 定位不准确

YOLO v2

YOLOv2又称YOLO9000,因为在论文中给，作者使用YOLOv2最终检测的目标类别数超过9000

backbone为Darknet-19(19个卷积层)

各种模型的FPS（每秒处理的帧数）和mAP比较

3.YOLOv2中的一系列尝试

3.1 BN

BN在mAP上提升了两个点，且去掉dropout之后也不会发生过拟合，也不需要其它的正则化。

3.2 更高分辨率的分类器

YOLOv1使用224 * 224的分类器，YOLOv2使用448 * 448的分类器，在mAP上有4个百分点的提升。

3.3 使用锚框

mAP有一点点下降，但是召回率提升了7个百分点。

3.4 尺度聚类(Dimension Clusters)

问题：YOLO中锚框的尺度是人为设定，虽然网络能够学习适应锚框的大小，如果能够在一开始就选择更好的锚框尺度，那在预测时会变得更加容易。

解决：不像之前手动设定锚框尺度，在训练集上使用K-聚类来自动生成锚框。

3.5 Direct location prediction

问题：Fast-RCNN中锚框不稳定，在调整时可能出现中心点A的锚框调整至距离很远的中心点B附近的区域。

解决：调整锚框时，候选框始终不能离开指定网格范围。即每个anchor负责预测目标中心落在某个grid cell 区域内的目标。

3.6 更多细节的特征

目的：为了更好的检测到小目标

Faster R-CNN和SSD都通过不同尺度的候选框来得到不同范围分辨率的特征

解决：使用passthrough layer 层将高分辨率的特征和低分辨率特征进行通道尺度上的融合

操作：

PassThrough Layer在整个网络中的位置

What does PassThrough Layer do?

将26 26 * 64 的特征进行四等分，变为13 13 * 256 的特征，分辨率缩小一般，通道数变为4倍，然后与13 13 1024 的特征的通道数叠加起来变为13 * 13 * 1280的特征

Q:26 * 26 * 64特征分割后的特征的位置信息和经过卷积的13 * 13 * 1024 特征的位置信息不同，为什么能够直接叠加通道？

是否类似于特征金字塔的思想？经过卷积的特征负责大目标的检测，经过分割的特征负责小目标的检测.

效果：表现提升了一个百分点

3.7 多尺度训练

目标：提升模型的鲁棒性

在训练时每迭代十个batches,随机改变一次输入图像的大小，图像的尺寸都是缩放因子的整数倍，缩放因子由最初的输入尺寸比上最终的输出尺寸得到。

Q:在网络结构不变的情况下，且符合缩放因子的输入尺寸改变怎么得到固定的输出尺寸？

YOLOv2模型框架（以DarkNet19作为BackBone）

Convolutional层包含了Conv2d-> BN -> LeakyReLU 三层，在最后的Conv2d就是简单的卷积预测器（？？？卷积怎么预测）

DarkNet-19网络结构

YOLOv2的改变：移除了最后的卷积层即1 * 1 * 1000的卷积层及其后的Avgpool和Softmax层，然后添加三个1024 * 3 * 3的卷积层，在接上一个1 * 1的卷积层，输出的个数就是所需检测的参数个数（125）

最后检测的参数个数为每个Bounding box(对于VOC每个目标共5个bounding box)的位置信息参数(4个参数，x,y,w,h,confidence)个数加上类别概率分数个数(20个类别)。总共（5 + 20）* 5 = 125

Passthrough Layer来自最后一个3 * 3 * 512 的卷积层，融合到最后一个1024 * 1 *1 的卷积层

Original: https://blog.csdn.net/yihool_/article/details/122385402
Author: Qing豆
Title: 目标检测–YOLO

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686506/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用opencv的dnn模块做yolov5目标检测

深度学习推理部署，真好玩😄😄😄 最近在微信公众号里看到多篇讲解yolov5在openvino部署做目标检测文章，但是没看到过用opencv的dnn模块做yolov5目标检测的。于是…

人工智能 2023年6月16日
0062
Hyperledger Fabric组织的动态添加和删除

前言在Fabric定制联盟链网络工程实践中，我们虚拟了一个工作室的联盟链网络需求，并根据此需求分析了整个网络的架构且已经完成了一个简单 fabric 网络模型。本文将在其基础上，…

人工智能 2023年6月4日
0069
Python使用websocket调用实时语音识别，语音转文字

Python使用websocket调用实时语音识别，语音转文字 0. 太长不看系列，直接使用 1. Python调用标贝科技语音识别websocket接口，实现语音转文字 * 1….

人工智能 2023年5月27日
00107
使用Opencv对图像进行压缩和解压缩

最近在一个项目中需要将工业相机采集到的图像通过jsonrpc进行传输，一开始没进行压缩，传输的速度很慢，相机分辨率是2592×1944，单通道，这么一算一次要传输的数据量大小是25…

人工智能 2023年6月19日
0086
pytorch的安装（非常详细）

文章目录 1.pytorch的安装 * 1.1环境配置 1.2创建pytorch文件夹（环境） 1.3查看pytorch历史版本 1.4接下来有一个小技巧 – 1.4….

人工智能 2023年7月20日
0048
LSTM详解

LSTM详解文章目录 LSTM详解 * 改进 – 记忆单元门控机制 LSTM结构 LSTM的计算过程 – 遗忘门输入门更新记忆单元输出门 LSTM…

人工智能 2023年6月17日
0074
不良光线下的语义分割论文调研

不良光线下的语义分割论文调研文章目录不良光线下的语义分割论文调研 * Multitask AET with Orthogonal Tangent Regularity for …

人工智能 2023年6月10日
0071
YOLOv5模型改进策略源码示例

YOLOv5模型改进策略源码示例 YOLO目标检测算法作为单阶段目标检测算法的代表在各个领域都有广泛的应用，在前几篇文章中我们已经对YOLO的Backbone、Neck、Head进…

人工智能 2023年7月11日
0069
2021 年“泰迪杯”数据分析技能赛 B 题肥料登记数据分析

2021年”泰迪杯”数据分析技能 B题肥料登记数据分析赛题* 一、背景肥料是农业生产中一种重要的生产资料，其生产销售必须遵循《肥料登记管理办法》，依法在农…

人工智能 2023年7月15日
0066
复现 MonoEF：Monocular 3D Object Detection: An Extrinsic Parameter Free Approach

复现 MonoEF：Monocular 3D Object Detection: An Extrinsic Parameter Free Approach时间：2022年7月13日…

人工智能 2023年7月10日
0059
论文阅读：SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with Structured Semantics for Medical

论文阅读：SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with Structured Semantics f…

人工智能 2023年6月1日
0071
机器学习笔记 – keras和预训练词嵌入

词嵌入（Word embedding）是一种使用密集向量表示来表示单词和文档的 NLP 技术，与使用大稀疏向量表示的词袋技术相比。嵌入是一类 NLP 方法，旨在将单词的语义含义投影…

人工智能 2023年5月28日
0065
相机与IMU标定教程

标定教程 way 相机与IMU联合标定 1、imu_utils 标定IMU的内参 1、 imu_utils标定IMU的内参，可以校准IMU的噪声密度和随机游走噪声 2、kalibr…

人工智能 2023年7月26日
0044
shape_based_matching代码解读0422

写作本系列文章旨在就个人学习该论文及其开源项目做一个学习分享和交流。原论文篇名：Gradient Response Maps for Real-TimeDetection of …

人工智能 2023年6月18日
0080
震惊！(竟有这么好的)时序数据异常检测算法简述与分类

时序数据异常检测算法简述与分类摘要：异常检测是目前时序数据分析最成熟的应用之一，有效的异常检测被广泛用于现实世界的很多领域，例如量化交易，网络安全检测、自动驾驶汽车和大型工业设备…

人工智能 2023年7月2日
0098
什么是深度卷积生成对抗网络（DCGAN）

什么是深度卷积生成对抗网络（DCGAN）？深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network，简称DCGAN…

人工智能 2024年1月1日
0037

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

目标检测–YOLO

YOLO v1

YOLO v2

大家都在看