YOLOv3原理及流程简述

2023年7月10日上午9:12 • 人工智能 • 阅读 88

核心思想

输入图像经过全卷积神经网络得到 3 种尺度（跨尺度预测）的输出特征图，在输出特征图上划分 cell(单元格)，对于 ground truth box 中心所在的 cell，该 cell 就负责预测 ground truth box 框中的目标。该 cell 先计算事先指定的 3 种 anchor 与 ground truth box 的 IOU，选出 IOU 最高的 anchor，然后用选出的 anchor 生成我们需要的检测框，最后根据该检测框对不同类别的置信度，来检测类别。

代码中实际上把每个 anchor 生成的检测框都计算出来了，然后在所有检测框中进行挑选。

网络结构

yolo 使用全卷积神经网络，包括 convolutional、 shortcut、 route、 upsample 和 yolo，没有用 polling。

convolutional

stride 指定步长。

stride 为 1 的卷积层不改变输入特征图的大小。

stride 为 2 的卷积层进行下采样，将输入特征图缩小为 52 x 52、 26 x 26 和 13 x 13，用于划分 cell。

shortcut

from 指定之前的网络层编号。

将之前一层和 from 指定的网络层的特征图相加，然后输出。

route

layers 指定之前的网络层编号。

layers 只有一个值时，将 layers 指定的网络层的特征图输出。

layers 有两个值时，将指定的两个网络层的特征图沿深度连接，然后输出。

upsample

将 13 x 13 放大成 26 x 26， 26 x 26 放大成 52 x 52。

yolo

有 3 个 yolo，每个 yolo 对应于 3 种不同尺度的特征图——13 x 13、 26 x 26 和 52 x 52。

每个 yolo 有 3 种 anchor，通过 anchor 和输入特征图，计算出检测框，计算方式见下文。

检测框属性

以下公式描述了如何转换网络输出特征图以获得预测边界框。

bx、by、bw、bh是预测边界框的 x、y 中心坐标、宽度和高度。 tx, ty, tw, th 是网络输出的特征图中的特征。 cx 和 cy 是网格的左上角坐标。 pw 和 ph 是 anchor尺寸。

; 中心坐标

先用 sigmoid 归一化特征图输出的中心的坐标，再加上中心所在 cell 左上角的偏移坐标。

边界框尺寸

先用 exp 处理特征图输出的边界框的尺寸，然后乘以 yolo 中指定的 anchor 的尺寸。

Objectness Score

Objectness Score表示目标在边界框内的概率。对于红色和相邻单元格，它应该接近 1，而对于角落的网格，它几乎是 0。

objectness score 也通过 sigmoid 传递，因为它被解释为概率（在 0 到 1 之间）。

class score

表示检测到的目标属于特定类别（狗、猫、香蕉、汽车等）的概率，用 sigmoid 处理 class score。

检测框处理

利用类别置信度的阈值处理

根据边界框的 objectness score 过滤边界框， objectness score 低于阈值的边界框会被忽略。

NMS

避免多个边界框检测到同一个目标。

预测

输出的预测结果中，每张图像有 8 个属性，即该图像的索引、4 个角坐标、 objectness score、置信度最大的类和该类的索引。

图像索引对应哪张图像，4 个角坐标对应检测框位置，类别索引对应检测框在该图像中检测出的类别。

创新点和改进

one-stage，同时进行边界框回归和目标分类，加快训练速度
YOLO 将图像划分为 S x S 网格，而不是用 RPN 网络提取 regional proposal，加快了检测速度
YOLO9000 引入 anchor，提高了检测的召回率
YOLOv3 使用特征金字塔网络结构，实现多尺度检测，提升对不同大小图像的检测准确度
因为一个框内的目标可能属于多个类别，分类预测不使用 softmax，而是使用多个独立的 logistic分类器，损失函数采二元交叉熵损失
更好的基础分类网络（类 ResNet）和分类器

Original: https://blog.csdn.net/ManiacLook/article/details/121632505
Author: ManiacLook
Title: YOLOv3原理及流程简述

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682497/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

VIT中特殊class token的一些问题

类似于BERT中的[class] token,ViT引入了class token机制，其目的：因为transformer输入为一系列的patch embedding，输出也是同样长…

人工智能 2023年7月21日
0058
【修改huggingface transformers默认缓存文件夹】

How to change huggingface transformers default cache directory * – 前言 – 关于wind…

人工智能 2023年6月24日
0086
使用SimpleITK进行3D图像连通域分析

一、简介本文叙述了使用SimpleITK进行3D医疗图像连通域分析的方法。（相邻的像素值视为同一个连通域，不区分像素值）非医疗图像需要先封装为SimpleITK.Image，或…

人工智能 2023年5月26日
0089
OpenCV每日函数对象追踪模块使用增强相关系数 (ECC) 最大化的图像配准

一、 OpenCV 中的运动模型在典型的图像对齐问题中，我们有两个场景图像，它们通过运动模型相关联。不同的图像对齐算法旨在使用不同的技巧和假设来估计这些运动模型的参数。一旦知道了…

人工智能 2023年6月20日
0077
【mmdetection3d】——3D 目标检测 KITTI 数据集

3D 目标检测 KITTI 数据集本页提供了有关在 MMDetection3D 中使用 KITTI 数据集的具体教程。注意：此教程目前仅适用于基于雷达和多模态的 3D 目标检测…

人工智能 2023年7月11日
0063
windows下跑通transformer 实现图像分割，3060基于cuda11.3+torch1.10+torchvision1.11

首先环境部署cuda11.3 和torch1.10 vs2019(默认安装即可)这些不再赘述。接下来比较重要的是：一些依赖的环境本人的依赖环境如下：很多博客上讲安装mmcv1…

人工智能 2023年5月28日
0099
R语言使用caret包的rfe函数进行特征筛选、选择、特征消除RFE（Recursive Feature Elimination）进行特征筛选（feature selection）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0092
卷积神经网络实现人脸识别微笑检测

一：卷积神经网络介绍： 1. 定义：卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedf…

人工智能 2023年7月14日
00131
求关系模式r的所有候选码_关系数据库理论

今天，小编想来跟大家分享一下，小编在关系数据库理论这里的想法我们知道，现在的数据库一般采用的都是关系模型来设计数据库，当然，在讲关系数据库之前，小编先来和大家讲讲数据库中的数据模…

人工智能 2023年6月10日
0071
决策树专题_以python为工具【Python机器学习系列（十一）】

决策树专题_以python为工具【Python机器学习系列（十一）】文章目录 1.关于信息熵的理解 2.信息增益 3.信息增益比 4.基尼指数 5.DecisionTreeCla…

人工智能 2023年5月30日
0086
[附源码]计算机毕业设计JAVASSM归途中流浪动物收容与领养管理系统

[附源码]计算机毕业设计JAVASSM归途中流浪动物收容与领养管理系统项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Web…

人工智能 2023年6月28日
0075
视频话题识别与跟踪 – demo 【问题总结1.1-视频处理】

目的：视频 –》音频 –》文本（语音识别） moviepy库可将MP4文件转换为MP3文件 pydub库将MP3文件转换为flac文件，但是必须安装FFmp…

人工智能 2023年5月23日
0079
kaggle房价预测-回归模型

目录 1 项目背景 2 初始数据分析目标值分析特征与目标值相关性变量特征相关性 3 数据预处理目标变量正态分布化异常值处理缺失值处理转换特征保存训练集和测试集 4 …

人工智能 2023年7月4日
0079
经典卷积神经网络——resnet

resnet 前言一、resnet 二、resnet网络结构三、resnet18 * 1.导包 2.残差模块 2.通道数翻倍残差模块 3.rensnet18模块 4.数据测试 …

人工智能 2023年6月16日
0072
java在linux下编译使用opencv

说多了都是泪。此次编译环境。centos7,openjdk1.8,opencv4.5.3 1,环境准备 yum install epel-release git gcc gcc-…

人工智能 2023年7月20日
0054
Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!

继续说，多说也没用！ [En] Introduction: keep talking, it is useless to talk more! 1.错误： error： Runti…

人工智能 2023年5月23日
00124

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31