yolo.py代码精读

2023年7月12日上午12:19 • 人工智能 • 阅读 107

在阅读代码过程中碰到的一些小问题，大家可以查阅目录找找有没有自己需要的地方，分为parse_model和class Detect两部分，不要细看写的很乱。

1.parse_model函数，读入模型yaml中的参数定义

self.model, self.save = parse_model(deepcopy(self.yaml), ch=[ch])  # model, savelist

1.1 ch的含义

input channels

第一列，即全是-1的这一列，代表输入层，如果是-1就代表是上一层。而Focus这一列是模块的名字，卷积核个数后面分别是卷积核尺寸和降采样尺寸。

m = eval(m) if isinstance(m, str) else m

eval()函数的解释在下面（4）中

1.2 layers, save, c2 = [ ], [ ], ch[-1]

layers是用来放模型的积木的，在循环中逐渐把yaml里面的积木读取到里面去
ch的解释在下面1.4 中

1.3 for i, (f, n, m, args) in enumerate( d[‘backbone’] + d[‘head’] ) :

from：输入层，-1代表上一层
number：卷积层的数量，后面有利用这个n和gd去算不同大小模型对应卷积层数量n = n_ = max(round(n * gd), 1) if n > 1 else n （在下面n的地方有介绍）

n = n_ = max(round(n * gd), 1) if n > 1 else n

1.4 eval（）函数

在全局变量和局部变量的上下文中计算给定的源。m是module

        for j, a in enumerate(args):
            try:
                args[j] = eval(a) if isinstance(a, str) else a  # eval strings
            except NameError:
                pass

上面这些是解析args里面的str ，j是序号，a获取args中的数据，eval strings

像这种：

比如backbone的第一行[-1, 1, Conv, [64, 6, 2, 2A]]，2A经过eval之后变成2.

1.5 ch

在下面用到：

layers, save, c2 = [], [], ch[-1]  # layers, savelist, ch out

从函数入口传进来：

def parse_model(d, ch):

引用：

self.model, self.save = parse_model(deepcopy(self.yaml), ch=[ch])

在__init__里面定成3：

def __init__(self, cfg='yolov5s.yaml', ch=3, nc=None, anchors=None):

所以最上面 c2 = ch[-1] 取了个c2 = 3 出来

报错1

 for j, a in enumerate(args):
            try:
                args[j] = eval(a) if isinstance(a, str) else a  # eval strings
            except NameError:
                pass

make_divisivle()

            if c2 != no:  # if not output
                c2 = make_divisible(c2 * gw, 8)

def make_divisible(x, divisor):
    # Returns x evenly divisible by divisor
    return math.ceil(x / divisor) * divisor

n

从这里进来：

for i, (f, n, m, args) in enumerate(d['backbone'] + d['head']):

经过：

n = n_ = max(round(n * gd), 1) if n > 1 else n

插回去（当然只有在m是这几种的情况下）：

            if m in [BottleneckCSP, C3, C3TR, C3Ghost]:
                args.insert(2, n)  # number of repeats
                n = 1

c2

m

m接了module的值，经过：

m = eval(m) if isinstance(m, str) else m  # eval strings

m=’Conv’

变成：

m_是真正有各种参数的module，m更多只是一个名字

迭代出三个东西：

save

非常神奇：

save.extend(x % i for x in ([f] if isinstance(f, int) else f) if x != -1)  # append to savelist

register_buffer()

self.register_buffer(‘my_buffer’, self.tensor)：my_buffer是名字，str类型；self.tensor是需要进行register登记的张量。这样我们就得到了一个新的张量，这个张量会保存在model.state_dict()中，也就可以随着模型一起通过.cuda()复制到gpu上。

2. class Detect

x

经过：

x[i] = self.m[i](x[i])

得到（1,256,4,4）

x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()

变成：（na=3,ny=nx=4,no=85）

这里就是最后的feature map了，nx=ny=4是feature map的大小，这里每个像素对应一个grid，3是channal个数。

onnx_dynamic

这个东西是什么意思

na、nl：

self.nl = len(anchors)  # number of detection layers
        self.na = len(anchors[0]) // 2  # number of anchors

na是感受野的个数，nl是每个感受野的anchor个数，这里附上yolos.yaml中的anchor:

解析结果

                if self.inplace:
                    y[..., 0:2] = (y[..., 0:2] * 2 - 0.5 + self.grid[i] * self.stride[i])  # xy  #最后一维就是85那个的解析
                    y[..., 2:4] = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]  # wh   #2,3是w,h

self.grid[i]是第几个格，大小是（1,3,4,4,2），y大小是[1,3,4,4,85]， self.stride[i]是每个grid代表的原图中的像素倍数，即放大倍数

inplace

应该是本地计算的意思另外一个分支，else部分注释有AWS，是云计算的架构。

两个函数的对比，优化之后的在[-0.5,1.5]，优化之前的sigmoid在[0,1]，可以在超出一个格子的地方活动

整个Detect的forward过程

    def forward(self, x):
        z = []  # inference output
        for i in range(self.nl):
            x[i] = self.m[i](x[i])  # conv
            bs, _, ny, nx = x[i].shape  # x(bs,255,20,20) to x(bs,3,20,20,85)
            x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()

            if not self.training:  # inference
                if self.onnx_dynamic or self.grid[i].shape[2:4] != x[i].shape[2:4]:
                    self.grid[i], self.anchor_grid[i] = self._make_grid(nx, ny, i)

                y = x[i].sigmoid()
                if self.inplace:
                    y[..., 0:2] = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i]  # xy
                    y[..., 2:4] = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]  # wh
                else:  # for YOLOv5 on AWS Inferentia https://github.com/ultralytics/yolov5/pull/2953
                    xy = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i]  # xy
                    wh = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]  # wh
                    y = torch.cat((xy, wh, y[..., 4:]), -1)
                z.append(y.view(bs, -1, self.no))  # no = 85, y.view=[1,3*80*80,85]   y(1,3,80,80,85)

        return x if self.training else (torch.cat(z, 1), x)

每次i的循环，产生一个z，在我的例子中z的大小z[0]=(1,19200,85)，z[1]=(1,4800,85)，z[2]=(1,1200,85),19200=38080，在dim=1上cat起来得到（1，25200,85）

_make_grid()

这里制造参数grid：

grid = torch.stack((xv, yv), 2).expand((1, self.na, ny, nx, 2)).float()

用在：

y[..., 0:2] = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i]

grid的形状是（1,3,4,4,2），y的形状是[1,3,4,4,85]，grid中最后一维2对应x,y

Original: https://blog.csdn.net/epic_Lin/article/details/121298833
Author: epic_Lin
Title: yolo.py代码精读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686572/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python学习（3）—主成分分析（PCA）的基本原理及其Python实现

一、降维的基本概念对于实际分析过程中的高维数据，在进行具体的数据分析和特征建模之前，需要进行数据降维处理。降维是指通过某种方法从原始数据的N个特征中选取K个（K Original…

人工智能 2023年7月16日
0077
必读论文｜实体链接经典论文推荐47篇

实体链接（entity linking）的任务是识别出文本中的提及（mention）并建立起到知识库实体（entity）的链接，将非结构化数据连接到结构化数据。实体链接利用知识库…

人工智能 2023年5月30日
0065
实体对齐——阅读笔记

实体对齐实体对齐简介：不同的只是图谱对同一个实体的描述，会有差异。通过知识融合可以将不同知识图谱中的只是进行互补融合。实体对齐的目的：判断两个或者多个不同信息来源的实体是否为指…

人工智能 2023年6月1日
00118
过拟合的原因有哪些

问题：关于过拟合的原因有哪些？过拟合是指机器学习模型在训练集上表现良好，但在非训练集上表现较差的现象。在深入探讨过拟合的原因之前，我们先了解一下过拟合的一般机制。过拟合的一般机…

人工智能 2023年12月30日
0047
win10+cuda11.7+pytorch1.12.0安装

查看系统cuda版本 win+R，输入cmd在控制台中输入nvidia-smi电脑系统的cuda版本为11.7 ; 2. 安装anaconda 在官网选择python3的版本安装…

人工智能 2023年6月16日
0076
目标跟踪：KCF跟踪并使用yolov4进行重检测

一、运行环境 windows下VS2019opencv4.5.5+contrib4.5.5 （使用cmake VC16编译安装）官方下载的yolov4模型和预训练参数二、算法思想…

人工智能 2023年5月26日
0077
seaborn绘图

导入模块 import numpy as np import pandas as pd from matplotlib import pyplot as plt import se…

人工智能 2023年6月19日
0067
哪款蓝牙耳机通话效果好？通话效果好的蓝牙耳机推荐

数字世界里隐藏着许多高性价比的产品，不仔细寻找是找不到的。一直对无线耳机感兴趣的我，找到了几款性价比很高的蓝牙耳机。我想在这条推文中做一个比较，向你展示隐藏的蓝牙耳机是什么样子的。…

人工智能 2023年5月27日
0098
[ 常用工具篇 ] 解决 kali 下载速度软件慢的问题 — kali换源

🍬 博主介绍 👨‍🎓 博主介绍：大家好，我是 _PowerShell ，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】🎉点赞➕评论➕…

人工智能 2023年6月30日
00130
实战：QT车牌识别系统综合设计

该系统是博主结合许多QT开发项目综合制作，借用了Opencv的开发库来完成的一个项目，具体的可以按照目录来，关于识别方面仅仅提供一个思路，目前还在想如何去优化（准备采用神经网络将数…

人工智能 2023年7月27日
0073
图文并茂：什么是 K-means 聚类算法

概述聚类属于机器学习的无监督学习，在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。它跟分类的最主要区别就在于有没有&#8221…

人工智能 2023年5月31日
00111
【R语言数据科学】（十六）：交叉验证再回首

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月13日
0082
Unity功能—— 在VS中快速访问Unity API对应文档

声明：本文为个人笔记，用于学习研究使用非商用，内容为个人研究及综合整理所得，若有违规，请联系，违规必改。 Unity功能—— 在VS中快速访问Unity API对应文档文章目录 …

人工智能 2023年6月28日
0090
OpenCV学习笔记（十一）——图像噪声的生成（椒盐噪声、高斯噪声）

目录 1 椒盐噪声 2 高斯噪声图像在获取和传输过程种会受到随机信号的干扰从而产生噪声，例如电阻引起的热噪声、光子噪声、暗电流噪声以及光响应非均匀性噪声等，由于噪声会影响对图像的…

人工智能 2023年6月17日
0082
Python_爬虫数据存入数据库(超详细过程

目录一、新建项目二、程序的编写三、数据的爬取一、新建项目 1.在cmd窗口输入scrapy startproject [项目名称] 创建爬虫项目接着创建爬虫文件，scra…

人工智能 2023年7月5日
0082
【实践】随机森林算法参数解释及调优（含Python代码）

前言上篇文章梳理了随机森林的各理论要点，本文首先详细解释了随机森林类的参数含义，并基于该类讲解了参数择优过程。随机森林类库包含了RandomForestClassifer类， …

人工智能 2023年6月12日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31