计算机视觉论文速递（三）YOLO-Pose：《Enhancing YOLO for Multi Person Pose …..》实时性高且易部署的姿态估计模型

2023年5月28日上午4:53 • 人工智能 • 阅读 125

计算机视觉论文速递（三）YOLO-Pose：《Enhancing YOLO for Multi Person Pose …..》实时性高且易部署的姿态估计模型

1. 简介
2. YOLO-Pose方法
*
2.1 总览
2.2 Anchor based multi-person pose formulation
2.3 IoU Based Bounding-box Loss Function
2.4 Human Pose Loss Function Formulation
2.5 Test Time Augmentations
2.6 Keypoint Outside Bounding Box
2.7 ONNX Export for Easy Deployability
3. 实验
*
3.1 消融实验
3.2 COCO结果

YOLO-Pose论文： Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss
代码已开源： https://github.com/TexasInst…
更多Ai资讯：公主号AiCharm

; 1. 简介

本文介绍了YOLO-Pose，一种新的无Heatmap联合检测方法，是基于YOLOv5目标检测框架的姿态估计。

现有的基于Heatmap的两阶段方法并不是最优的，因为它们不是端到端训练的，且训练依赖于替代L1损失，不等价于最大化评估度量，即目标关键点相似度(OKS)。

YOLO-Pose可以进行端到端训练模型，并优化OKS度量本身。该模型学习了在一次前向传递中联合检测多个人的边界框及其相应的二维姿态，从而超越了自上而下和自下而上两种方法的最佳效果。

YOLO-Pose不需要对自底向上的方法进行后处理，以将检测到的关键点分组到一个骨架中，因为每个边界框都有一个相关的姿态，从而导致关键点的固有分组。与自上而下的方法不同，多个前向传播被取消，因为所有人的姿势都是局部化的。

YOLO-pose在COCO验证(90.2%AP50)和测试开发集(90.3%AP50)上获得了新的最先进的结果，在没有翻转测试、多尺度测试或任何其他测试时间增加等Trick的情况超过了所有现有的自底向上的方法。本文中报告的所有实验和结果都没有任何测试时间的增加，而不像传统的方法使用翻转测试和多尺度测试来提高性能。

YOLO-Pose方法

YOLO-Pose基于YOLOv5目标检测框架，也可以扩展到其他框架。YOLO-Pose也在YOLOX上在有限程度上进行了验证。图2说明了具有用于姿态估计的总体架构。

2.1 总览

YOLOv5在精度和复杂性方面都是一个非常不错的检测器。因此，选择它作为搭建的基础，并在其之上构建。YOLOv5主要关注于80个类COCO目标检测，Box head预测每个Anchor的85个元素，分别对应于80个类的边界框、目标分数和置信度得分。而对应于每个网格位置都有3个不同形状的Anchor。

对于Human Pose Estimation可以看作为一个单类的Person detection问题，每个人有17个相关的关键点，每个关键点有再次识别的位置和可信度：。所以，与一个Anchor关联的17个关键点总共有51个元素。

因此，对于每个Anchor，Keypoint Head预测51个元素，Box head预测6个元素。对于具有n个关键点的Anchor，总体预测向量定义为：

关键点置信度是基于关键点的可见性标志进行训练的。如果一个关键点是可见的或被遮挡的，那么Ground Truth置信度设置为1，否则，如果关键点在视场之外，置信度设置为0。

在推理过程中要保持关键点的置信度大于0.5。所有其他预测的关键点都被屏蔽的。预测的关键点置信度不用于评估。然而，由于网络预测了每个检测的所有17个关键点，需要过滤掉视场之外的关键点。否则，就会有置信度第的关键点导致变形的骨架。现有的基于Heatmap的Bottom-up方法不需要这样做，因为视野外的关键点一开始就不会被检测到。

YOLO-Pose使用CSP-darknet53作为Backbone，用PANet来融合来自Backbone的不同尺度的特征。接下来是4个不同尺度的Head。最后，有2个Decoupled Heads用于预测box和keypoints。

在这项工作中将YOLO-Pose的复杂性限制在150个GMACS之内，在这个范围内，YOLO-Pose能够实现具有竞争力的结果。随着复杂性的进一步增加，可以进一步弥补与Top-down方法的差距。然而，YOLO-Pose并不追求这条道路，因为YOLO-Pose的重点是实时模型。

; 2.2 Anchor based multi-person pose formulation

对于给定的图像，与一个人匹配的Anchor将存储其整个2D pose和bounding box。bounding box的坐标被转换为Anchor中心，而bounding box的尺寸则根据Anchor的高度和宽度进行规范化。同样，关键点位置将w.r.t转换为Anchor中心。然而，关键点并没有与Anchor的高度和宽度进行标准化。Key point和box都被预测在Anchor的中心。

由于YOLO-Pose的改进与Anchor的宽度和高度无关，所以YOLO-Pose可以很容易地扩展到Anchor Free的目标检测方法，如YOLOX, FCOS。

2.3 IoU Based Bounding-box Loss Function

大多数目标检测器优化了IoU Loss的变体，如GIoU、DIoU或CIoU Loss，而不是Distance-based Loss，因为这些损失是尺度不变的，并直接优化了评估度量本身。而YOLO-Pose使用CIoU Loss来进行bounding box监督。对于在位置和scale s上的第k个Anchor所匹配的Ground Truth bounding box，损失定义为:L box ( s , i , j , k ) = ( 1 − CIoU ⁡ ( B o x g t s , i , j , k , Box x p r e d s , i , j , k ) ) \mathcal{L}{\text {box }}(s, i, j, k)=\left(1-\operatorname{CIoU}\left(B o x{g t}^{s, i, j, k}, \text { Box } x_{p r e d}^{s, i, j, k}\right)\right)L box (s ,i ,j ,k )=(1 −CIoU (B o x g t s ,i ,j ,k ,Box x p re d s ,i ,j ,k ))
B o x p r e d i , j , k B o x_{p r e d}^{i, j, k}B o x p re d i ,j ,k 为第 k \mathrm{k}k 个 Anchor 在位置 ( i , j ) (\mathrm{i}, \mathrm{j})(i ,j ) 和scale s的预测框。在 YOLO-Pose 中, 每个位置有 3 个 Anch or, 并且预测发生在 4 个cale上。

2.4 Human Pose Loss Function Formulation

OKS是评估关键点的比较常用的指标。传统上，Heat-map based Bottom-up方法使用L1损失来检测关键点。然而，L1损失并不一定适合获得最佳的OKS。同样，L1损失并没有考虑目标的尺度或关键点的类型。由于Heat-map是概率图，因此在基于纯Heat-map的方法中不可能使用OKS作为损失。只有当回归到关键点位置时，OKS才能被用作损失函数。耿等人使用尺度归一化L1损失进行关键点回归，这是迈向OKS损失的一步。

因此，作者直接将回归的关键点直接定义为Anchor中心，于是便可以优化评估度量本身，而不是一个surrogate loss。这里将IoU损失的概念从box扩展到关键点。

在出现关键点的情况下，目标关键点相似度(OKS)被视为IOU。OKS损失本质上是尺度不变的，比某些关键点更重要。例如，一个人头部上的关键点（眼睛、鼻子、耳朵）比他身体上的关键点（肩膀、膝盖、臀部等）受到的惩罚更多。

基于YOLOv5的Yolo姿态架构。输入图像通过CSP-darknet53主干，生成不同尺度的特征图{P3、P4、P5、P6}。PANet用于跨多个尺度融合这些特征图。PANet的输出被输入到检测头。最后，每个检测头分支到Box Head和关键点Head。

与标准的IoU损失不同，IoU损失在不重叠的情况下，其梯度会消失，而OKS损失永远不会。因此，OKS损失更类似于DIoU损失。

对应于每个边界框，存储整个姿态信息。因此，如果一个GT边界框在位置和scale s上与Anchor相匹配，将预测相对于Anchor中心的关键点。对每个关键点分别计算OKS，然后求和，给出最终的OKS损失或关键点IOU损失。L k p t s ( s , i , j , k ) = 1 − ∑ n = 1 N k p t s O K S \mathcal{L}{k p t s}(s, i, j, k)=1-\sum{n=1}^{N_{k p t s}} O K S L k pt s (s ,i ,j ,k )=1 −n =1 ∑N k pt s O K S
= 1 − ∑ n = 1 N k p t s exp ⁡ ( d n 2 2 s 2 k n 2 ) δ ( v n > 0 ) ∑ n = 1 N k p t s δ ( v n > 0 ) =1-\frac{\sum_{n=1}^{N_{k p t s}} \exp \left(\frac{d_{n}^{2}}{2 s^{2} k_{n}^{2}}\right) \delta\left(v_{n}>0\right)}{\sum_{n=1}^{N_{k p t s}} \delta\left(v_{n}>0\right)}=1 −∑n =1 N k pt s δ(v n >0 )∑n =1 N k pt s exp (2 s 2 k n 2 d n 2 )δ(v n >0 )
d n = d_{n}=d n = Eucledian distance bwteen predicted and
ground truth location for n th n^{\text {th }}n th keypoint
k n = k_{n}=k n = Keypoint specific weights
s = s=s = Scale of an object
δ ( v n ) = \delta\left(v_{n}\right)=δ(v n )= visibilty flag for each keypoint
对应于每个关键点, 学习一个置信参数, 显示那个人是否存在一个关键点。在这里, 关键点的可见性标志被用作GT。
L total = ∑ s , i , j , k ( λ c l s L c l s + λ box L b o x + λ k p t s L k p t s + λ k p t s − c o n f L k p t s − conf ) \begin{aligned} \mathcal{L}{\text {total }}=\sum{s, i, j, k}\left(\lambda_{c l s} \mathcal{L}{c l s}+\lambda{\text {box }} \mathcal{L}{b o x}+\lambda{k p t s} \mathcal{L}{k p t s}\right.\ &+\lambda{k p t s_{-} c o n f} \mathcal{L}{\left.k p t s{-} \text {conf }\right)} \end{aligned}L total =s ,i ,j ,k ∑(λc l s L c l s +λbox L b o x +λk pt s L k pt s +λk pt s −co n f L k pt s −conf )
其中超参数: λ cls = 0.5 , λ box = 0.5 , λ k p t s = 0.5 , λ k p t s − c o n f = 0.5 \lambda_{\text {cls }}=0.5, \lambda_{\text {box }}=0.5, \lambda_{k p t s}=0.5, \lambda_{k p t s_{-} c o n f}=0.5 λcls =0.5 ,λbox =0.5 ,λk pt s =0.5 ,λk pt s −co n f =0.5 。主要是用来平衡损失。

2.5 Test Time Augmentations

所有用于姿态估计的SOTA方法都依赖于测试时间增强(TTA)来提高性能。翻转测试和多尺度测试是两种常用的测试技术。翻转测试增加了2X的复杂度，而多尺度测试在三个尺度{0.5X, 1X, 2X}上运行推理，增加复杂度(0.25X+1X+4X)=5.25X。随着翻转测试和多尺度测试的进行，复杂性将增加5.25*2x=10.5X。

除了增加计算复杂度外，准备扩充数据本身也很昂贵。例如，在翻转测试中，需要翻转图像，这会增加系统的延迟。类似地，多尺度测试需要对每个尺度进行调整大小操作。这些操作可能非常昂贵，因为它们可能不会加速，不像CNN的操作。融合各种前向传播的输出需要额外的成本。对于嵌入式系统来说，在没有任何TTA的情况下，能够获得具有竞争力的结果才是最重要的。

因此，YOLO-Pose的所有结果都没有任何TTA。

2.6 Keypoint Outside Bounding Box

top-down的方法在遮挡下表现很差。与top-down的方法相比，YOLO-Pose的优势之一是:关键点没有限制在预测的边界框内。因此，如果关键点由于遮挡而位于边界框之外，它们仍然可以被正确地识别出来。然而，在top-down的方法中，如果人的检测不正确，姿态估计也会失败。在YOLO-Pose方法中，遮挡和不正确的框检测在一定程度上减轻了这些挑战，如图3所示。

; 2.7 ONNX Export for Easy Deployability

YOLO-Pose中使用的所有ops都是标准深度学习库的一部分，并且与ONNX兼容。因此，整个模型可以导出到ONNX中，这使得它很容易跨平台部署。这个独立的ONNX模型可以使用ONNXRUNTIME执行，以图像为输入，并推断图像中每个人的边界框和姿势。没有其他top-down的方法可以端到端地导出到中间的ONNX表示。

实验

3.1 消融实验

1、OKS Loss vs L1 Loss

2、Across Resolution

YOLOv5模型是sigmoid-weighted linear unit (SiLU)。Liu等观察到，像SiLU或HardSwish这样的无界激活函数对量化不友好，而具有ReLUX激活的模型由于其具有有限性，对量化具有鲁棒性。

因此，用ReLU激活对模型进行了重新训练。我们观察到从SiLU到ReLU的活化降低了1-2%。我们称这些模型为YOLOv5_relu。

; 3.2 COCO结果

相关素材来自于【集智书童】公众号
更多Ai资讯：公主号AiCharm

Original: https://blog.csdn.net/muye_IT/article/details/124549186
Author: Jasper0420
Title: 计算机视觉论文速递（三）YOLO-Pose：《Enhancing YOLO for Multi Person Pose …..》实时性高且易部署的姿态估计模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/529845/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2022年学习笔记——Simulink实现神经网络在线训练(附Matlab代码）

Matlab自带的神经网络工具包已封装好不便于调试中间参数，且Simulink的工具包也只能用于样本离线的在线训练。本次搭建了一个简单的基于Simulink的8层神经网络在线训练，…

人工智能 2023年7月13日
0094
CUDA By Example(四)——线程协作

上一章讲解了如何编写一个在GPU上并行执行的代码。但对于并行编程来说，最重要的一个方面就是，并行执行的各个部分如何通过相互协作来解决问题。本章主要就线程协作提供一种解决方案文章目…

人工智能 2023年6月30日
00106
数学建模复盘 — 人力资源安排的最优化模型

0 说明这次建模是由学长亲自带队指导某校学生校赛，并且这次题目质量出的还不错，而且资源优化模型也是各个建模大赛喜欢出的题目，这里学长把作品分享出来给大家。 1 描述某大学数学系…

人工智能 2023年7月16日
00138
宽度学习(BLS)实战——python复刻MNIST数据集的数据预处理及训练过程

目录 1.宽度学习(Broad Learning System) 2.MNIST数据集 3.复刻MNIST数据集的预处理及训练过程 1.宽度学习(Broad Learning Sy…

人工智能 2023年6月15日
00108
SE注意力机制

SENet-通道注意力笔记 * – 简介 – + * – 意义 – 目的： – 主要操作 – 算法流程图 &…

人工智能 2023年6月16日
00111
3D视觉——1.人体姿态估计(Pose Estimation)入门——使用MediaPipe含单帧(Signel Frame)与实时视频(Real-Time Video)

使用MediaPipe工具包进行开发什么是MediaPipe? MediaPipe是一款由Google Research 开发并开源的多媒体机器学习模型应用框架，用于处理视频、音…

人工智能 2023年6月24日
0093
鸢尾花分类(代码实现)—-python机器学习基础教程

文章目录 * – + 前言 + Step1：获取数据集并分析数据集 + Step2：拆分数据集(dataset)为训练集(train)与测试集(test) + Step…

人工智能 2023年7月3日
00100
机器学习中常用评价指标（分类篇）

文章目录 * – 前言 – 1. 准确率 – 2. 混淆矩阵 – 3. 精确率 – 4. 召回率 – 5. …

人工智能 2023年7月2日
00105
时间序列模型-ARIMA

一、ARIMA模型基本概念 1.1 自回归模型（AR）描述当前值与历史值之间的关系，用变量自身的历史数据对自身进行预测；自回归模型必须满足平稳性的要求；（何为平稳性：见时间序列…

人工智能 2023年6月23日
00135
【聚类2】原型聚类

文章目录 1. 原型聚类 * 1.1 k均值算法（K-Means） – 1.1.1 最小化平方误差 1.1.2 k均值算法伪代码 1.2 学习向量量化 – …

人工智能 2023年5月31日
00115
图像相似算法最全总结

图像相似算法比如有图像A和图像B，分别计算两幅图像的直方图，HistA，HistB，然后计算两个直方图的归一化相关系数（巴氏距离，直方图相交距离）等等。这种思想是基于简单的数学…

人工智能 2023年6月18日
2084
集成学习-偏差与方差

偏差与方差偏差(Bias) 用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异。含义：度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法…

人工智能 2023年6月4日
00105
什么是路由守卫？

第一次认识路由守卫：之前我做过的小项目里面，我们直接在浏览器网址的地方进行修改就能跳转页面，这是不安全的，因此就需要路由守卫，实现通过路由拦截，来判断用户是否登录，该页面用户是否有…

人工智能 2023年7月23日
0095
企业微信群机器人应用

现在很多企业都在使用企业微信进行工作交流，自从企业微信推出群机器人之后，使用企业微信的小伙伴一般都会用机器人来推送定时消息或者提醒等，这样能够为企业工作群的管理提升效率，能很好的帮…

人工智能 2023年7月6日
0084
【机器学习】21天挑战赛学习笔记（二）

活动地址：CSDN21天学习挑战赛学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。各位小伙伴，如果您：想系统/深入学习某技术知识点……

人工智能 2023年6月2日
00122
卷积层的深度是什么？如何选择合适的深度

问题背景卷积神经网络（Convolutional Neural Network，CNN）是一种非常流行的深度学习模型，被广泛应用于图像处理和计算机视觉任务中。CNN中的卷积层是其…

人工智能 2024年1月1日
0043

2024 年 6 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

计算机视觉论文速递（三）YOLO-Pose：《Enhancing YOLO for Multi Person Pose …..》实时性高且易部署的姿态估计模型

计算机视觉论文速递（三）YOLO-Pose：《Enhancing YOLO for Multi Person Pose …..》实时性高且易部署的姿态估计模型

2.1 总览

; 2.2 Anchor based multi-person pose formulation

2.3 IoU Based Bounding-box Loss Function

2.4 Human Pose Loss Function Formulation

2.5 Test Time Augmentations

2.6 Keypoint Outside Bounding Box

; 2.7 ONNX Export for Easy Deployability

3.1 消融实验

; 3.2 COCO结果

大家都在看