人体姿态估计的基本概念

2023年6月15日下午1:50 • 人工智能 • 阅读 101

注：B站有相应视频，点击此链接即可跳转观看https://www.bilibili.com/video/BV1hb4y117mu/

第1节：人体姿态估计的基本概念

1.1含义

人体姿态估计的任务是确定图像人体关键点位置坐标，通常包括17个关键点，如图1-1所示。

作为计算机视觉技术的重点领域，人体姿态估计在电影和动画、虚拟现实、人机交互、视频监控、医疗康复、自动驾驶、运动分析等。
电影和动画：电影和动画中需要捕捉人类动作才能塑造出生动的数字角色，廉价且精确的人体动作捕捉系统可以促进数字娱乐产业的发展。
虚拟现实：虚拟现实技术可以应用在教育和娱乐领域中，是一种非常有前景的技术。人体姿态估计可以进一步明确人与虚拟现实世界的关系，增强人们的互动体验。
人机交互：人体姿态估计可以帮助计算机和机器人更好地理解人的位置和行为，有了人体的姿态，计算机和机器人可以轻松地执行指令，变得更加智能。
视频监控：视频监控是指通过人体姿态估计技术对特定范围内的人进行跟踪、动作识别、再识别。
医疗康复：人体姿态估计可以为医生提供人体运动信息，用于康复训练和物理治疗。
自动驾驶：目前自动驾驶技术发展十分迅速。有了人体姿态估计技术，自动驾驶汽车可以对行人做出正确的反应，并与交警进行互动。
运动分析：运动分析是指通过估计体育视频中运动员的姿势，可以得到运动员各项指标的统计数据（如跑步距离、跳跃次数等）。在训练过程中，可以通过人体姿态估计获得动作细节的定量分析。在体育教学中，教师可以对学生做出更客观的评价。

; 1.2挑战

人体姿态估计主要面临三大挑战：

姿态灵活多样：复杂且相互依赖的关节和高度自由的肢体可能导致的自我遮挡或罕见/复杂的姿态。
身体差异显著：包括不同的衣服和相似部位。
环境复杂多变：复杂的环境可能导致前景遮挡、附近人的相似部位、不同的视角以及相机视图的截断导致的遮挡。

如图1-2所示：

1.3分类

人体姿态估计方法从四个不同角度可以分别归类为（1）生成式和判别式；（2）自顶向下和自底向上；（3）基于回归和基于检测；（4）单阶段和多阶段。

生成式和判别式：它们的区别在于是否使用人体模型，由于人体模型具有不同的表示形式，因此生成式方法可以采用不同的方式进行处理。判别式方法不使用人体模型，直接学习从输入到人体姿势空间的映射。判别式方法比生成式方法的速度快，但是对于未训练过的姿态鲁棒性低。
自顶向下和自底向上：自顶向上是先检测出人体，然后再对人体姿态进行估计。而自底向上则是先检测出每个人各个关键点位置，然后利用人体模型对这些关键点进行组合，或采用其他算法对它们进行分组。多人姿态估计中人数越多，自顶向下方法的计算量就越大，而自底向上方法的计算量则会保持相对稳定；然而，当图像中的人体有大面积重叠，自底向上方法的鲁棒性会降低。
基于回归和基于检测：基于回归的方法是直接将输入图像映射到人体关节坐标或人体模型参数。基于检测的方法是将人体各部位作为检测目标，图像块和关节位置热图是常用的表示方法。图像直接映射到关节坐标是一个高度非线性的难题，小区域表示可以提供密集的像素信息，因此具有较强的鲁棒性，但与原尺寸图像相比，小区域表示的检测结果会限制最终关节坐标的精度。
单阶段和多阶段：单阶段方法通过端到端网络将输入图像映射到人体姿态，而多阶段方法通常分为多个阶段，并伴有中间监督，例如，一些多人姿态估计方法会先检测人的位置，然后再估计每个人的姿态。

1.4数据集

数据集对基于深度学习的人体姿态估计非常重要。它可以比较不同算法的优劣，此外数据集的扩展和改进也为人体姿态估计带来了更多的挑战和复杂性。随着商业运动捕捉系统和众包服务的成熟，数据集不再受数据量或实验室环境的限制。

数据集类型内容关节点数样本数LSP单人体育142000FLIC单人影视1020000MPII单人/多人日常1625000MSCOCO多人日常17>=300000AI Challenge多人日常14380000Penn Action单人体育132000

表 1 2D人体姿态估计数据集

LSP数据集（Leeds Sports Pose Dataset）：包含Flickr上的2000张全身姿势图像，这些图片分为八类(田径、羽毛球、棒球、体操、跑酷、足球、网球和排球)。每个人体包含14个关节点。
FLIC数据集（Frames Labeled In Cinema Dataset）：包含从30部著名好莱坞电影截取的5003幅图像，在这30部电影中每10帧进行一次人体检测，获得了大约20000个人体候选区，这些人体候选区被发布到Amazon Mechanical Turk，将获得10个上身关节的真实标签，最后人工删除严重遮挡或非正视图的图像。
MPII数据集（Max Planck Institute for Informatics Human Pose Dataset）：是当前最先进的基准之一，可以评估带有丰富注释的人体姿态估计方法。包含YouTube 491种活动的3913个视频。从视频中选出包含不同人或同一个人的不同姿势的24920帧。每个人注释了16个关节点，每个关节都注释了可见性和左/右标签。
MSCOCO数据集（Microsoft Common Objects in Context Dataset）：COCO数据集是一个大型人体姿态估计数据集，主要从复杂的日常场景中截取图像，图像包括328000影像和2500000个标签。数据集包含超过33 万张图片，其中20 万张有标注，每个人的注释包括17个具有可见性和左/右标签的身体关节。
AI Challenger数据集（AI Challenger Human Keypoint Detection Dataset）：训练样本数最多。包含21万张训练集图像、3万张验证集图像，3万张测试A和3万张测试B图像。这些图像是从互联网搜索引擎中收集的日常生活照。图像中的每个人都用一个边界框和14个关节点进行注释。每个关节点都有可见性和左/右标签。
Penn Action数据集（Penn Action Dataset）：包含从YouTube下载的2326个视频，视频中共有15个动作:棒球投球、棒球挥杆、卧推、保龄球、挺举、高尔夫挥杆、跳绳、千斤顶、上拉、上推、坐起、深蹲、弹吉他、网球正手和网球发球。每个视频都有一个动作类标签，每帧包含一个人体边界框和13个带有可见性和左/右标签的关节点。

数据集采集场景采集人数样本数类型Human3.6M室内113600000运动捕捉HumanEva室内4约80000运动捕捉Total Capture室内51900000运动捕捉MPI-INF-3DHP合成场景8>1300000运动捕捉、图像合成3DPW室外5>50000运动捕捉

表 2 3D人体姿态估计数据集

Human3.6M数据集：是在实验室用marker-based MoCap系统收集的，采集了11名演员(5女和6男)的动作。共收集4个不同视图的3600000个3D人体姿势的图像。演员表演17项日常活动：讨论、吸烟、拍照、打电话等。注释了演员的3D关节位置、关节角度、人物边界框和3D激光扫描。
HumanEva数据集：用ViconPeak的MoCap系统捕获注释。数据集包含与3D身体姿势同步的7个视图视频序列(4个灰度和3种颜色)。4名受试者在3m×2m的捕捉区域内展示6种动作(如散步、慢跑、打手势、投球和接球、拳击、连击)。
TotalCapture数据集：是在室内用8个帧率为60hz的高清摄像机拍摄的。5名演员各表演4种不同的动作，例如瑜伽、指路、弯腰和爬行等。
MPI-INF-3DHP数据集：是在室内和室外场景中收集的。它包含来自14个视角的130多万帧。演员进行锻炼、行走等8项活动。
3DPW数据集：是在自然环境中单手持相机拍摄的，该数据集由60个视频序列(超过51000帧)组成，动作包括日常行走、上楼、喝咖啡等。

1.5评估指标

评估指标是评价人体姿态估计方法的重要标准，我们将人体姿态估计的评估指标分为二维和三维评价指标。
二维评价指标:

评估指标含义具体描述PCP正确部位的百分比如果两个预测的关节位置与真实肢体关节位置之间的距离小于肢体长度的一半，则认为肢体被检测到（正确的部位）,PCP越高，模型越好PCK正确关键点的百分比如果预测关节与真实关节的距离在特定阈值内，则认为检测到的关节是正确的,PCK越高模型越好AP平均准确率真实关节点阈值内的关节点被认为是正确定位的关节点mAP平均AP给AP中的人工阈值T设定不同的值，然后会获得多个AP指标，最后再对多个AP指标求平均，最终获得mAPFrame Rate、 Number of Weights、GFLOPs计算性能指标帧率表示处理输入数据的速度，一般用FPS或s/image表示。权重数和GFLOPs表示网络的效率，与网络设计和使用的gpu / cpu有关

三维评价指标:

评估指标含义具体描述MPJPE平均关节位置误差平均关节位置误差是一张图像中所有真实关节与预测关节之间欧式距离的平均值，MPJPE值越小，性能越好PCK正确关键点的百分比类似于2D评价指标的PCK和AUC，PCK表示阈值内预测关节的百分比，再由PCK阈值计算出AUC

表 3 人体姿态估计评价指标

1.5.1二维评价指标：

不同的数据集具有不同的特征(例如上半身/全身)和不同的任务要求(单人/多人姿态估计)，因此二维人体姿态估计有多个评估指标。

1.正确部位的百分比 – PCP：

如果两个预测的关节位置与真实肢体关节位置之间的距离小于肢体长度的一半，则认为肢体被检测到（正确的部位）。它测量肢体的检出率。结果是，由于较短的肢体具有较小的阈值，因此它会对较短的肢体进行惩罚。PCP越高，模型越好。

2.正确关键点的百分比 – PCK：

如果预测关节与真实关节的距离在特定阈值内，则认为检测到的关节是正确的。阈值可以是：PCKh@0.5是阈值=头部长度的50％，PCK@0.2 ==预测和真实关节之间的距离

Original: https://blog.csdn.net/m0_45850873/article/details/123924543
Author: 不造木木
Title: 人体姿态估计的基本概念

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614899/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Nginx虚拟主机与域名解析

文章目录 * – 一、域名、dns、ip地址之间的关系 – 二、浏览器、nginx与http协议 – 三、虚拟主机原理 – 四、域名…

人工智能 2023年6月28日
0057
Out of memory error on GPU 0. Cannot allocate xxxGB memory on GPU 0, available memory is only xxx

本人刚刚入手cv，见解浅陋，如有不对请多多包含。根据从网上查找的资料，遇到这种情况一般有以下几种解决方法： 1.在程序运行的前面添加如下代码 os.environ[‘…

人工智能 2023年6月24日
0062
Google Cloud Speech-to-Text / Text-to-Speech API 试用

Google Cloud Speech-to-Text / Text-to-Speech API Android试用准备步骤 Speech to text的样例： creden…

人工智能 2023年5月27日
00137
超高分辨率显著目标检测，新颖高效的错层嫁接架构PGNet（CVPR2022）

关注公众号，发现CV技术之美 ▊ 引言最近基于深度学习的显著目标检测方法取得了出色的性能。然而现有的大多数方法多事基于低分辨率输入设计的，这些模型在高分辨率图片上的表现不尽人意，…

人工智能 2023年7月9日
0070
R语言使用dim函数查看数据维度、例如、使用dim函数查看dataframe数据有多少行多少列

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0085
【OpenCV学习】（九）目标识别之车辆检测与计数

【OpenCV学习】（九）目标识别之车辆检测及计数背景本篇将具体介绍一个实际应用项目——车辆检测及计数，在交通安全中是很重要的一项计数；当然，本次完全采用OpenCV进行实现，…

人工智能 2023年6月17日
0099
CS231n 两层神经网络反向传播实现

今天写了cs231n 作业1的两层神经网络的部分，听视频和看讲义的时候觉得挺简单的没在意，后来真正写的时候发现了问题，而且也领悟到了新的东西，反向传播代码实现的奥妙之处。同时也把…

人工智能 2023年7月14日
0055
Adam优化算法

Adam，适应性矩估计（adaptive moment estimation） Adam 优化算法应用在非凸优化问题中所获得的优势：直截了当地实现高效的计算所需内存少梯度…

人工智能 2023年5月26日
0069
轻巧入耳，畅享高音质，雷柏VM700S蓝牙TWS背光游戏耳机开箱实测

说到耳机，先锋真的是测评过了很多很多，全入耳、半入耳、骨传导、头戴式、有线、无线等等耳机，低到几十块，高到几千上万，高价的耳机自然也有它贵的理由，不过也不乏坑人的产品，有时候有些产…

人工智能 2023年5月25日
0079
OpenCV中图像特征提取与描述

目录图像特征提取与描述 * 图像的特征 Harris和Shi-Tomas算法 – Harris角点检测 Shi-Tomasi角点检测小结 SIFT/SURF算法 &…

人工智能 2023年6月25日
0059
今天步行数7000多

要在百度地图上绘制多段路径，可以使用百度地图API提供的API函，并按照以下步骤进行操作： 1. 在HTML文件中引用百度地图API的JS文件和CSS文件。 2. 创建地图实例并…

人工智能 2023年6月30日
0068
自动驾驶仿真：VTD的SCP命令详解

文章目录前言一、SCP与VTD的通讯方式 * – 1、GUI界面发送SCP命令 2、Scenario发送SCP命令 3、外部TCP发送SCP命令二、SCP命令格式…

人工智能 2023年6月11日
0097
安森美为何「上热搜」？汽车业务增量背后的隐忧已经出现

上周，一家半导体公司的信函”惊动”业界。作为全球主要的模拟IC、逻辑芯片和分立半导体组件供应商，安森美在发给客户的信函中提到，必须关闭在中国上海的配送中心…

人工智能 2023年6月11日
0085
录音文件的比特率的计算方法

在Android Q中创建录音文件_需要使用MediaRecorder类。首先需要在应用程序的AndroidManifest.xml _文件_中声明WRITE_EXTERNAL…

人工智能 2023年5月25日
0080
双重差分法之空间DID

简单谈一下我本人对空间双重差分模型（Spatial Difference in Difference Model， SDID ）几点或许不太成熟的理解。（本文首发于个人微信公众…

人工智能 2023年6月2日
00107
利用opencv识别文本

你好呀首先安装好pycharm，我所使用的语言是python，并且利用Tesseract，安装的教程Tesseract OCR 安装过程_清都散闲客的博客-CSDN博客首先选择网…

人工智能 2023年7月19日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31