使用 MoveNet 和 TensorFlow.js 的下一代姿态检测

2023年5月25日下午3:20 • 人工智能 • 阅读 90

发布人：Ronny Votel 和 Na Li，Google Research 团队

今天，我们很高兴推出最新的姿态检测模型 MoveNet，并在 TensorFlow.js 中添加了新的姿态检测 API。MoveNet 是一种非常快速和准确的模型，可检测人体的 17 个关键点。该模型已在 TF Hub 上提供，有两个变体，分别称为”Lightning”和”Thunder”。Lightning 适用于对延迟要求严格的应用，而 Thunder 适用于对准确性要求较高的应用。两种模型变体在大多数现代台式机、笔记本电脑和手机上的运行速度均快于实时速度 (30+ FPS)，这对于直播健身、运动和健康应用至关重要。通过完全在客户端运行该模型的方式可实现对运行速度的需求，即在使用 TensorFlow.js 的浏览器中运行且在初始页面加载后不需要服务器调用，也不需要安装任何依赖项。

TF Hub/运行 http://tensorflow.google.cn/hub
Lightning https://hub.tensorflow.google.cn/google/tfjs-model/movenet/singlepose/lightning/3
Thunder https://hub.tensorflow.google.cn/google/tfjs-model/movenet/singlepose/thunder/3

试用实时演示版！

https://storage.googleapis.com/tfjs-models/demos/pose-detection/index.html?model=movenet

MoveNet 可通过快速动作和非典型姿态来跟踪关键点

【想获取 TensorFlow js. 视频教程，请前往 Bilibili，TensorFlow 渠道查看：https://www.bilibili.com/video/BV1D54y1p7PQ 】

在过去五年里，人体姿态估计研究已有了长足的发展，但是令人惊讶的是，目前部署这类模型的应用还不够多。导致这种情况的原因在于，我们将更多的注意力放在了扩大姿态模型规模和提高准确性上，而不是通过工程设计以使其在任何位置都可以快速部署。借助 MoveNet，我们的任务是设计和优化模型，使其能够利用最新架构的各个最佳优势领域，同时尽可能缩短推理时间。结果我们得到了可以在各种姿态、环境和硬件设置中提供准确关键点的模型。

利用 MoveNet 解锁健康直播应用

我们与数字健康和表现公司 IncludeHealth 展开了合作，以了解 MoveNet 是否可以为患者提供远程医疗服务。IncludeHealth 开发了一款交互式 Web 应用，可以指导患者在家中（使用手机、平板电脑或笔记本电脑）舒适地完成各种日常练习。这些日常练习由物理治疗师以数字方式构建和规定，以测试平衡能力、力量和运动范围。

该服务需要使用网络并在本地运行状态模型以保护隐私。这种模型可以在高帧速率下提供准确的关键点，然后利用这些关键点来量化和验证人体的姿势和运动。虽然通用的现成检测器足以跟踪简单的动作，如肩部外展或全身下蹲，但最先进的检测器很难跟踪更复杂的姿势，如坐姿、膝盖伸展或仰卧姿势(躺下)。这将使他们能够利用错误的数据进行训练。

[En]

This service needs to use the network and run the posture model locally to protect privacy. This kind of model can provide accurate key points at high frame rate, and then use these key points to quantify and verify human posture and movements. Although general off-the-shelf detectors are sufficient to track simple movements such as shoulder abduction or full-body squats, it is difficult for state-of-the-art detectors to track more complex gestures such as sitting, knee stretching or supine posture (lying down). This will allow them to train on the wrong data.

传统检测器（顶部）与 MoveNet（底部）追踪复杂姿态时的比较情况

我们为 IncludeHealth 提供了 MoveNet 的早期版本，可通过新姿态检测 API 进行访问。该模型针对健身、舞蹈和瑜伽姿态进行了训练（请参阅下文了解训练数据集的更多详情）。IncludeHealth 将模型集成到其应用中，并相对于其他可用的姿态检测器对 MoveNet 进行基准测试：

姿态检测 API https://github.com/tensorflow/tfjs-models/tree/master/pose-detection

“MoveNet 模型注入了速度和准确性的强大组合，为规范性护理提供了必要条件。虽然其他模型可以互相替代，但这种独特的平衡已经解锁了新一代的护理服务。Google 团队一直是我们追求这一目标过程的出色合作者。”

——IncludeHealth 创始人兼首席执行官，Ryan Eder 表示

下一步，IncludeHealth 将与医院系统、保险计划和军队合作，以扩展传统护理和培训的范围。

在浏览器中运行的 IncludeHealth 演示版应用，使用 MoveNet 和 TensorFlow.js 支持的关键点估计来量化平衡和运动

安装

有两种方法可以将 MoveNet 与全新的姿态检测 API 结合使用：

1.通过 NPM

import * as poseDetection from '@tensorflow-models/pose-detection';

2. 通过脚本标签：

<script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs-core"></script>
<script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs-converter"></script>
<script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs-backend-webgl"></script>
<script src="https://cdn.jsdelivr.net/npm/@tensorflow-models/pose-detection"></script>

亲自体验！

安装程序包后，您只需执行以下步骤即可开始：

[En]

After installing the package, you only need to follow these steps to get started:

//&#x521B;&#x5EFA;&#x68C0;&#x6D4B;&#x5668;&#x3002;
const detector = await poseDetection.createDetector(poseDetection.SupportedModels.MoveNet);

检测器默认使用 Lightning 版本；如要选择 Thunder 版本，请按如下指示创建检测器：

//&#x521B;&#x5EFA;&#x68C0;&#x6D4B;&#x5668;&#x3002;
const detector = await poseDetection.createDetector(poseDetection.SupportedModels.MoveNet, {modelType: poseDetection.movenet.modelType.SINGLEPOSE_THUNDER});

//&#x5C06;&#x89C6;&#x9891;&#x4E32;&#x6D41;&#x4F20;&#x9012;&#x7ED9;&#x6A21;&#x578B;&#x4EE5;&#x68C0;&#x6D4B;&#x59FF;&#x6001;&#x3002;
const video = document.getElementById('video');
const poses = await detector.estimatePoses(video);

每个姿态包含 17 个关键点，并带有绝对的 x，y 坐标、置信度得分和名称：

console.log(poses[0].keypoints);
// Outputs:
// [
//    {x: 230, y: 220, score: 0.9, name: "nose"},
//    {x: 212, y: 190, score: 0.8, name: "left_eye"},
//    ...

// ]

请参阅我们的 README，了解更多有关 API 的详情。

README https://github.com/tensorflow/tfjs-models/tree/master/pose-detection/src/movenet

如果您开始使用 MoveNet 进行操作和开发，我们将非常期待您的反馈和贡献。如果您要使用此模型制作应用，请在社交网络上用 #MadeWithTFJS 进行标记分享，以便我们找到您的作品，我们期待看到您的创作。

贡献 https://github.com/tensorflow/tfjs-models/pulls

深入探索 MoveNet

MoveNet 架构

MoveNet 是自下而上的估计模型，使用热图来精确定位人体关键点。该架构由两个部分组成：特征提取器和一组预测头。预测方案大致遵循 CenterNet，但相较该架构而言大幅提升了速度和准确性。所有模型均使用 TensorFlow 对象检测 API 进行训练。

TensorFlow 对象检测 API https://github.com/tensorflow/models/tree/master/research/object_detection

MoveNet 中的特征提取器是 MobileNetV2，带有附加的特征金字塔网络 (FPN)，可以实现高分辨率（输出步长为 4）且语义丰富的特征图输出。特征提取器上附带四个预测头，负责密集预测：

人体中心热图：预测人体实例的几何中心
关键点回归场：预测人体的完整关键点集，用于将关键点分组到实例中
人体关键点热图：独立于人体实例，预测所有关键点的位置
每个关键点的 2D 偏移场：预测从每个输出特征图像素到每个关键点的精确子像素位置的局部偏移量

MoveNet 架构

虽然这些预测使用并行计算，但我们也可以考虑按照以下操作顺序深入了解模型的操作：

[En]

Although these predictions use parallel computing, we can also consider understanding the operation of the model in depth in the following order of operations:

第 1 步：人体中心热图用于识别框架中所有个人的中心，定义为属于个人的所有关键点的算术平均值。选择得分最高的位置（通过与框架中心的反距离加权）。

第 2 步：通过对象中心对应的像素分割关键点回归输出来生成该人体的初始关键点集。由于这是 中心向外的预测（必须在不同的尺度上操作），所以回归关键点的质量不会特别准确。

第 3 步：关键点热图中的每个像素都乘以一个权重，该权重与相应回归关键点的距离成反比。这可以确保我们不接受来自背景人物的关键点，因为他们通常不会靠近回归的关键点，因此得分较低。

第 4 步：通过检索每个关键点通道中最大热图值的坐标来选择关键点预测的最终集合。然后将局部 2D 偏移量预测添加到这些坐标以给出精确的估计。请参见下图，详细了解这四个步骤。

MoveNet 后处理步骤

训练数据集

MoveNet 在两个数据集上进行训练：COCO 与名为 Active 的内部 Google 数据集。尽管 COCO 是用于检测的标准基准数据集（由于其场景和规模的多样性），但它不适于训练健身和舞蹈应用，因为这些应用需要捕捉的姿态非常具有挑战性，并且会有明显的运动模糊。而 Active 则是通过标记 YouTube 上瑜伽、健身和舞蹈视频的关键点（采用 COCO 的 17 个身体关键点）制作而成。从每个视频中选择不超过三帧进行训练，以提高场景和个体的多样性。

与仅使用 COCO 进行训练的相同架构相比，对 Active 验证数据集的评估显示出其训练效果有显著提升。这样的结果并不奇怪，因为 COCO 中很少有展示极端姿态（例如瑜伽、俯卧撑、倒立等）的个体。

如需详细了解有关数据集以及 MoveNet 在不同类别中的表现情况，请参阅模型卡。

模型卡 https://storage.googleapis.com/movenet/MoveNet.SinglePose%20Model%20Card.pdf

优化

为了将 MoveNet 打造成高质量的检测器，我们在架构设计、后处理逻辑和数据选择上投入了大量精力。同时，我们也同样重视推理速度。首先，我们选择了将 MobileNetV2 的瓶颈层用于 FPN 横向连接。同样，我们大幅减少了每个预测头中的卷积滤波器数量，以加快输出特征图的执行速度。除 MobileNetV2 第一层外，整个网络都使用了深度可分离卷积。

对 MoveNet 进行反复分析，发现并删除掉特别慢的操作。例如，我们将 tf.math.top_k 替换换为 tf.math.argmax ，因为其执行速度明显更快，并且适用于单人设置。

为确保使用 TensorFlow.js 实现快速执行，所有模型输出都打包到一个输出张量中，因此从 GPU 到 CPU 的下载只有一次。

也许，最显著的提速是针对模型使用 192×192 的图像输入（对于 Thunder，则为 256×256）。为抵消低分辨率，我们基于前一帧的检测结果应用了智能裁剪。这使得模型可以将注意力和资源投入到主体上，而不是背景上。

时间滤波

在高 FPS 摄像头视频流上操作能够从容地对关键点估计应用平滑处理。Lightning 和 Thunder 都对传入的关键点预测流应用了强大的非线性滤波器。我们对该滤波器进行了调整，以同时抑制模型中的高频噪声（即抖动）和离群值，同时还可以在快速运动期间维持高带宽吞吐量。这使得我们在各种情况下都能以最小的延迟实现流畅的关键点可视化。

MoveNet 浏览器性能

为了量化 MoveNet 的推理速度，我们在多个设备上对该模型进行了基准测试。模型延迟时间（以 FPS 表示）在使用 WebGL 的 GPU 和 WebAssembly(WASM) 上进行测量，后者是使用低端 GPU 或无 GPU 的设备的典型后端。

MoveNet 在不同设备和 TF.js 后端之间的推理速度。每个单元格中的第一个数字代表 Lightning，第二个数字代表 Thunder

TF.js 持续优化其后端，以加速所有受支持设备上的模型执行。我们在此处应用了多种技术来帮助模型实现这一性能，例如为深度可分离卷积实施压缩的 WebGL 内核，并为移动版 Chrome 改善 GL 调度。

压缩的 WebGL 内核 https://github.com/tensorflow/tfjs/blob/master/tfjs-backend-webgl/src/conv_packed_gpu_depthwise.ts

如要在您的设备上查看模型的 FPS，请体验我们的演示版。您可以在演示版界面上实时切换模型类型和后端，以查看哪个模型最适合您的设备。

我们的演示版 https://storage.googleapis.com/tfjs-models/demos/pose-detection/index.html?model=movenet

展望未来

我们的下一步计划是将 Lightning 和 Thunder 模型扩展到多人域，以便开发者可以支持在摄像头视野中存在多人的应用。

我们还计划对 TensorFlow.js 后端提速，以加快模型执行速度。具体将通过反复进行基准测试和后端优化来实现。

致谢

我们衷心感谢 MoveNet 的其他贡献者：Yu-Hui Chen、Ard Oerlemans、Francois Belletti、Andrew Bunner 和 Vijay Sundaram，以及参与 TensorFlow.js 姿态检测 API 相关工作的人员：Ping Yu、Sandeep Gupta、Jason Mayes 和 Masoud Charkhabi。

想了解 TensorFlow js. 组件更多实操案例，请前往 Bilibili Google 中国—— TensorFlow 频道查看 Made With TensorFlow js. 中文系列视频。

https://www.bilibili.com/video/BV1D54y1p7PQ

有关 TensorFlow 更多资讯，可前往 TensorFlow 中国官网（tensorflow.google.cn）查看，或扫描下方二维码，关注 TensorFlow 官方公众号！

Original: https://blog.csdn.net/tensorflowforum/article/details/119103626
Author: TensorFlow 社区
Title: 使用 MoveNet 和 TensorFlow.js 的下一代姿态检测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/514794/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【笔记】Neural Parameterization for Dynamic Human Head Editing

Neural Parameterization Introduction mesh方法易于编辑，但表现能力有限，NeRF的效果好，但是难以编辑；这篇工作用隐式方法完成一致性强的动态…

人工智能 2023年6月4日
00106
在AI创新赛道啃下最硬的骨头：中科凡语抢滩NLP蓝海

文丨智能相对论作者丨叶远风自然语言处理（NLP），人工智能皇冠上的”明珠”，由于各个底层算法和技术模块都与业务场景的业务逻辑、数据特点高度捆绑，每一个领…

人工智能 2023年5月28日
0082
在anaconda环境中使用conda命令安装cuda、cudnn、tensorflow（-gpu）、pytorch

conda环境中使用conda命令安装cuda、cudnn、tensorflow（-gpu）、pytorch 操作实例 * cuda安装 – 1 确定cuda版本 2 …

人工智能 2023年7月21日
0083
数据分析师在岗3年小结！

Datawhale干货作者：小尧，数据分析师，Datawhale成员小尧：本科财务类专业毕业后就进入职场打拼，在京东完成了从财务到数据分析的惊险一跃，目前是一家外企的数据分析师…

人工智能 2023年6月11日
0086
面经：图像处理基础

图像处理基础低通滤波去除噪声，高通滤波提取边缘。图像的彩色信息在进行边缘检测时通常是多余的，因此可以在进行边缘检测前先把彩色图像转换成灰度图像。 Opencv提供5种插值方法有…

人工智能 2023年6月22日
0075
关于账本数据库：你想知道的这里都有

💕前言：十二月份出个openGuass集合专栏，带领大家浅浅的认识一下国产数据库吧💕 1. 什么是账本数据库区块链大家想必都耳熟能详，比特币、以太坊甚至狗狗币等代币，作为区块链的…

人工智能 2023年7月31日
0052
python使用pd.to_numeric()方法将数据转为数字类型int或float

pandas.to_numeric(arg, errors=’raise’, downcast=None) [source] 将参数转换为数字类型。默认返…

人工智能 2023年7月6日
0089
架构师之路14. 创业 – 业绩

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月30日
0074
医疗知识图谱问答系统（python neo4j)

这是中科院软件所刘焕勇老师在github上的一个开源项目地址：本项目构建了以疾病为中心的医疗知识图谱，实体规模4.4万，实体关系规模30万。并基于此，搭建起了一个可以回答18类…

人工智能 2023年6月1日
0062
第3章 docker容器管理

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月28日
0069
YOLOv1目标检测算法——通俗易懂的解析

目录 YOLOv1目标检测算法 * 前言一.预测阶段二.训练阶段三.损失函数 YOLOv1目标检测算法前言目标检测=识别+定位 RCNN， Fast RCNN， Fast…

人工智能 2023年7月12日
00102
Windows/Linux安装PyTorch并实现多分类任务

姊妹篇：Windows/Linux安装TensorFlow并实现多分类任务安装PyTorch 前言配编程环境考察的是利用搜索引擎的能力。在配环境时，应该多参考几篇文章。有英文阅…

人工智能 2023年7月2日
0093
智能传感器芯片行业下游市场应用前景分析预测及市场需求结构分析

智能传感器芯片行业下游市场应用前景分析预测及市场需求结构分析（1）智能传感器芯片领域发展现状：智能传感器芯片的主要用途是探测周边环境事件或者物理量的变化，并将变化信息采集、变换…

人工智能 2023年6月11日
0067
【毕业设计】医学大数据分析 – 心血管疾病分析

1 前言 🚩 基于大数据的心血管疾病分析 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数：3分工作量：3分创新点：4分 🧿 选题指导, 项目分享： https://gi…

人工智能 2023年7月16日
0072
【文献阅读】Pre-Training With Whole Word Masking for Chinese BERT

Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese bert[J]. IEEE…

人工智能 2023年5月28日
0084
海康摄像头语音转发

海康摄像头语音转发海康摄像头语音转发简单介绍 * 摄像头后台配置排查错误文件生成问题后续海康摄像机语音转发简介 [En] A brief introduction to …

人工智能 2023年5月27日
00199

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用 MoveNet 和 TensorFlow.js 的下一代姿态检测

MoveNet 架构

训练数据集

优化

时间滤波

大家都在看