【MediaPipe】(2) AI视觉，人体姿态关键点实时跟踪，附python完整代码

2023年7月18日下午11:23 • 人工智能 • 阅读 72

各位同学好，今天和大家分享一下如何使用 MediaPipe完成 人体姿态关键点的实时跟踪检测，先放张图看效果，FPS值为17，右下输出框为32个人体关键点的xy坐标。

有需要的可以使用 cv2.VideoCapture(0)捕获电脑摄像头。本节就用马老师的视频来跟踪人体姿态。

【MediaPipe】(2) AI视觉，人体姿态关键点实时跟踪，附python完整代码

1. 导入工具包

安装opencv
pip install opencv-contrib-python
安装mediapipe
pip install mediapipe
pip install mediapipe --user  #有user报错的话试试这个

安装之后导入各个包
import cv2  #opencv
import mediapipe as mp
import time

人体姿态检测相关说明见官方文档：Pose – mediapipe (google.github.io)

MediaPipe Pose 中的地标模型预测了 33 个姿势地标的位置（见下图）。

2. 相关函数说明

从mediapipe中导入检测方法，今天我们使用 mediapipe.solutions.pose，其他的后续章节再写。

mediapipe.solutions.hands  # 手部关键点检测
mediapipe.solutions.pose   # 人体姿态检测
mediapipe.solutions.face_mesh  # 人脸网状检测
mediapipe.solutions.face_detection  # 人脸识别
....................

（1）mediapipe.solutions.pose.Pose()姿态关键点检测函数

参数：

static_image_mode：默认为 False，将输入图像视为视频流。它将尝试在第一张图像中检测最突出的人，并在成功检测后进一步定位姿势地标。在随后的图像中，它只是简单地跟踪那些地标，而不会调用另一个检测，直到失去对目标的跟踪，可以减少计算和延迟。若为 True，则会对每张输入图像执行人体检测方法，非常适合处理一批静态的、可能不相关的图像。

model_complexity：默认为 1，姿势地标模型的复杂度：0、1 、2。地标准确度和推理延迟通常随着模型复杂度的增加而增加。

smooth_landmarks：默认为 True，平滑图像，过滤不同的输入图像上的姿势地标以减少抖动，但如果 static_image_mode也设置为 True则忽略。

upper_body_only：默认为 False，是否只检测上半身的地标。人体姿势共有33个地标，上半身的姿势地标有25个。

enable_segmentation：默认为 False。如果设置为 true，除了姿势地标之外，该解决方案还会生成分割掩码。

smooth_segmentation：默认为 True，过滤不同的输入图像上的分割掩码以减少抖动，但如果 enable_segmentation设置为 False，或者 static_image_mode设置为 True则忽略。

min_detection_confidence：默认为 0.5，来自人员检测模型的最小置信值 (0-1之间)，高于该阈值则认为检测视为成功。

min_tracking_confidence：默认为 0.5。来自地标跟踪模型的最小置信值 (0-1之间)，用于将被视为成功跟踪的姿势地标，否则将在下一个输入图像上自动调用人物检测。将其设置为更高的值可以提高解决方案的稳健性，但代价是更高的延迟。如果 static_image_mode为 True，则人员检测将在每帧图像上运行。

返回值：

具有 ” pose_landmarks” 字段的 NamedTuple 对象，其中包含检测到的最突出人物的姿势坐标。

（2）mediapipe.solutions.drawing_utils.draw_landmarks()绘制手部关键点的连线

参数：

image：需要画图的原始图片

landmark_list：检测到的手部关键点坐标

connections：连接线，需要把那些坐标连接起来

landmark_drawing_spec：坐标的颜色，粗细

connection_drawing_spec：连接线的粗细，颜色等

3. 绘制关键点和连线

使用 cv2.VideoCapture()读取视频文件时，文件路径最好不要出现中文，防止报错。

变量.read() 每次执行就从视频中提取一帧图片，需要循环来不断提取。用 success来接收是否能打开， 返回True表示可以打开。 img保存返回的的每一帧图像。

由于读入视频图像通道一般为 RGB，而 opencv中图像通道的格式为 BGR，因此需要 cv2.cvtColor()函数 将opencv读入的视频图像转为RGB格式 cv2.COLOR_BGR2RGB。

在绘制人体关键点时 mpDraw.draw_landmarks()； results.pose_landmarks获取所有关键点信息；如果不传入参数 mpPose.POSE_CONNECTIONS，那么就不会绘制关键点之间的连线。

import cv2
import mediapipe as mp
import time

导入姿态跟踪方法
mpPose = mp.solutions.pose  # 姿态识别方法
pose = mpPose.Pose(static_image_mode=False, # 静态图模式，False代表置信度高时继续跟踪，True代表实时跟踪检测新的结果
                   #upper_body_only=False,  # 是否只检测上半身
                   smooth_landmarks=True,  # 平滑，一般为True
                   min_detection_confidence=0.5, # 检测置信度
                   min_tracking_confidence=0.5)  # 跟踪置信度
检测置信度大于0.5代表检测到了，若此时跟踪置信度大于0.5就继续跟踪，小于就沿用上一次，避免一次又一次重复使用模型

导入绘图方法
mpDraw = mp.solutions.drawing_utils

#（1）导入视频
filepath = 'C:\\GameDownload\\Deep Learning\\master.mp4'
cap = cv2.VideoCapture(filepath)

pTime = 0  # 设置第一帧开始处理的起始时间

#（2）处理每一帧图像
while True:

    # 接收图片是否导入成功、帧图像
    success, img = cap.read()

    # 将导入的BGR格式图像转为RGB格式
    imgRGB = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

    # 将图像传给姿态识别模型
    results = pose.process(imgRGB)

    # 查看体态关键点坐标，返回x,y,z,visibility
    # print(results.pose_landmarks)

    # 如果检测到体态就执行下面内容，没检测到就不执行
    if results.pose_landmarks:

        # 绘制姿态坐标点，img为画板，传入姿态点坐标，坐标连线
        mpDraw.draw_landmarks(img, results.pose_landmarks, mpPose.POSE_CONNECTIONS)

    # 查看FPS
    cTime = time.time() #处理完一帧图像的时间
    fps = 1/(cTime-pTime)
    pTime = cTime  #重置起始时间

    # 在视频上显示fps信息，先转换成整数再变成字符串形式，文本显示坐标，文本字体，文本大小
    cv2.putText(img, str(int(fps)), (70,50), cv2.FONT_HERSHEY_PLAIN, 3, (255,0,0), 3)

    # 显示图像，输入窗口名及图像数据
    cv2.imshow('image', img)
    if cv2.waitKey(10) & 0xFF==27:  #每帧滞留15毫秒后消失，ESC键退出
        break

释放视频资源
cap.release()
cv2.destroyAllWindows()

绘制人体33个关键点及连线

4. 保存坐标点信息，绘图编辑

接下来，我们 将33个关键点的坐标保存下来，并将这些关键点放大一些，使其更加明显。因此我们补充上面的代码。

由于 results.pose_landmarks.landmark中保存的 xyz坐标是归一化后的 比例坐标，即某一像素点在图像的某一比例位置，如[0.5, 0.5]。我们需要将其转为 像素坐标，如[200,200]， 像素坐标一定是整数。通过 图像宽高乘以各自比例即可得到像素坐标下的宽高。为了能更明显的显示关键点，把关键点画的大一些，只需 以关键点的像素坐标为圆心画圆 cv2.circle()即可。将像素坐标保存到 lmlist中。

import cv2
import mediapipe as mp
import time

导入姿态跟踪方法
mpPose = mp.solutions.pose  # 姿态识别方法
pose = mpPose.Pose(static_image_mode=False, # 静态图模式，False代表置信度高时继续跟踪，True代表实时跟踪检测新的结果
                   #upper_body_only=False,  # 是否只检测上半身
                   smooth_landmarks=True,  # 平滑，一般为True
                   min_detection_confidence=0.5, # 检测置信度
                   min_tracking_confidence=0.5)  # 跟踪置信度
检测置信度大于0.5代表检测到了，若此时跟踪置信度大于0.5就继续跟踪，小于就沿用上一次，避免一次又一次重复使用模型

导入绘图方法
mpDraw = mp.solutions.drawing_utils

#（1）导入视频
filepath = 'C:\\GameDownload\\Deep Learning\\master.mp4'
cap = cv2.VideoCapture(filepath)

pTime = 0  # 设置第一帧开始处理的起始时间

#（2）处理每一帧图像
lmlist = [] # 存放人体关键点信息

while True:

    # 接收图片是否导入成功、帧图像
    success, img = cap.read()

    # 将导入的BGR格式图像转为RGB格式
    imgRGB = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

    # 将图像传给姿态识别模型
    results = pose.process(imgRGB)

    # 查看体态关键点坐标，返回x,y,z,visibility
    # print(results.pose_landmarks)

    # 如果检测到体态就执行下面内容，没检测到就不执行
    if results.pose_landmarks:

        # 绘制姿态坐标点，img为画板，传入姿态点坐标，坐标连线
        mpDraw.draw_landmarks(img, results.pose_landmarks, mpPose.POSE_CONNECTIONS)

        # 获取32个人体关键点坐标, index记录是第几个关键点
        for index, lm in enumerate(results.pose_landmarks.landmark):

            # 保存每帧图像的宽、高、通道数
            h, w, c = img.shape

            # 得到的关键点坐标x/y/z/visibility都是比例坐标，在[0,1]之间
            # 转换为像素坐标(cx,cy)，图像的实际长宽乘以比例，像素坐标一定是整数
            cx, cy = int(lm.x * w), int(lm.y * h)

            # 打印坐标信息
            print(index, cx, cy)

            # 保存坐标信息
            lmlist.append((cx, cy))

            # 在关键点上画圆圈，img画板，以(cx,cy)为圆心，半径5，颜色绿色，填充圆圈
            cv2.circle(img, (cx,cy), 3, (0,255,0), cv2.FILLED)

    # 查看FPS
    cTime = time.time() #处理完一帧图像的时间
    fps = 1/(cTime-pTime)
    pTime = cTime  #重置起始时间

    # 在视频上显示fps信息，先转换成整数再变成字符串形式，文本显示坐标，文本字体，文本大小
    cv2.putText(img, str(int(fps)), (70,50), cv2.FONT_HERSHEY_PLAIN, 3, (255,0,0), 3)

    # 显示图像，输入窗口名及图像数据
    cv2.imshow('image', img)
    if cv2.waitKey(10) & 0xFF==27:  #每帧滞留15毫秒后消失，ESC键退出
        break

释放视频资源
cap.release()
cv2.destroyAllWindows()

结果如下，右下输出框打印每一帧图像的关键点的xy坐标信息

Original: https://blog.csdn.net/dgvv4/article/details/122038705
Author: 立Sir
Title: 【MediaPipe】(2) AI视觉，人体姿态关键点实时跟踪，附python完整代码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/701736/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python 循环总结

Python 循环 Python 有两个循环命令： while 循环 for 循环一、while 循环使用 while 循环，只要条件为真，我们就可以执行一组语句。 i=0 w…

人工智能 2023年7月4日
0062
分类—逻辑回归（二分类）

逻辑回归的基本原理：逻辑回归预测的是概率，需要求解的是如何选取参数c和b可以使得所有样本预测正确的可能性最大。逻辑回归算法需要找到分类概率P(y=1)与输入向量X的直接关系，然后通…

人工智能 2023年7月3日
0097
OpenCV学习笔记（一）、VS2015+OpenCV-4.1.1环境配置（Windows10）

1、登陆OpenCV官网，点击打开Releases，会看到各个版本的OpenCV安装文件，选择自己想要的版本下载即可。下载网址：https://opencv.org/release…

人工智能 2023年6月4日
0083
【SaaS金羊毛】微信小程序We分析

微信前几天发布了通告https://mp.weixin.qq.com/cgi-bin/announce?action=getannouncement&announce_id…

人工智能 2023年7月15日
0078
使用C++ OpenCV实现椭圆区域检测与Aruco码的生成与检测并估计位姿

前景概要很多机器视觉的定位与识别场景，如无人车、无人机，都会用 Aruco码或特定的标志物来实现，Aruco码的优点在于，xxxx(自行搜索)。对于像在低成本轻量级的无…

人工智能 2023年6月19日
0088
计算机网络 – IPv4 常考知识点详解(超详细！)

目录一、IPv4分组 1、IPv4分组的格式 2、IP数据报分片 3、网络层转发分组的流程二、IPv4地址与NAT 1、IPv4地址 2、NAT 三、子网划分与子网掩码、CID…

人工智能 2023年6月27日
00152
【Python】初学者喜欢的入门笔记 – 逻辑判断语句 if elif else

博主：爱吃蛋黄酱的个人主页推荐博主：.29.的个人主页推荐学习社区：进社区逛一逛~🌏天赋不属于绝大多数人，但是成功决定于你的努力 Python入门笔记 ⚪True or False…

人工智能 2023年7月3日
0083
今天面了个阿里拿27k出来的小哥，让我见识到了什么是天花板

2022年堪称大学生就业最难的一年，应届毕业生人数是1076万。失业率超50%！但是我观察到一个数据，那就是已经就业的毕业生中，计算机通信等行业最受毕业生欢迎！计算机IT行业薪资…

人工智能 2023年7月31日
0050
基于单片机的多功能定时器

设计简介：本设计是基于单片机的多功能定时器，主要实现以下功能：可实现LCD1602显示时间和闹钟序号；可实现通过按键调节时间和设置闹钟；可实现通过按键可以进行倒计时，并且可…

人工智能 2023年5月25日
0082
make_classification函数

sklearn.datasets.make_classification(n_samples=100, n_features=20, *, n_informative=2, n_r…

人工智能 2023年6月15日
0086
Python使用PaddleOCR本地进行视频字幕识别

本文简述了利用OpenCV库以及PaddleOCR库对视频预定位置进行字幕提取并整合识别，在实际工程中，可以调用OCR的识别输出接口进行识别内容的批量保存。后续改进方向参考： 1…

人工智能 2023年6月20日
00105
数据一致性离不开的checkpoint机制

checkpoint 如果系统每次收到写入请求后，等待数据完全写入持久化存储再返回结果，这样数据丢失的可能性大大减少，但是一般持久化操作都是磁盘IO操作(甚至网络IO操作），处理的…

人工智能 2023年6月27日
0073
《SLAM十四讲》slambook2 遇到的坑（持续更新ing）

《SLAM十四讲》slambook2 遇到的坑 ch5 01安装opencv时，正常安装后便可以使用，注意检查CmakeLists.txt文件有没有搜索包含opencv库 02问题…

人工智能 2023年5月26日
00141
【python基础】python中常用字符串函数详解

建议使用find，因为如果没有找到匹配的字符串，index方法会报异常。方法名称功能find(str, beg=0, end=len(string))查找子串str第一次出现的位…

人工智能 2023年7月6日
0073
机器学习（五）—— 决策树回归模型和集合算法

决策树回归模型和集合算法 1. 决策树概述决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率 ——百度百科 …

人工智能 2023年6月13日
0079
＜＜视觉问答＞＞2021：Zero-shot Visual Question Answering usingKnowledge Graph

目录摘要：一、介绍二、相关工作 2.1、Visual Question Answering 2.2、Zero-shot VQA 三、Preliminaries 四、Metho…

人工智能 2023年6月1日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【MediaPipe】(2) AI视觉，人体姿态关键点实时跟踪，附python完整代码

（1）mediapipe.solutions.pose.Pose()姿态关键点检测函数

（2）mediapipe.solutions.drawing_utils.draw_landmarks()绘制手部关键点的连线

大家都在看