用自建kinetics-skeleton行为识别数据集训练st-gcn网络流程记录

2023年6月30日下午9:13 • 人工智能 • 阅读 91

用自建kinetics-skeleton行为识别数据集训练st-gcn网络流程记录

*
–
+
* 0. 准备工作
* 1. 下载/裁剪视频
* 2. 利用OpenPose提取骨骼点数据,制作kinetics-skeleton数据集
* 3. 训练st-gcn网络
* 4. 用自己训练的st-gcn网络跑demo，并可视化

0. 准备工作

首先就是把st-gcn网络的运行环境完全配置好了，并且可以正常进行行为识别

配置环境参考：

1. 复现旧版STGCN GPU版（win10+openpose1.5.0）

2. 复现st-gcn(win10+openpose1.5.1+VS2017+cuda10+cudnn7.6.4)

对于准备自己的数据集，作者有提到具体的做法，如下所示

we first resized all videos to the resolution of 340x256 and converted the frame rate to 30 fps

we extracted skeletons from each frame in Kinetics by Openpose

rebuild the database by this command:
python tools/kinetics_gendata.py --data_path <path to kinetics-skeleton>

To train a new ST-GCN model, run
python main.py recognition -c config/st_gcn/<dataset>/train.yaml [--work_dir <work folder>]
</work></dataset></path>

1. 下载/裁剪视频

把准备好的视频裁剪成5-8s的视频，用剪映可能比较方便简单

再把裁剪好的视频，利用脚本左右镜像翻转一下，扩充一下数据集，脚本：

import os
import skvideo.io
import cv2

if __name__ == '__main__':

    type_number = 12
    typename_list = []

    for type_index in range(type_number):

        type_filename = typename_list[type_index]

        originvideo_file = './mydata/裁剪/{}/'.format(type_filename)

        videos_file_names = os.listdir(originvideo_file)

        for file_name in videos_file_names:
            video_path = '{}{}'.format(originvideo_file, file_name)

            name_without_suffix = file_name.split('.')[0]
            outvideo_path = '{}{}_mirror.mp4'.format(originvideo_file, name_without_suffix)

            writer = skvideo.io.FFmpegWriter(outvideo_path,
                                        outputdict={'-f': 'mp4', '-vcodec': 'libx264', '-r':'30'})
            reader = skvideo.io.FFmpegReader(video_path)
            for frame in reader.nextFrame():
                frame_mirror = cv2.flip(frame, 1)
                writer.writeFrame(frame_mirror)
            writer.close()
            print('{} mirror success'.format(file_name))

        print('the video in {} are all mirrored'.format(type_filename))
        print('-------------------------------------------------------')

2. 利用OpenPose提取骨骼点数据,制作kinetics-skeleton数据集

这一步主要的目的是把自己的视频数据集创建成kinetics-skeleton数据集一样的格式，格式大致如下图

用自建kinetics-skeleton行为识别数据集训练st-gcn网络流程记录

st-gcn作者有提供他们整理好并使用的kinetics-skeleton数据集，GoogleDrive，不过是谷歌网盘，需要翻墙才能下载。我这里上传到了百度网盘，提取码：sqpx，仅供参考

首先就是按照类别，把自己的视频分门别类，放在不同的文件夹下，然后主要通过两个脚本来提取数据。

第一个自己写的脚本的主要部分如下所示。这个脚本可以说是st-gcn源代码的./processor/demo_old.py中的一部分。主要先对视频数据进行resize至340×256的大小，30fps的帧率。然后调用openpose的进行骨骼点数据的检测和输出。我在其基础上加了一些批量处理各个文件夹下的视频数据的操作。


import os
import argparse
import json
import shutil

import numpy as np
import torch
import skvideo.io

from .io import IO
import tools
import tools.utils as utils

class PreProcess(IO):
"""
        利用openpose提取自建数据集的骨骼点数据
"""
    def start(self):

        work_dir = './st-gcn-master'

        type_number = 12
        gongfu_filename_list = ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12']

        for process_index in range(type_number):

            gongfu_filename = gongfu_filename_list[process_index]

            labelgongfu_name = 'xxx_{}'.format(process_index)
            label_no = process_index

            originvideo_file = './mydata/裁剪/{}/'.format(gongfu_filename)

            resizedvideo_file = './mydata/裁剪/resized/{}/'.format(gongfu_filename)

            videos_file_names = os.listdir(originvideo_file)

            for file_name in videos_file_names:
                video_path = '{}{}'.format(originvideo_file, file_name)
                outvideo_path = '{}{}'.format(resizedvideo_file, file_name)
                writer = skvideo.io.FFmpegWriter(outvideo_path,
                                            outputdict={'-f': 'mp4', '-vcodec': 'libx264', '-s': '340x256', '-r':'30'})
                reader = skvideo.io.FFmpegReader(video_path)
                for frame in reader.nextFrame():
                    writer.writeFrame(frame)
                writer.close()
                print('{} resize success'.format(file_name))

            resizedvideos_file_names = os.listdir(resizedvideo_file)
            for file_name in resizedvideos_file_names:
                outvideo_path = '{}{}'.format(resizedvideo_file, file_name)

                openpose = '{}/OpenPoseDemo.exe'.format(self.arg.openpose)
                video_name = file_name.split('.')[0]
                output_snippets_dir = './mydata/裁剪/resized/snippets/{}'.format(video_name)
                output_sequence_dir = './mydata/裁剪/resized/data'
                output_sequence_path = '{}/{}.json'.format(output_sequence_dir, video_name)

                label_name_path = '{}/resource/kinetics_skeleton/label_name_gongfu.txt'.format(work_dir)
                with open(label_name_path) as f:
                    label_name = f.readlines()
                    label_name = [line.rstrip() for line in label_name]

                openpose_args = dict(
                    video=outvideo_path,
                    write_json=output_snippets_dir,
                    display=0,
                    render_pose=0,
                    model_pose='COCO')
                command_line = openpose + ' '
                command_line += ' '.join(['--{} {}'.format(k, v) for k, v in openpose_args.items()])
                shutil.rmtree(output_snippets_dir, ignore_errors=True)
                os.makedirs(output_snippets_dir)
                os.system(command_line)

                video = utils.video.get_video_frames(outvideo_path)

                height, width, _ = video[0].shape

                video_info = utils.openpose.json_pack(
                    output_snippets_dir, video_name, width, height, labelgongfu_name, label_no)

                if not os.path.exists(output_sequence_dir):
                    os.makedirs(output_sequence_dir)

                with open(output_sequence_path, 'w') as outfile:
                    json.dump(video_info, outfile)
                if len(video_info['data']) == 0:
                    print('{} Can not find pose estimation results.'.format(file_name))
                    return
                else:
                    print('{} pose estimation complete.'.format(file_name))

之后就是把提取得到的骨骼点数据的json文件做一下整理，按照上面图中的kinetics-skeleton数据集的格式。kinetics_train文件夹保存训练数据，kinetics_val文件夹保存验证数据。文件夹外两个json文件主要包含了对应文件夹中所有的文件名称、行为标签名和行为标签索引。这两个json文件的生成脚本可以参考如下所示

import json
import os

if __name__ == '__main__':
    train_json_path = './mydata/kinetics-skeleton/kinetics_train'
    val_json_path = './mydata/kinetics-skeleton/kinetics_val'

    output_train_json_path = './mydata/kinetics-skeleton/kinetics_train_label.json'
    output_val_json_path = './mydata/kinetics-skeleton/kinetics_val_label.json'

    train_json_names = os.listdir(train_json_path)
    val_json_names = os.listdir(val_json_path)

    train_label_json = dict()
    val_label_json = dict()

    for file_name in train_json_names:
        name = file_name.split('.')[0]
        json_file_path = '{}/{}'.format(train_json_path, file_name)
        json_file = json.load(open(json_file_path))

        file_label = dict()
        if len(json_file['data']) == 0:
            file_label['has_skeleton'] = False
        else:
            file_label['has_skeleton'] = True
        file_label['label'] = json_file['label']
        file_label['label_index'] = json_file['label_index']

        train_label_json['{}'.format(name)] = file_label

        print('{} success'.format(file_name))

    with open(output_train_json_path, 'w') as outfile:
        json.dump(train_label_json, outfile)

    for file_name in val_json_names:
        name = file_name.split('.')[0]
        json_file_path = '{}/{}'.format(val_json_path, file_name)
        json_file = json.load(open(json_file_path))

        file_label = dict()
        if len(json_file['data']) == 0:
            file_label['has_skeleton'] = False
        else:
            file_label['has_skeleton'] = True
        file_label['label'] = json_file['label']
        file_label['label_index'] = json_file['label_index']

        val_label_json['{}'.format(name)] = file_label

        print('{} success'.format(file_name))

    with open(output_val_json_path, 'w') as outfile:
        json.dump(val_label_json, outfile)

3. 训练st-gcn网络

这一部分可以参考如下所示的博文中的第三——第六部分

st-gcn训练自建行为识别数据集

4. 用自己训练的st-gcn网络跑demo，并可视化

这部分可以通过改写st-gcn源码中的./processor/demo_old.py脚本来实现。主要需要注意的是，记得修改读取的行为类别的标签文件名，以及修改对应的yaml配置文件中模型名称和类别数量等参数

Original: https://blog.csdn.net/Lujiahao98689/article/details/121447175
Author: trajectories
Title: 用自建kinetics-skeleton行为识别数据集训练st-gcn网络流程记录

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662072/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【第一话】他居然只用了一把王者的时间就入门了大数据？

🌕写在前面 🍊博客主页：kikoking的江湖背景 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 🌟本文由 kikokingzz 原创，CSDN首发！ 📚参考书籍：《大话数据科学》 📆首发时间…

人工智能 2023年6月19日
00107
2021年度总结 | 葡萄城软件开发技术回顾（下）

2021年度总结 | 葡萄城软件开发技术回顾（下）在上节中，我们介绍了在过去一年中葡萄城在控件领域中的一些新探索，新尝试。（详细内容：https://www.cnblogs.c…

人工智能 2023年7月18日
0077
tensorflow学习记录，加载Fashion MNIST数据集，以及构建三层全连接神经元对6000张照片进行训练

首先是导入tensorflow： import tensorflow as tf print(tf.__version__) 加载Fashion MNIST数据集： from te…

人工智能 2023年5月26日
0070
开发一个会叫自己“爷爷”的“孙子”，是一种什么样的体验？

独居的生活很是无聊，如果有什么成精的东西和我聊聊天就好了… “独居的生活很是无聊，如果有什么成精的东西和我聊聊天就好了”，基于这个独特的想法，我…

人工智能 2023年5月25日
0089
【yolov3详解】一文让你读懂yolov3目标检测原理

yolov3目标检测原理目录 * – 前言 – 一、详细过程 – 二、yolov3检测流程原理（重点） – + 第一步：从特征获取预…

人工智能 2023年7月9日
0058
【自动驾驶】高级辅助驾驶系统与车联网

【自动驾驶】高级辅助驾驶系统与车联网 Note：本文是对刘春晖教授的高级辅助驾驶系统与车联网(上)，高级辅助驾驶系统与车联网(下) 论文进行排版整理，由于论文中插图较多，并没有全…

人工智能 2023年6月10日
00142
论文翻译：2021_语音增强模型压缩_Towards model compression for deep learning based speech enhancement

论文地址：面向基于深度学习的语音增强模型压缩论文代码：没开源，鼓励大家去向作者要呀，作者是中国人，在语音增强领域深耕多年引用格式：Tan K, Wang D L. Towards…

人工智能 2023年6月6日
00108
OpenCV中的图像处理 —— 傅里叶变换+模板匹配

OpenCV中的图像处理 —— 傅里叶变换+模板匹配现在也在逐渐深入啦，希望跟大家一起进步越来越强目录 * – OpenCV中的图像处理 —— 傅里叶变换+模板匹配…

人工智能 2023年6月22日
0097
最全面的SpringMVC教程（一）——SpringMVC简介

前言本文为 SpringMVC相关教程，下边将对SpringMVC进行简单介绍，具体包含：对 MVC架构的回顾， &#x4EC…

人工智能 2023年7月29日
0065
基于Pytorch实现RNN（多层RNN，双向RNN）进行文本分类

RNN: ; 公式：多层RNN，前层的输出ht作为后层的输入xt： ; 双向RNN: 因为时刻t的输出不仅取决于之前时刻的信息，还取决于未来的时刻，所以有了双向RNN。比如要预测…

人工智能 2023年5月30日
00107
三元音音频分析以及三基色熵的计算

什么是元音？百度百科中所解释的”元音” 元音（Vowel），又称母音，是音素的一种，与辅音相对，是在发音过程中由气流通过口腔而不受阻碍发出的音。元音发音…

人工智能 2023年5月27日
0095
Bayer到RGB，格式转换原理及具体实现

缘起使用海康彩色相机，采集到的图像数据是Bayer GR8格式的，如果在相机参数中改为其它彩色格式，那就是相机内部完成格式转化，就会导致采集帧率变慢。一般情况下这种方式是简单实用…

人工智能 2023年5月26日
0068
pyspark的聚合函数agg使用

pyspark中聚合函数agg的使用作为聚合函数agg，通常是和分组函数groupby一起使用，表示对分组后的数据进行聚合操作；如果没有分组函数，默认是对整个dataframe进…

人工智能 2023年7月7日
0073
Pytorch交叉熵损失（CrossEntropyLoss）函数内部运算解析

CLASS torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=- 100,reduce=…

人工智能 2023年6月17日
0089
环境配置 | 图文VS2022配置OpenCV，Dlib

1.VS2022配置OpenCV OpenCV: 1.1.下载Visual Studio 2022（略） 1.2.下载OpenCV（4.6.0版本）下载地址：Download O…

人工智能 2023年6月19日
0089
逻辑回归模型的预测性能如何评估

问题描述在机器学习中，我们经常需要使用预测模型来对未知数据进行分类或者判断。逻辑回归是一种常用的分类算法，它可以将数据映射到一个0-1之间的概率值，从而用于分类问题。但是如何评估…

人工智能 2023年12月31日
0033

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

用自建kinetics-skeleton行为识别数据集训练st-gcn网络流程记录

用自建kinetics-skeleton行为识别数据集训练st-gcn网络流程记录

0. 准备工作

1. 下载/裁剪视频

2. 利用OpenPose提取骨骼点数据,制作kinetics-skeleton数据集

3. 训练st-gcn网络

4. 用自己训练的st-gcn网络跑demo，并可视化

大家都在看