Yolov5自学笔记之二–在游戏中实时推理并应用（实例：哈利波特手游跳舞小游戏中自动按圈圈）

2023年5月26日上午9:48 • 人工智能 • 阅读 93

上一篇帖子我已经自学了Yolov5的基本流程，并运用yolov5进行图片、视频、摄像头、网络视频流等多种方式的推理，这些结合到实际工作中就可以有很广泛的应用了。但是还有一类情况，就是在电脑中的某个程序中，需要进行实时推理，比如游戏场景中的推理，这篇帖子我们就来解决一下这个问题。

现在比如我有这么一个需求，在手游哈利波特中有个跳舞的小游戏，其实就是按照一定的节奏来点击那个圆圈圈，我现在希望能够写个程序，自动实现这个功能。

游戏效果大概是这样：

yolov5检测哈利波特跳舞圆圈

1.基本思路

基本思路就是用yolov5对圆圈进行实时目标检测，并依据结果控制鼠标去点击圆圈。

具体来说就是，先用模拟器把手游画面放到桌面，然后抓取这个画面，对画面逐帧进行目标检测，获取圆圈的位置，然后用程序控制鼠标，去点击这个圆圈中心点。

需要用到的工具有以下几个：

1.1从手机画面到电脑桌面

首先考虑，把手游画面搬到电脑桌面，这个有很多手游模拟器都可以做到，我这里选择scrcpy,这是个很好用的在电脑上模拟手机画面的小程序。scrcpy通过adb调试的方式来将手机屏幕投到电脑上，并可以通过电脑控制您的Android设备。它可以通过USB连接，也可以通过Wifi连接（类似于隔空投屏），而且不需要任何root权限，不需要在手机里安装任何程序。scrcpy同时适用于GNU / Linux，Windows和macOS。

关于scrcpy的使用，可以参考下面的帖子：

scrcpy——Android投屏神器(使用教程)_星辰大海-CSDN博客_scrcpy

我自己的百度网盘资源：

链接：https://pan.baidu.com/s/1uavgsCxjDrdmYfpxWyV3Jw
提取码：drmm
–来自百度网盘超级会员V3的分享

1.2目标识别部分

用win32gui抓取电脑上指定区域（手机画面）的画面，然后用CV2对图像处理后送入yolov5进行识别推理，并返回结果。可以同时用另一个窗口显示识别结果（加上识别框的画面）。

如何采集图像数据并训练，可以参考我上一篇文章Yolov5自学笔记之一–从入门到入狱，功能强大不要乱用（实现yolov5的基本功能使用流程及训练自己的数据集）_奢华贝叶斯的博客-CSDN博客

用yolov5训练识别那个圆圈，我本来想识别那个外圈的，后来发现还是识别内圈效果好，所以采集内圈的图片，并进行训练。

识别效果如下：

yolov5识别跳舞圆圈

1.3控制鼠标点击

点击部分，Python有很多控制鼠标的办法，我这里采用的是pyautogui这个库，操作起来比较简单，只要用到其中两个函数 moveTo() 和 click()就行。

2、具体代码实现：

2.1手机设置为开发者模式，手机连接电脑，进入scrcpy目录，直接启动scrcpy.exe，把手机画面放到电脑屏幕左上角

Yolov5自学笔记之二--在游戏中实时推理并应用（实例：哈利波特手游跳舞小游戏中自动按圈圈）

2.2写一个抓取屏幕的函数grabscreen

import cv2
import numpy as np
import win32gui
import win32ui
import win32con
import win32api

def grab_screen(region=None):

    hwin = win32gui.GetDesktopWindow()

    if region:
        left, top, x2, y2 = region
        width = x2 - left + 1
        height = y2 - top + 1
    else:
        width = win32api.GetSystemMetrics(win32con.SM_CXVIRTUALSCREEN)
        height = win32api.GetSystemMetrics(win32con.SM_CYVIRTUALSCREEN)
        left = win32api.GetSystemMetrics(win32con.SM_XVIRTUALSCREEN)
        top = win32api.GetSystemMetrics(win32con.SM_YVIRTUALSCREEN)

    hwindc = win32gui.GetWindowDC(hwin)
    srcdc = win32ui.CreateDCFromHandle(hwindc)
    memdc = srcdc.CreateCompatibleDC()
    bmp = win32ui.CreateBitmap()
    bmp.CreateCompatibleBitmap(srcdc, width, height)
    memdc.SelectObject(bmp)
    memdc.BitBlt((0, 0), (width, height), srcdc, (left, top), win32con.SRCCOPY)

    signedIntsArray = bmp.GetBitmapBits(True)
    img = np.fromstring(signedIntsArray, dtype='uint8')
    img.shape = (height, width, 4)

    srcdc.DeleteDC()
    memdc.DeleteDC()
    win32gui.ReleaseDC(hwin, hwindc)
    win32gui.DeleteObject(bmp.GetHandle())

    return cv2.cvtColor(img, cv2.COLOR_BGRA2RGB)

这个函数的功能是抓取电脑屏幕左上角 width 宽 height 高的一块长方形区域图像并返回该图像的RGB格式图片。

2.3写一个dancing主程序，实现抓取图像、实时推理识别、返回位置并控制鼠标点击等功能

import time
import cv2
import numpy as np
import torch
from models.experimental import attempt_load
from utils.datasets import letterbox
from utils.general import check_img_size, non_max_suppression,scale_coords, xyxy2xywh,set_logging,check_requirements,save_one_box
from utils.plots import colors,Annotator #plot_one_box
from utils.torch_utils import select_device  #time_synchronized
from grabscreen import grab_screen
from PIL import Image
import pyautogui

pyautogui.FAILSAFE = False

@torch.no_grad()
def detect(
        #--------------------这里更改配置--------------------
        #---------------------------------------------------
           weights='weights/best20220126.pt',   #训练好的模型路径
           imgsz=640,           #训练模型设置的尺寸
           cap = 0,             #摄像头
           conf_thres=0.25,     #置信度
           iou_thres=0.45,      #NMS IOU 阈值
           max_det=1000,        #最大侦测的目标数
           device='',           #设备
           crop=True,           #显示预测框
           classes=None,        #种类
           agnostic_nms=False,  #class-agnostic NMS
           augment=False,       #是否扩充推理
           half=False,          #使用FP16半精度推理
           hide_labels=False,   #是否隐藏标签
           hide_conf=False,     #是否隐藏置信度
           line_thickness=3     #预测框的线宽
           ):
        # #--------------------这里更改配置--------------------
        #-----------------------------------------------------

    #-----初始化-----
    set_logging()
    #设置设备
    device = select_device(device)
    #CUDA仅支持半精度
    half &= device.type != 'cpu'

    #-----加载模型-----
    #加载FP32模型
    model = attempt_load(weights, map_location=device)
    #模型步幅
    stride = int(model.stride.max())
    #检查图像大小
    imgsz = check_img_size(imgsz, s=stride)
    #获取类名
    names = model.module.names if hasattr(model, 'module') else model.names
    #toFP16
    if half:
        model.half()

    #------运行推理------
    if device.type != 'cpu':
        model(torch.zeros(1, 3, imgsz, imgsz).to(device).type_as(next(model.parameters())))  # 跑一次

    #-----进入循环：ESC退出-----
    picnum=0
    while(True):
        image_array = grab_screen(region=(0, 0, 1280, 720))

        array_to_image = Image.fromarray(image_array, mode='RGB') #将array转成图像，才能送入yolo进行预测
        img = np.asarray(array_to_image) #将图像转成array

        #设置labels--记录标签/概率/位置
        labels = []
        #计时
        t0 = time.time()
        img0=img
        #填充调整大小
        img = letterbox(img0, imgsz, stride=stride)[0]
        # 转换
        img = img[:, :, ::-1].transpose(2, 0, 1)  #BGR to RGB, to 3x416x416
        img = np.ascontiguousarray(img)

        img = torch.from_numpy(img).to(device)
        #uint8 to fp16/32
        img = img.half() if half else img.float()
        #0 - 255 to 0.0 - 1.0
        img /= 255.0
        if img.ndimension() == 3:
            img = img.unsqueeze(0)

        # 推断
        #t1 = time_synchronized()
        pred = model(img, augment=augment)[0]

        # 添加 NMS
        pred = non_max_suppression(pred, conf_thres, iou_thres, classes, agnostic_nms, max_det=max_det)
        #t2 = time_synchronized()

        #目标进程
        for i, det in enumerate(pred):  # 每幅图像的检测率
            s, im0 = '', img0.copy()
            #输出字符串
            s += '%gx%g ' % img.shape[2:]
            #归一化增益
            gn = torch.tensor(im0.shape)[[1, 0, 1, 0]]
            annotator = Annotator(im0, line_width=line_thickness, example=str(names))
            if len(det):
                # 将框从img_大小重新缩放为im0大小
                det[:, :4] = scale_coords(img.shape[2:], det[:, :4], im0.shape).round()
                # 输出结果
                for c in det[:, -1].unique():
                    #每类检测数
                    n = (det[:, -1] == c).sum()
                    #添加到字符串
                    s += f"{n} {names[int(c)]}{'s' * (n > 1)}, "
                # 结果输出
                for *xyxy, conf, cls in reversed(det):
                    #归一化xywh
                    xywh = (xyxy2xywh(torch.tensor(xyxy).view(1, 4)) / gn).view(-1).tolist()
                    #标签格式
                    line = (cls, *xywh, conf)
                    #整数类
                    c = int(cls)
                    #建立标签
                    label = None if hide_labels else (names[c] if hide_conf else f'{names[c]} {conf:.2f}')

                    #画预测框
                    if crop:
                        #print('right')
                        annotator.box_label(xyxy, label, color=colors(c, True))
                        #plot_one_box(xyxy, im0, label=label, color=colors(c, True), line_thickness=line_thickness)
                    #记录标签/概率/位置
                    labels.append([names[c],conf,xyxy])
                    #print(labels)

                    #设定延迟时间，以画面中的圆圈数来区分速度，画面中只有一个圈的时候就要慢一点，反之则快
                    ys=0
                    if len(labels)

运行界面大概是这样的：

这里要注意的是，圆圈出现的时间节奏是不一样的，所以我利用pyautogui.moveTo()中的duration参数来控制延迟时间去点击圆圈。我大概做了一个判断，当屏幕上只有1个圆圈的时候，大约延迟0.17秒去点，其余类推。当然这个根据不同电脑的机器环境网络环境，自己去微调。

最终实现的效果如下：

哈利波特自动识别跳舞

可以看到，程序最终打出了SS的成绩，圆圈的识别率是100%的，但是完美率不够高，很多只是优秀，甚至还有10个只是良好，这些自己可以再去微调以获得更好的效果。

当然，要想真正实战使用的话，那可以考虑再多一点，比如再识别个外圈，根据外圈收敛的情况来判断鼠标点击的时机等等。因为我的目的还是学习yolov5目标识别，不是制作外挂，所以这里就不展开讨论了。

结论：这个方法可以推广到各种需要根据画面内容来进行判断并点击完成的游戏。当然也可用于实时监测并作出相关反应的程序，比如自动驾驶、比如播放中的视频实时检测等等。

Original: https://blog.csdn.net/qq_41597915/article/details/122738456
Author: 阿尔法羊
Title: Yolov5自学笔记之二–在游戏中实时推理并应用（实例：哈利波特手游跳舞小游戏中自动按圈圈）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/519055/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用 OpenCV 收集数据

OpenCV 是”开源计算机视觉”的缩写，是一个机器学习库，旨在实现图像处理和计算机视觉应用。与对象检测和识别相反，OpenCV 还有一个应用是它收集数据的…

人工智能 2023年7月19日
0057
TASK03|回归

目录 * – + 条件均值建模 + 一般回归模型 + 线性回归模型 + 多元线性回归 + exp2 + ols估计及其性质 + OLS估计的求解 + OLS矩阵的求解 …

人工智能 2023年6月18日
0064
OpenCV python（三）【图像预处理：颜色空间转换】 && 颜色识别

OpenCV python（三）【图像预处理：颜色空间转换】 && 颜色识别一、颜色空间和色域的区别二、颜色空间 * 1、GRAY颜色空间 2、RGB颜色空间 …

人工智能 2023年6月20日
0071
解决YOLOV5训练时P、R、mAP等值均为0的问题

最近用YOLOV5训练自己的数据集，出现了训练失败的情况，比如box，obj，cls，labels等均为nan或0，找了很多办法，其实就是cuda与PyTorch版本的问题 Epo…

人工智能 2023年6月16日
0075
10 【Express基本使用】

10 【Express基本使用】 https://www.expressjs.com.cn/ 基于 Node.js 平台，快速、开放、极简的 web 开发框架。 1.Express…

人工智能 2023年6月28日
0077
机器学习（五）—— 决策树回归模型和集合算法

决策树回归模型和集合算法 1. 决策树概述决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率 ——百度百科 …

人工智能 2023年6月16日
0083
pandas+plotly实现数据图表的绘制和多维度下多个子图的展示

记录使用plotly和pandas实现对数据的处理和绘制,如果要说的高级一点，那可以说是数据可视化plotly是一个图表绘制的三方库，而pandas 则是专业对数据进行处理的三方库…

人工智能 2023年7月8日
0098
使用Java + MapRedcue实现 K-means 聚类算法和基于散点图的可视化

使用Java + MapRedcue实现 K-means 聚类算法和基于散点图的可视化使用Java + MapRedcue实现 K-means 聚类算法，使用python实现基于…

人工智能 2023年6月2日
0094
Python：设置不显示Using TensorFlow backend及FutureWarning: Passing (type, 1) or ‘1type‘ as a synonym of typ

Python：设置不显示Using TensorFlow backend及FutureWarning: Passing type, 1 or ‘1type’…

人工智能 2023年5月23日
0094
YOLOv5 从配置到部署

YOLOv5 从配置到部署 YOLOv5 * 一. 简介二. 安装 (Ubuntu) – 1. 下载源码 2. 配置环境 3. 下载权重 4. 使用GPU(英伟达显卡…

人工智能 2023年5月26日
0063
机器学习——从0开始构建自己的CNN分类网络

目录前言第一步软件安装——anaconda，pycharm 第二步工具安装第三步 Jupyterlab的使用第四步正式开始 1. 文件展示 2. 代码（一）——图片读…

人工智能 2023年7月1日
0073
rate）是什么？如何选择合适的学习速率

问题背景在机器学习中，学习速率(rate)是一个重要的超参数，它决定了参数更新的步伐大小。选择合适的学习速率对于优化算法的性能至关重要。本文将详细介绍学习速率的概念、选择方法以及…

人工智能 2024年1月4日
0061
数据分析-pandas（dataframe）

DataFrame选取列 data={‘Name’:[‘关羽’,’刘备’,’张飞’,’曹操’],’Age’:[28,34,29,42]} index=["rank1&qu…

人工智能 2023年7月7日
0051
【机器学习】机器学习之梯度下降法简单应用(Python)

本文主要是用Python简单程序应用梯度下降法解决一个实际问题，帮助理解机器学习在预测方面的功能作用。一、通过一个人的身高体重性别预测他的腰围数据训练集（可以通过调查获得，这里…

人工智能 2023年7月14日
0055
数据挖掘——航空公司客户分类与价值评估案例

1. 背景和目标 1.1 背景航空公司竞争压力大，企业营销焦点由产品中心转为客户中心针对不同类型的用户，进行精准营销，实现利润最大化解决问题的关键是建立合理的客户价值评估模型…

人工智能 2023年7月3日
00143
DRL基础（一）——强化学习发展历史简述

【摘要】介绍强化学习的起源、发展、主要流派、以及应用。强化学习理论和技术很早就被提出和研究了，属于人工智能三大流派中的行为主义。强化学习一度成为人工智能研究的主流，而最近十年多年随…

人工智能 2023年6月17日
00174

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31