基于YOLO目标检测及OpenCV实现的游戏代玩人工智能体(Auto Gaming Agent) [4]

2023年7月9日上午11:18 • 人工智能 • 阅读 115

大型生存类游戏自动代玩人工智能[4] — 自动控制

一、键鼠自动操作
*
–
- 1. 操作游戏角色
- 2. 瞄准目标
二、自动采集
*
–
- 1. OCR文字识别
- 2. 多线程运行

一、键鼠自动操作

一般电脑上的游戏操作主要依靠键盘和鼠标，而达成自动操作键鼠一般不会真正控制实体的键鼠，因为难度太大了，所以一般采用软件模拟的方式来控制虚拟的键盘和鼠标，最终目的都是让游戏系统准确的知道你的操作意图。

比较常用的虚拟键盘和鼠标的pip库是 keyboard和 mouse，小巧又不失强大，基本的控制、捕捉、热键设置都能实现。当然如果追求性能和游戏兼容性可以使用另一个库 pydirectinput，使用了Windows的DirectX驱动中的DirectInput API，基本所有windows平台的游戏都会用这个API来获取玩家的键鼠输入，所有这个库是键鼠操作的终极方案，因为大部分游戏不支持 mouse库直接移动角色的镜头视角。

不过 pydirectinput使用起来不那么方便，偶尔有些小bug，所以这个项目还是以 keyboard和 mouse为主。使用pip安装很简单：

pip install keyboard mouse

安装完成后在代码中导入库：

import keyboard
import mouse

1. 操作游戏角色

游戏角色主要有改变镜头视角（鼠标移动）、移动（WASD）、采集/射击（鼠标左键）三个基本操作。像上面提到的，因为游戏使用了DirectInput来获取鼠标输入，鼠标移动的操作无法使用 mouse库的虚拟鼠标来完成，而且鼠标移动的控制算法相对复杂，本项目为了简化操作，使用模拟器的键盘映射来实现键盘控制角色视角，所以只需要 keyboard库即可执行所有操作。

视角的左右旋转和上下俯仰被映射到键盘上的 ↑ ↓ ← →键，对应 keyboard库的 up down left right键值。角色的移动就是常用的WASD四键，对应 keyboard库的 w a s d键值。鼠标左键映射到键盘上的回车，对应 keyboard库的 enter键值。

keyboard库的使用很简单，执行一次按键操作（以 ←键为例）：

keyboard.press_and_release('left')

一直按住不放：

keyboard.press('left')

松开按键：

keyboard.release('left')

结合 time模块，构造一个持续任意时间的按键操作的函数：

import time, keyboard
def pressKey(key,t):
    keyboard.press(key)
    time.sleep(t)
    keyboard.release(key)

后面将以这个函数为基础控制镜头视角的移动，以实现将镜头中心瞄准到目标物体的中心。

2. 瞄准目标

上一篇中我们使用yolo目标检测识别出了游戏场景中的目标，现在我们就利用识别出的目标信息，将我们的视角瞄准到目标上，便于后续的采集或者射击等操作。

瞄准目标本质上是一个闭环控制过程，经典的闭环控制算法是比例积分微分控制(PID control)，这里因为我们对瞄准的精度要求不是很高，可以只采用其中的比例控制来实现。比例控制算法简单而且响应快，缺点是无法精确控制而且容易发生震荡(oscillation)和超调(overshoot)，这些可以通过加入积分和微分控制进行优化。而为了寻求最简方法，我们直接扩大目标的范围来避免震荡和超调。

整个控制逻辑非常简单，我们以屏幕中心点为控制目标(640×360)，计算识别出的物体中心点与屏幕中心点的差值，通过左右移动角色视角，使这个差值控制在-50~50的范围以内，当然这个范围可以根据实际情况调整，范围越小越精确同时也越容易震荡和超调。识别出了多个物体的话按照近大远小原则，选出距离最近的也就是bbox框面积最大的物体。具体的控制动作为按下左键或者右键，通过控制按键的持续时间来控制视角移动量的大小，进而控制目标差值的大小。也就是按的时间越长视角移动越大，距离目标的差值越小，越接近目标。这个按键时间是按照设定的参数成比例变化的，所以叫比例控制，这个比例也根据实际情况调整（这里用0.0003），比例越大变化的越快，响应就越快，同时越容易震荡和超调。

有了基本逻辑，代码实现非常简单了：

while True:
    img, _ = getScreenshot()
    bboxes = getDetection(img)
    bbox = getLargestBox(bboxes,['tree'])
    if bbox.shape[0]!=0:
        x0,y0,x1,y1 = int(bbox[0]),int(bbox[1]),int(bbox[2]),int(bbox[3])
        cx = (x0+x1)/2
        diff = cx-640
        key = None
        if diff>50:
            key = 'right'
        if diff<-50:
            key = 'left'
        if key!=None:
            pressKey(key,abs(diff)*0.0003)

其中 getScreenshot(), getDetection(), getLargestBox()这几个函数的定义已经在上一篇的最后一章给出，这里不再赘述。

实机演示的效果如下（放慢0.5倍）：

基于YOLO目标检测及OpenCV实现的游戏代玩人工智能体(Auto Gaming Agent) [4]

可以看到无论鼠标如何干扰，镜头中心始终都能瞄准到目标物的中心。

; 二、自动采集

实现了目标瞄准之后，再进一步实现靠近目标然后执行采集的动作，就是一次完整的自动采集流程了。但是执行采集的时机需要恰到好处，也就是角色要靠得足够近目标时才可以执行采集的动作。这时就需要根据游戏画面中给出的反馈来进行以上判断，而这个游戏也恰巧提供了一个有效的视觉反馈我们可以充分利用。

以采集树木为例，当角色已经进入树木的采集范围时，画面右侧位置会弹出一个标明”树木”的标签同时下方显示”斧头”的标识，这时角色可以开始采集，而如果角色不在采集范围则没有这些标签也就不可以采集。以下对比图中可以很清楚看到这个现象：

这两种反馈只需要选一个来进行识别即可，因为”斧头”标识是半透明的图标识别难度较大，所以我们选择难度较小的”树木”标签进行识别。

1. OCR文字识别

识别”树木”标签有两种方式，一种是把标签作为图像进行二分类（有或无），另一种则是把标签作为文本进行文字识别（OCR）。二分类的方式需要采集多个场景的标签图像来手动打标并进行训练，比较费时而且鲁棒性较低。OCR则是一个相对成熟的领域，而且我们的标签文本是比较规整的字体，所以采用这种方式既不用训练准确率还更高。

OCR近几年发展非常迅速，从最早的TesseractOCR到现在国产开源的PaddleOCR准确率和效率一直在提升。PaddleOCR是基于百度飞桨(PaddlePaddle)深度学习框架的文字识别应用，其算法一种不断更新，有基于服务器的大模型也有端侧优化的轻量模型可选，准确率和识别速度都非常不错，而且对中文文本的支持非常好（毕竟国产的），因此我们就直接选用PaddleOCR来完成识别标签中文字的任务。

首先安装 paddleocr库：

pip install paddleocr

然后加载ocr模型（默认的轻量模型已经足够）：

from paddleocr import PaddleOCR
ocr = PaddleOCR(use_angle_cls=False, lang="ch", show_log=False)

use_angle_cls=False设置不用识别文本角度，因为我们的标签都是正的。

我们定义一个函数来获取ocr的识别结果，输入是图像数据：

def getOcrText(img):
    result = ocr.ocr(img,cls=False)
    return result

同样的，用 cls=False来设置不识别文本角度。

结合这个函数，我们构造一个判断标签是否存在的函数：

def getLabelExist(img,name):
    result = getOcrText(img)
    for re in result:
        text = re[1][0]
        if name==text:
            return True
    return False

这个函数对比了ocr的识别结果和输入的文字，如果匹配上了就输出True，否则为False。利用这个函数做判断再加上键盘的控制，就基本可以实现自动采集了。大体逻辑就是先截取完整图像中的标签区域，然后判断标签区域是否存在文字，如果不存在就一直按住W键前进直到该区域检测到标签文字，然后松开W键停下来并按下ENTER键来进行采集。代码非常简单，示例如下：

while True:
    img, _ = getScreenshot()
    label = img[330:380,800:960]
    cut = getLabelExist(label,"树木")
    if cut:
        keyboard.release('w')
        keyboard.press_and_release('enter')
    else:
        keyboard.press('w')

执行这段代码的实机演示如下（右下角是放大后的标签区域）：

因为标签区域的尺寸很小，使用轻量ocr识别一帧所需的时间很少，博主的设备识别一帧仅需8ms，完全可以胜任实时检测的任务。

2. 多线程运行

最后我们把瞄准目标和自动采集两个流程合并以后就可以实现自动随机采集我们指定的资源了。使用多线程执行这两个流程可以提高运行效率，实现的代码如下：

import numpy as np
import time

from screen import *
from control import *
from ocr import *

global label
global img_src
global cut
global bboxes

label = np.zeros((160,50),np.uint8)
bboxes = np.array([])
cut = False

def checkLabel():
    global label
    global cut
    escape_cnt = 0
    while True:
        cut = getLabelExist(label,"树木")
        if cut:
            keyboard.release('w')
            keyboard.press_and_release('enter')
            escape_cnt = 0
        else:
            keyboard.press('w')
            escape_cnt+=1
            if escape_cnt%100==0:
                keyboard.press_and_release('space')
            if escape_cnt%500==0:
                pressKey('left',0.5)

def aimTarget():
    global bboxes
    global cut
    while True:
        bbox = getLargestBox(bboxes,['tree'])
        if bbox.shape[0]!=0 and not cut:
            x0,y0,x1,y1 = int(bbox[0]),int(bbox[1]),int(bbox[2]),int(bbox[3])
            cx = (x0+x1)/2
            key = None
            if cx-50>640:
                key = 'right'
            if cx+50<640:
                key = 'left'
            if key!=None:
                pressKey(key,abs(cx-640)*0.0003)
        time.sleep(0.03)

def getMonitor():
    global img_src,label
    while True:
        img_src, _ = getScreenshot()
        label = img_src[330:380,800:960]

if __name__ == '__main__':

    t1 = threading.Thread(target=getMonitor,args=(),daemon=True)
    t1.start()
    t2 = threading.Thread(target=checkLabel,args=(),daemon=True)
    t2.start()
    t3 = threading.Thread(target=aimTarget,args=(),daemon=True)
    t3.start()

    cv2.namedWindow("",cv2.WINDOW_NORMAL)
    cv2.resizeWindow("",960,540)
    cv2.moveWindow("",1560,0)

    while True:
        img = img_src.copy()
        bboxes = getDetection(img)
        img = drawBBox(img.copy(),bboxes)

        cv2.imshow("", img)
        if cv2.waitKey(1) & 0xFF == ord("q"):
            cv2.destroyAllWindows()
            break

代码中使用了一个 escape_cnt计数器来触发跳跃和掉头操作，用来防止撞墙、卡在缝里或者被低矮物体挡住。最终演示视频展示在下面的链接

https://www.bilibili.com/video/BV18g411d74b/

可以看到基本可以实现随机采集树木，但是很明显效率并不算高，而且非常容易卡在一个地方很久才脱离，况且体力耗光时没有采取措施。再者说树木是这个场景中非常丰富的资源，才使得随机采集的几率较高，如果是石头或者浆果之类不是特别密集的资源，使用这种方法是基本采集不到的。

针对这些问题，我们应该继续优化我们的采集策略，来提高采集效率并在遇到情况时准确采取措施。

Original: https://blog.csdn.net/weixin_45162417/article/details/125021598
Author: 陆子祥
Title: 基于YOLO目标检测及OpenCV实现的游戏代玩人工智能体(Auto Gaming Agent) [4]

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/680570/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

初探语音识别ASR算法

摘要：语音转写文字ASR技术的基本概念与数学原理简介。本文分享自华为云社区《新手语音入门（三）：语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 …

人工智能 2023年5月23日
0070
《Python编程：从入门到实践》第19章笔记：用户/用户注册/身份验证

接上篇django最基本的一些日常用法，这是第19章笔记，希望在做”动手试一试”的时候可以让自己方便参考。这一章实现了两个功能： 1、让用户能够添加主题T…

人工智能 2023年6月4日
0086
Leetcode 不同路径系列

Leetcode不同路径系列题解笔记一个机器人位于一个 m x n 网格的左上角（起始点在下图中标记为 “Start” ）。机器人每次只能向下或者向右…

人工智能 2023年6月4日
00119
数据库系统课程设计（高校成绩管理数据库系统的设计与实现）

目录 1、需求分析 1 1.1 数据需求描述 1 1.2 系统功能需求 3 1.3 其他性能需求 4 2、概念结构设计 4 2.1 局部E-R图 4 2.2 全局E-R图 5 2….

人工智能 2023年7月18日
0054
安装tensflow2 CPU版经历

此文为个人安装过程，仅供参考当前配置：● Win10 家庭中文版● Python版本：3.10 由于Tensflow和Anaconda3都只支持到Python3.9，所以只能降级…

人工智能 2023年7月10日
0069
手部21个关键点检测+手势识别-[MediaPipe]

MediaPipe 是一款由 Google Research 开发并开源的多媒体机器学习模型应用框架，可以直接调用其API完成目标检测、人脸检测以及关键点检测等。本篇文章介绍其手部…

人工智能 2023年7月4日
0078
PaddleOCR 文字检测部分源码学习(6)-损失函数（2）

2021SC@SDUSCeast的损失函数代码位置：ppocr->losses->det_east_loss from __future__ import absolu…

人工智能 2023年5月25日
00127
Android逆向基础入门

### 回答1：学习 Android 逆向_PDF这个过程需要一定的时间和专业知识。首先，你的兄弟需要了解 _Android_开发和 _Java_编程语言。他可以通过学习相关的教…

人工智能 2023年7月5日
0093
人工智能总结笔记

文章目录 * – 二、知识表示 – + 1、产生式表示 + 2、产生式系统 + 3、产生式表示法的特点 + * 3.1、表示法法的优点 * 3.2、表示法的…

人工智能 2023年6月28日
0074
【模糊神经网络】基于simulink的模糊神经网络控制器设计

1.软件版本 MATLAB2010b 2.模糊神经网络理论概述由于模糊控制是建立在专家经验的基础之上的，但这有很大的局限性，而人工神经网络可以充分逼近任意复杂的时变非线性系统，采…

人工智能 2023年7月12日
0077
从文案到配音，只需要一部手机！5分钟掌握影视解说制作流程

今天中午很开心，大周收到一个朋友的好消息，她的一条影视解说视频爆了。给她带来了40万的播放量，如果按照目前的最低单价来算的话，这条视频最少能给她带来1200多的收益。她本人也是…

人工智能 2023年5月25日
00104
什么是扩散模型（Diffusion Models），为什么它们是图像生成的一大进步？

点击上方” 小白学视觉“，选择加” 星标“或” 置顶“ 重磅干货，第一时间送达也许过去十年在计算机视觉和机…

人工智能 2023年7月28日
0069
无需代码，图文并茂详解EEGLAB中的ERPs数据分析方法

关注”心仪脑”查看更多脑科学知识的分关键词：太空，脑电实验，文献解读很多小伙伴在做完脑电实验之后，对如何进行数据处理很是发愁。预处理的步骤还好说，在EE…

人工智能 2023年6月11日
0074
【大数据采集技术与应用】【第一章】【大数据采集技术与应用概述】

文章目录 1.1 大数据概述 * 1.1.1 大数据时代 1.1.2 大数据的概念 1.1.3 大数据的特征 1.1.4 大数据的应用 1.1.5 大数据关键技术 1.1.6 大数…

人工智能 2023年7月17日
0089
python中pandas用法iloc_在Python中使用Pandas .iloc []提取行

Pandas是著名的python库，已广泛用于python中的数据处理和分析。在本文中，我们将看到如何使用.iloc方法，该方法用于通过过滤数据帧中的行和列从python中读取选择…

人工智能 2023年7月8日
0089
ChatGPT：将你的微信变成智能聊天机器人！

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0097

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31