【强化学习】深入浅出强化学习–机器人找金币

2023年6月30日上午2:21 • 人工智能 • 阅读 63

定义和初始化

首先自定义环境，自定义的环境将继承 gym.env环境。在初始化的时候，可以指定环境支持的渲染模式（例如 human, rgb_array, ansi)以及渲染环境的帧速率。当没有初始化的时候都有默认的渲染模式，在Grid World中将支持 rgb_array和 human模式，并以4FPS的速度渲染。

环境的 __init__方法将接受整数大小，它决定了方形网格的大小。同时将设置一些用于渲染的变量，并定义 self.observation_space和 self.action_space。

在我们代码中，观测值应该提供有关代理和目标在二维网格上的位置的信息。将选择以字典的形式表示观察结果，并带有键”代理”和”目标”。观察结果可能看起来像 {“agent”： array（[1， 0]）， “target”： array（[0， 3]）}。由于我们的环境中有 4 个动作（”右”、”上”、”左”、”下”），将使用 Disparte（4）作为动作空间。以下是GridWorldEnv的声明和__init__的实施：

import gym
from gym import spaces
import pygame
import numpy as np

class GridEnv(gym.Env):
    metadata = {"render_modes": ["human", "rgb_array"], "render_fps": 4}

    def __init__(self, render_mode=None, size=5):
        self.size = size
        self.window_size = 512

        self.observation_space = spaces.Dict(
            {
                "agent": spaces.Box(0, size - 1, shape=(2,), dtype=int),
                "target": spaces.Box(0, size - 1, shape=(2,), dtype=int),
            }
        )

        self.action_space = spaces.Discrete(4)

"""
        The following dictionary maps abstract actions from self.action_space to
        the direction we will walk in if that action is taken.

        I.e. 0 corresponds to "right", 1 to "up" etc.

"""
        self._action_to_direction = {
            0: np.array([1, 0]),
            1: np.array([0, 1]),
            2: np.array([-1, 0]),
            3: np.array([0, -1]),
        }

        assert render_mode is None or render_mode in self.metadata["render_modes"]
        self.render_mode = render_mode

"""
        If human-rendering is used, self.window will be a reference
        to the window that we draw to. self.clock will be a clock that is used
        to ensure that the environment is rendered at the correct framerate in
        human-mode. They will remain None until human-mode is used for the
        first time.

"""
        self.window = None
        self.clock = None

从环境状态构建观测值

我们需要在 reset和 step中计算观测值，因此通常可以方便地使用 _get_obs私有方法将环境状态转化为观测值：

def _get_obs(self):
        return {"agent": self._agent_location, "target": self._target_location}

对于逐步返回并重置的辅助信息，机器人找金币例子中，提供agent和target之间的曼哈顿距离：

def _get_info(self):
        return {"distance": np.linalg.norm(self._agent_location - self._target_location, ord=1)}

通常，信息还将包含一些仅在步骤方法中可用的数据（例如个人奖励条款）。在这种情况下，我们将不得不更新 _get_info 按步骤返回的字典。

Reset

每次使用 reset的方法来启动新的 episode，每当发出完成信号是，都应该调用 reset。可以传递 seed进行重置，以将环境使用的任何随机数生成器初始化为确定性状态。在机器人找金币实例中，我们随机选择agent的位置和随机抽样的target位置，直到它与agent的位置不一致。

  def reset(self, seed=None, options=None):

        super().reset(seed=seed)

        self._agent_location = self.np_random.integers(0, self.size, size=2, dtype=int)

        self._target_location = self._agent_location
        while np.array_equal(self._target_location, self._agent_location):
            self._target_location = self.np_random.integers(
                0, self.size, size=2, dtype=int
            )

        observation = self._get_obs()
        info = self._get_info()

        if self.render_mode == "human":
            self._render_frame()

        return observation, info

Step

step方法通常包括环境的大部分逻辑。它接受一个操作，在应用该操作后计算环境的状态，并返回四元组（观察、奖励、完成、信息）。一旦计算了环境的新状态，就可以检查它是否是最终状态，并相应地设置完成。由于在 GridWorld中使用稀疏二进制，因此一旦知道完成，计算奖励就变得微不足道。为收集观察和信息，再次利用 _get_obs和 _get_info：

 def step(self, action):

        direction = self._action_to_direction[action]

        self._agent_location = np.clip(
            self._agent_location + direction, 0, self.size - 1
        )

        terminated = np.array_equal(self._agent_location, self._target_location)
        reward = 1 if terminated else 0
        observation = self._get_obs()
        info = self._get_info()

        if self.render_mode == "human":
            self._render_frame()

        return observation, reward, terminated, False, info

Rendering

在这里，我们使用 PyGame 进行渲染。在 Gym 附带的许多环境中都使用了类似的渲染方法：

def render(self):
        if self.render_mode == "rgb_array":
            return self._render_frame()

    def _render_frame(self):
        if self.window is None and self.render_mode == "human":
            pygame.init()
            pygame.display.init()
            self.window = pygame.display.set_mode((self.window_size, self.window_size))
        if self.clock is None and self.render_mode == "human":
            self.clock = pygame.time.Clock()

        canvas = pygame.Surface((self.window_size, self.window_size))
        canvas.fill((255, 255, 255))
        pix_square_size = (
            self.window_size / self.size
        )

        pygame.draw.rect(
            canvas,
            (255, 0, 0),
            pygame.Rect(
                pix_square_size * self._target_location,
                (pix_square_size, pix_square_size),
            ),
        )

        pygame.draw.circle(
            canvas,
            (0, 0, 255),
            (self._agent_location + 0.5) * pix_square_size,
            pix_square_size / 3,
        )

        for x in range(self.size + 1):
            pygame.draw.line(
                canvas,
                0,
                (0, pix_square_size * x),
                (self.window_size, pix_square_size * x),
                width=3,
            )
            pygame.draw.line(
                canvas,
                0,
                (pix_square_size * x, 0),
                (pix_square_size * x, self.window_size),
                width=3,
            )

        if self.render_mode == "human":

            self.window.blit(canvas, canvas.get_rect())
            pygame.event.pump()
            pygame.display.update()

            self.clock.tick(self.metadata["render_fps"])
        else:
            return np.transpose(
                np.array(pygame.surfarray.pixels3d(canvas)), axes=(1, 0, 2)
            )

Close

close 方法应关闭环境使用的任何开放资源。在许多情况下，通常不需要额外使用该方法。但是，在我们的示例中， render_mode可能是”人类”，我们可能需要关闭已打开的窗口：

def close(self):
        if self.window is not None:
            pygame.display.quit()
            pygame.quit()

from gym.envs.classic_control.grid_mdp import GridEnv

register(
gym.make(‘id’)时的id
id=”GridWorld-v0″,
函数路口
entry_point=”gym.envs.classic_control.grid_mdp:GridEnv”,
max_episode_steps=200,
reward_threshold=100.0,
)

import gym

env = gym.make('GridWorld-v0', render_mode='human')

env.reset()
env.render()
for _ in range(1000):
    env.render()
    observation, reward, done, info, _ = env.step(env.action_space.sample())
    if done:
        env.reset()
env.close()

参考文章

https://www.gymlibrary.dev/content/environment_creation/

Original: https://blog.csdn.net/m0_52427832/article/details/127617159
Author: Lydia.na
Title: 【强化学习】深入浅出强化学习–机器人找金币

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/660433/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

JPG如何直接转PDF？分享几个简单小技巧

工作中我们经常需要处理各种形式的文件，有时候领导会直接拍摄一张图片，让你将内容输出转换为PDF格式，如果我们一个一个手打的话，难免会比较浪费时间，其实我们可以直接将其转换为PDF格…

人工智能 2023年6月28日
0088
AI上推荐之多任务loss优化(自适应权重篇)

1. 写在前面在多任务学习中，往往会将多个相关的任务放在一起来学习。例如在推荐系统中，排序模型同时预估候选的点击率和浏览时间。相对于单任务学习，多任务学习有以下优势：多个任务共…

人工智能 2023年7月27日
0063
Matplotlib安装与配置

1. Matplotlib 简介 Matplotlib 是 Python 生态系统的一个重要组成部分，是用于可视化的绘图库，它提供了一整套和 matlab 相似的命令 API 和可…

人工智能 2023年7月5日
0060
在Learning算法中如何处理缺失值和异常值

问题描述在机器学习的学习算法中，处理缺失值和异常值是一个重要的问题。缺失值是指数据集中某些属性的值没有被记录或采集，而异常值是指与其他数据明显不同的值。这些问题的存在会导致学习算…

人工智能 2024年1月1日
0024
YOLOv5-v6.1训练自己的数据速成—pytorch（GPU实现）

1、源码获取 ultralytics/yolov5: YOLOv5 🚀 in PyTorch > ONNX > CoreML > TFLite (github.c…

人工智能 2023年6月25日
0069
【MindSpore】简单使用Resnet50实现狗狼图片分类。附全部代码下载。

本文章用的例子来自MindSpore官网教程，这里主要是分享一下个人理解和整合一下相关代码。个人博客网站查看环境配置： windows10 MindSpore1.6.1 CPU…

人工智能 2023年7月1日
0068
【计算机视觉】：基于PyTorch的YoloV5目标检测平台

基于PyTorch的YoloV5目标检测平台 YoloV5改进的部分改进 YoloV5思路 * 一、整体结构二、网络结构分析 – 1、主干网络Backbone（即C…

人工智能 2023年7月22日
0071
【Pandas】多种添加行列数据方法

发现自己学习python 的各种库老是容易忘记，所有想利用这个平台，记录和分享一下学习时候的知识点，以后也能及时的复习，最近学习pandas，那我们来看看pandas添加数据的一些…

人工智能 2023年7月14日
0071
15 本你必须阅读的 PyTorch 书籍

PyTorch 书籍使用 PyTorch 进行深度学习将使这一旅程变得引人入胜且充满乐趣。 PyTorch 是另一个深度学习库，它实际上是 Chainer（完全基于 python…

人工智能 2023年7月21日
0045
Tushare数据本地化多进程版本——如何快速一次性获取全部股票数据

在我自己早期使用tushare进行股票数据获取的时候遇到一个问题：如何快速获取全市场所有股票的行情数据呢？一般来说，我们可以采用for循环的方式： def Get_stock_b…

人工智能 2023年7月8日
0080
计算机视觉——目标检测、实例分割（语义分割）、人体关键点检测

计算机视觉————目标检测、实例分割 1、目标检测 2、实例分割 3、人体关键点检测 1、目标检测一张图片中有多个类别目标，要求不仅仅是对图像目标进行分类，还要准确的标记出目标的…

人工智能 2023年5月28日
00130
机器学习高斯混合模型

高斯混合模型前言高斯混合模型 * 高斯分布混合模型高斯模型 – 单高斯模型高斯混合模型高斯混合模型训练 + EM算法应用 * 图像背景的高斯混合模型智能…

人工智能 2023年5月31日
0065
【亲测】跑深度学习模型：笔记本的RTX3060 6G vs Google colab免费GPU 速度比较

简单测评笔记本：thinkbook16p RTX3060标配模型是FCN，跑的小数据集, 用的tensorflow同样的数据和模型参数，我们来看看在两块GPU上的表现如何吧： …

人工智能 2023年5月23日
00126
手写数字识别mnist

手写数字识别mnist 文章目录手写数字识别mnist * 一、前言二、环境配置三、代码如下四、配置环境过程 – 1、打开Anaconda Prompt + a…

人工智能 2023年5月24日
0062
通俗解读人脸检测框架-RetinaFace

目录一、简介二、模型结构 1.MobileNet-0.25 2.FPN结构 3.SSH结构 4.Head结构三、Anchor的编解码四、Multi-task Loss 一、…

人工智能 2023年7月9日
0076
【语音压缩】基于哈夫曼编解码DCT变换的语音压缩算法仿真

1.软件版本 MATLAB2013b 2.本算法理论知识系统主要包括以下几个模块：多通道滤波器，DCT变换与反变换，量化与逆量化，哈夫曼编码译码，系统的结构框图如下所示：将对每…

人工智能 2023年5月23日
0065

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30