强化学习，直接策略搜索，策略梯度，入门样例

2023年6月4日上午3:45 • 人工智能 • 阅读 91

策略梯度，入门样例

原文链接：
https://www.cnblogs.com/Twobox/
参考链接：

https://datawhalechina.github.io/easy-rl/#/chapter4/chapter4

https://zhuanlan.zhihu.com/p/358700228

策略网路结构

算法流程与策略梯度

添加一个基线

调整更合适的分数

代码结构

需要的包

import numpy as np
import gym
import matplotlib.pyplot as plt
import torch  # torch.optim.SGD 内置优化器
import torch.nn as nn  # 模型库
import torch.nn.functional as F  # 内置loss函数
from torch.utils.data import TensorDataset  # 包装
from torch.utils.data import DataLoader  # 迭代器

model.py

def loss_fun(p, advantage, N):
    # p就是p(a|s)  advantage 就是权重优势
    # p Tensor格式  advantage为数字数组1

    advantage = torch.Tensor(advantage)
    # 目标函数 1/N sum(sum(a' * log p'))
    loss = -torch.sum(torch.log(p) * advantage) / N
    return loss

class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.linear1 = nn.Linear(4, 128)
        self.linear2 = nn.Linear(128, 2)
        # self.linear3 = nn.Linear(20, 2)

    def forward(self, x):
        # xb = xb.view(xb.size(0), -1)
        out = self.linear1(x)
        out = F.relu(out)
        out = self.linear2(out)
        out = F.softmax(out, dim=-1)
        return out

    def fit(self, p, advantage, N):
        opt = torch.optim.Adam(self.parameters(), 0.005)
        loss = loss_fun(p, advantage, N)
        opt.zero_grad()
        loss.backward()
        opt.step()
        opt.zero_grad()

agent.py

class Agent:
    def __init__(self, gamma):
        self.model = Model()

        # 目标函数 1/N sum(sum(a' * log p'))
        self.p = []
        self.advantage = []
        self.N = 0
        self.gamma = gamma

    def get_action_p(self, state):
        # 转化为Tensor , 此时为一维
        state = torch.FloatTensor(state)
        # 转化为二维，最外面加个[]
        state = torch.unsqueeze(state, 0)

        p = self.model(state)
        return p  # tensor

    def clear(self):
        self.advantage.clear()
        self.p.clear()
        self.N = 0

    def pay_n_times(self, N, env):
        # 玩N次，追加存储N次经验
        self.N += N
        r_sum = 0  # 所有奖励
        advantage = []

        for n in range(N):
            state = env.reset()
            r_list = []  # 一个回合 每个动作的奖励
            done = False
            while not done:
                p = self.get_action_p(state)
                # 按概率采样下表;在dim为1的位置进行采样；这里的结果为[[0 or 1]]
                action = torch.multinomial(p, 1).item()  # 这时候直接是数字
                s_, r, done, _ = env.step(action)
                state = s_
                r_list.append(r)
                # 后续需要对self.p使用torch.cat方法
                self.p.append(p[0][action].unsqueeze(0))

            r_sum += sum(r_list)
            # sum(gamma^i * r)
            ad_list = []
            ad_temp = 0
            for i in reversed(range(len(r_list))):
                ad_temp = ad_temp * self.gamma + r_list[i]
                ad_list.append(ad_temp)

            ad_list.reverse()
            advantage += ad_list

        b = r_sum / N
        advantage = [a - b for a in advantage]
        self.advantage += advantage

        # 返回平均分数
        return b

    def learn(self):
        p = torch.cat(self.p)
        advantage = torch.FloatTensor(self.advantage)
        self.model.fit(p, advantage, self.N)

main.py

env = gym.make("CartPole-v1")
agent = Agent(0.95)

T = 1000 # 更新多少次梯度
N = 50 # 每次跟新需要采样多少回合的经验
x, y = [], []
for t in range(T):
    avg_r = agent.pay_n_times(N, env)
    x.append(t)
    y.append(avg_r)
    print("{} : {}".format(t, avg_r))
    agent.learn()
    agent.clear()

    plt.plot(x,y)
    plt.pause(0.1)

plt.plot(x,y)
plt.show()

结果

本文原创作者：魏雄
原文链接：
https://www.cnblogs.com/Twobox/

Original: https://www.cnblogs.com/Twobox/p/16689398.html
Author: Wei_Xiong
Title: 强化学习，直接策略搜索，策略梯度，入门样例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/566197/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

LDA(线性判别分析(普通法))详解 —— matlab

目录前言正题 1.LDA的思想 2. 瑞利商（Rayleigh quotient）与广义瑞利商（genralized Rayleigh quotient） 3. 二类LDA原理…

人工智能 2023年6月23日
0094
在pytorch上实现bert的简单预训练过程

前言：博主是一名研一在读学生，刚刚接触nlp不久，作品如有纰漏之处，欢迎大家批评指正，谢谢！（另外本文代码不是自己原创，解释和思路为原创。文章创作目的在于分享和知识复习，无任何盈利…

人工智能 2023年5月31日
0076
不同类型特征变量之间相关性分析

站在2022的第一天想说点啥总结却迟迟不知道该如何下笔，年前的立的各种风控技能Flag还没一一勾除又有新的Flag要立，风控人不容易…不管怎样，学习总是必要的，今天带来…

人工智能 2023年6月16日
0077
瑞芯微RV1126/1109开发流程之opencv交叉编译

1、下载opencv并解压这里的opencv版本是我一直用者的opencv3.4.0没有opencv的可以到这里（https://opencv.org/releases/page/…

人工智能 2023年7月19日
0051
使用OpenAI CLIP链接图像和文本

介绍尽管深度学习给计算机视觉和自然语言处理带来了革命性的变化，但它仍然很难使用最先进的方法，并且需要相当多的专业知识。 [En] Although deep learning h…

人工智能 2023年5月25日
0080
神经网络数据增强transforms的相关操作（持续更新）

transforms的相关操作（Pytorch）一、图像的相关变化 * 1、格式转换 – （1）transforms.ToTensor() （2）transforms…

人工智能 2023年7月22日
0063
【python基础教程】csv文件的写入与读取

✅作者简介：大家好我是hacker707,大家可以叫我hacker📃个人主页：hacker707的csdn博客🔥系列专栏：python基础教程💬推荐一款模拟面试、刷题神器👉点击跳转…

人工智能 2023年7月30日
0049
Python 打包 exe，如何减少文件大小？cv2打包错误如何解决？

Python 打包 exe，如何减少文件大小？由于python在打包为exe会将系统下所有包一并打包。因此我们可以使用pipenv命令构建虚拟环境以完成打包。安装pipenv …

人工智能 2023年7月19日
0048
Datawhale九月组队学习–情感分析–Task04

往期指路：本篇主要是将卷积神经网络应用到了情感分类任务当中，本篇所用的模型来自论文Convolutional Neural Networks for Sentence Class…

人工智能 2023年5月30日
0068
ZED2跑ORB-SLAM3+双目相机、IMU联合标定+显卡驱动与cuda/cudnn安装

一、引言同样是项目需求，需要利用视觉惯性导航做一些开发，所以第一步先做些算法的测试–仿真与实物测验，通过仿真的测试结果，最终是决定使用ORB-SLAM3来完成任务，当然了，Vin…

人工智能 2023年6月24日
0079
Python 爬虫+可视化，手把手教你使用 Python 爬取 JD 网站并且可视化展示

当你看到别人使用 Python 网络爬虫做出一些高大上的项目你是否也有那么一点点的心动？羡慕别人用几行简单的代码就能获取到自己想要的数据？羡慕别人用几行代码就能做出优美的可视化图案…

人工智能 2023年6月11日
0094
Layer中的激活函数有哪些常见的选择

关于Layer中的激活函数有哪些常见的选择在神经网络中，激活函数是一种非线性函数，它通过对输入进行非线性变换来引入非线性特性，以提高神经网络的表达能力。常见的激活函数包括Sigm…

人工智能 2024年1月6日
0029
连续目标检测综述 Continual Object Detection: A review of definitions, strategies, and challenges

标题 Continual Object Detection: A review of definitions, strategies, and challenges 摘要 The …

人工智能 2023年7月10日
0049
基于OpenCV实现的最大最小距离聚类算法实战案例

首先声明本文章部分内容借鉴于OpenCV实现最大最小距离聚类算法_pan_jinquan的博客-CSDN博客_opencv 聚类算法 [TencentCloudSDKExcepti…

人工智能 2023年6月2日
0064
聚类算法之层次聚类

层次聚类 1. 基本介绍层次聚类有聚合（自下而上）和分裂（自上而下）两种方式。聚合聚类开始将每个样本各自分到个类:之后将相距最近的两类合井，建立一个新的类，重复此操作直到满足…

人工智能 2023年5月31日
0090
C#调用OpenCV（C++原版）思路和实现方法（小白教程）

目录：前言：一，下载和安装OpenCV到本地二，主要原理三，C++生成供C#调用OpenCV的.dll * 1.添加头文件 2.添加cpp文件 3.添加模块定义文件四，建…

人工智能 2023年6月18日
0080

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

强化学习，直接策略搜索，策略梯度，入门样例

策略梯度，入门样例

大家都在看