动手强化学习（十）：Actor-Critic 算法

2023年7月17日上午9:36 • 人工智能 • 阅读 80

动手强化学习（七）：DQN 改进算法——Dueling DQN

1. 简介
2. Actor-Critic 算法
3. Actor-Critic 代码实践
4. 总结

文章转于 伯禹学习平台-动手学强化学习 （强推）
本文所有代码均可在jupyter notebook运行
与君共勉，一起学习。
更多Ai资讯：公主号AiCharm

; 1. 简介

在之前的内容中，我们学习了基于值函数的方法（DQN）和基于策略的方法（REINFORCE），其中基于值函数的方法只学习一个价值函数，而基于策略的方法只学习一个策略函数。那么一个很自然的问题，有没有什么方法既学习价值函数，又学习策略函数呢？答案就是 Actor-Critic。Actor-Critic 是一系列算法，目前前沿的很多高效算法都属于 Actor-Critic 算法，今天我们将会介绍一种最简单的 Actor-Critic 算法。需要明确的是，Actor-Critic 算法本质上是基于策略的算法，因为这系列算法都是去优化一个带参数的策略，只是其中会额外学习价值函数来帮助策略函数的学习。

Actor-Critic 算法

我们回顾一下在 REINFORCE 算法中，目标函数的梯度中有一项轨迹回报，来指导策略的更新。而值函数的概念正是基于期望回报，我们能不能考虑拟合一个值函数来指导策略进行学习呢？这正是 Actor-Critic 算法所做的。让我们先回顾一下策略梯度的形式，在策略梯度中，我们可以把梯度写成下面这个形式：
g = E [ ∑ t = 0 ∞ ψ t ∇ θ log ⁡ π θ ( a t ∣ s t ) ] g=\mathbb{E}\left[\sum_{t=0}^{\infty} \psi_{t} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]g =E [t =0 ∑∞ψt ∇θlo g πθ(a t ∣s t )]
其中 ψ t \psi_{t}ψt 可以有很多种形式:

∑ t = 0 ∞ γ t r t ′ \sum_{t=0}^{\infty} \gamma^{t} r_{t^{\prime}}∑t =0 ∞γt r t ′ : 轨迹的总回报 $\quad
∑ t ′ = t ∞ γ t ′ − t r t ′ \sum_{t^{\prime}=t}^{\infty} \gamma^{t^{\prime}-t} r_{t^{\prime}}∑t ′=t ∞γt ′−t r t ′ : 动作a t a_{t}a t 之后的回报
∑ t ′ = t ∞ r t ′ − b ( s t ) \sum_{t^{\prime}=t}^{\infty} r_{t^{\prime}}-b\left(s_{t}\right)∑t ′=t ∞r t ′−b (s t ) : 基准线版本的改进
Q π θ ( s t , a t ) : Q^{\pi_{\theta}}\left(s_{t}, a_{t}\right):Q πθ(s t ,a t ): 动作价值函数
$ \cdot A^{\pi_{\theta}}\left(s_{t}, a_{t}\right)😒 优势函数
r t + γ V π θ ( s t + 1 ) − V π θ ( s t ) r_{t}+\gamma V^{\pi_{\theta}}\left(s_{t+1}\right)-V^{\pi_{\theta}}\left(s_{t}\right)r t +γV πθ(s t +1 )−V πθ(s t ) : 时序差分残差

在 REINFORCE 的最后部分，我们提到了 REINFORCE通过蒙特卡洛采样的方法对梯度的估计是无偏的，但是方差非常大，我们可以用第三种形式引入基线 (baseline) b ( s t b\left(s_{t}\right.b (s t ) 来减小方差。此外我们也可以采用 Actor-Critic 算法，估计一个动作价值函数 Q Q Q 来代替蒙特卡洛采样得到的回报，这便是第 4 种形式。这个时候，我们也可以把状态价值函数 V 作为基线，从偍牧 V \mathrm{~ 作为基线，从偍牧}V 作为基线，从偍牧但是用神经网络进行估计的方法可以减小方差、提高鲁棒性。除此之外，REINFORCE 算法基于蒙特卡洛采样，只能在序列结束后进行更新，而 Actor-Critic 的方法则可以在每一步之后都进行更新。
我们将 Actor-Critic 分为两个部分: 分别是 Actor (策略网络) 和 Critic (价值网络)：

Critic 要做的是通过 Actor 与环境交互收集的数据学习一个价值函数，这个价值函数会用于帮助 Actor 进行更新策略。
Actor 要做的则是与环境交互，并利用 Ctitic 价值函数来用策略梯度学习一个更好的策略。
L ( ω ) = 1 2 ( r + γ V ω ( s t + 1 ) − V ω ( s t ) ) 2 \mathcal{L}(\omega)=\frac{1}{2}\left(r+\gamma V_{\omega}\left(s_{t+1}\right)-V_{\omega}\left(s_{t}\right)\right)^{2}L (ω)=2 1 (r +γV ω(s t +1 )−V ω(s t ))2

与 DQN 中一样，我们采取类似于目标网络的方法，上式中 r + γ V ω ( s t + 1 ) r+\gamma V_{\omega}\left(s_{t+1}\right)r +γV ω(s t +1 ) 作为时序差分目标，不会产生梯度来更新价值函数。所以价值函数的梯度为
∇ ∗ ω L ( ω ) = − ( r + γ V ∗ ω ( s ∗ t + 1 ) − V ∗ ω ( s ∗ t ) ) ∇ ∗ ω V − ω ( s t ) \nabla * \omega \mathcal{L}(\omega)=-(r+\gamma V * \omega(s * t+1)-V * \omega(s * t)) \nabla * \omega V_{-} \omega\left(s_{t}\right)∇∗ωL (ω)=−(r +γV ∗ω(s ∗t +1 )−V ∗ω(s ∗t ))∇∗ωV −ω(s t )
然后使用梯度下降方法即可。接下来让我们总体看看 Actor-Critic 算法的流程吧!

初始化策略网络参数θ \theta θ ，价值网络参数ω \omega ω
不断进行如下循环 (每个循环是一条序列) :
。用当前策略π θ \pi_{\theta}πθ 平样轨迹{ s 1 , a 1 , r 1 , s 2 , a 2 , r 2 … } \left{s_{1}, a_{1}, r_{1}, s_{2}, a_{2}, r_{2} \ldots\right}{s 1 ,a 1 ,r 1 ,s 2 ,a 2 ,r 2 …}
。为每一步数据计算:δ t = r t + γ V ω ( s t + 1 ) − V ω ( s ) \delta_{t}=r_{t}+\gamma V_{\omega}\left(s_{t+1}\right)-V_{\omega}(s)δt =r t +γV ω(s t +1 )−V ω(s )
。更新价值参数w = w + α ω ∑ t δ t ∇ ω V ω ( s ) w=w+\alpha_{\omega} \sum_{t} \delta_{t} \nabla_{\omega} V_{\omega}(s)w =w +αω∑t δt ∇ωV ω(s )
。更新策略参数θ = θ + α θ ∑ t δ t ∇ θ log ⁡ π θ ( a ∣ s ) \theta=\theta+\alpha_{\theta} \sum_{t} \delta_{t} \nabla_{\theta} \log \pi_{\theta}(a \mid s)θ=θ+αθ∑t δt ∇θlo g πθ(a ∣s )

好了！这就是 Actor-Critic 算法的流程啦，让我们来用代码实现它看看效果如何吧!

Actor-Critic 代码实践

我们仍然在 Cartpole 环境上进行 Actor-Critic 算法的实验。

import gym
import torch
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt
import rl_utils

定义我们的策略网络 PolicyNet，与 REINFORCE 算法中一样。

class PolicyNet(torch.nn.Module):
    def __init__(self, state_dim, hidden_dim, action_dim):
        super(PolicyNet, self).__init__()
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, action_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        return  F.softmax(self.fc2(x),dim=1)

Actor-Critic 算法中额外引入一个价值网络，接下来的代码定义我们的价值网络 ValueNet，输入是状态，输出状态的价值。

class ValueNet(torch.nn.Module):
    def __init__(self, state_dim, hidden_dim):
        super(ValueNet, self).__init__()
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, 1)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        return self.fc2(x)

再定义我们的 ActorCritic 算法。主要包含采取动作和更新网络参数两个函数。

class ActorCritic:
    def __init__(self, state_dim, hidden_dim, action_dim, actor_lr, critic_lr, gamma, device):
        self.actor = PolicyNet(state_dim, hidden_dim, action_dim).to(device)
        self.critic = ValueNet(state_dim, hidden_dim).to(device)
        self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=actor_lr)
        self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=critic_lr)
        self.gamma = gamma

    def take_action(self, state):
        state = torch.tensor([state], dtype=torch.float)
        probs = self.actor(state)
        action_dist = torch.distributions.Categorical(probs)
        action = action_dist.sample()
        return action.item()

    def update(self, transition_dict):
        states = torch.tensor(transition_dict['states'], dtype=torch.float)
        actions = torch.tensor(transition_dict['actions']).view(-1, 1)
        rewards = torch.tensor(transition_dict['rewards'], dtype=torch.float).view(-1, 1)
        next_states = torch.tensor(transition_dict['next_states'], dtype=torch.float)
        dones = torch.tensor(transition_dict['dones'], dtype=torch.float).view(-1, 1)

        td_target = rewards + self.gamma * self.critic(next_states) * (1 - dones)
        td_delta = td_target - self.critic(states)
        log_probs = torch.log(self.actor(states).gather(1, actions))
        actor_loss = torch.mean(-log_probs * td_delta.detach())
        critic_loss = torch.mean(F.mse_loss(self.critic(states), td_target.detach()))
        self.actor_optimizer.zero_grad()
        self.critic_optimizer.zero_grad()
        actor_loss.backward()
        critic_loss.backward()
        self.actor_optimizer.step()
        self.critic_optimizer.step()

定义好 Actor 和 Critic，我们就可以开始实验了，看看 Actor-Critic 在 Cartpole 环境上表现如何吧！

`python
actor_lr = 1e-3
critic_lr = 1e-2
num_episodes = 1000
hidden_dim = 128
gamma = 0.98
device = torch.device(“cuda”) if torch.cuda.is_available() else torch.device(“cpu”)

env_name = ‘CartPole-v0’
env = gym.make(env_name)
env.seed(0)
torch.manual_seed(0)
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n
agent = ActorCritic(state_dim, hidden_dim, action_dim, actor_lr, critic_lr, gamma, device)

return_list = rl_utils.train_on_policy_agent(env, agent, num_episodes)

Original: https://blog.csdn.net/muye_IT/article/details/125136339
Author: Jasper0420
Title: 动手强化学习（十）：Actor-Critic 算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698361/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python + ChatterBot 创建聊天机器人

前言:因为之前接过一个qq的机器人,聊天的机器人是用的别人的成品,最近不忙,就想着用Python搭建一个简单的机器人搭建准备我使用的是python3.7,使用虚拟环境,我觉得干…

人工智能 2023年5月27日
00124
[Python]-tqdm模块-给for循环加上进度条

import tqdm 使用tqdm模块，可以在漫长的for循环加上一个进度条，显示当前进度百分比。将tqdm写在迭代器之外即可： tqdm(iterator) for i in…

人工智能 2023年6月4日
0091
Tensorflow + Keras + Kaggle环境搭建+识别猫狗（For Beginners Tutorial）

TOC 序言事实上，我也是刚刚接触Python Deep Learning and Neural Networks，作为一个Rookie，我觉的我有必要将自己的所有流程和心得体会…

人工智能 2023年5月25日
00157
光学目标检测yolov5笔记

解决问题四部曲：挑战、任务、对象、方法正框光学目标检测（任务）使用Python-Yolov5（方法）一、观察标注格式（对象） ; 示例 0.txt 2 0.513333 0….

人工智能 2023年7月10日
0089
leetcode 143

leetcode 143重排联表这题实在没搞懂，明天继续花时间搞懂！ posted @2021-10-26 22:11 Geeksongs 阅读(12 ) 评论() 编辑 Cod…

人工智能 2023年6月6日
0081
python 科大讯飞文本转语音接口 + QT简单界面

由于是实验做的，且有点赶，也就没有怎么整理和疏通，只要能运行就行了。所以仅供借鉴，问题肯定很多，在这只是记录一下所学。首先你需要注册科大讯飞AI开放平台的账号，领取新用户免费额度…

人工智能 2023年5月27日
0069
【pyecharts | 颜色配置】关于pyecharts中自定义颜色问题详解

前言最近微信上经常有小伙伴问到 pyecharts颜色配置的问题，其实 pyecharts颜色配置很简单，不过由于可以配置的方式有点多，经常让人混淆，所以本文汇总一下在pyech…

人工智能 2023年7月15日
0087
二叉搜索树

1.需求分析：在n个动态的整数中搜索某个整数？解决的方案： 1.1动态数组：平均时间复杂度为O（n）; 1.2维护一个有序的动态数组，使用二分搜索最坏时间复杂度为O（log n）…

人工智能 2023年6月26日
0080
混淆矩阵（Confusion Matrix）

假设现在有一个分类器A,这个分类器A的作用是告诉一张图片是不是汉堡，那我想知道这个分类器A的效果好不好，应该怎么办呢？最简单的方法是将大量的样本放进到费雷其A当中，让他自己判断这…

人工智能 2023年7月25日
0054
python数据清洗—实战案例（清洗csv文件）

我也是最近才开始这方面的学习，这篇就当作学习的笔记，记录一下学习的过程目录 * – 所以我们现在要解决的问题就是删除列名中的空格 – 接下来要解决的问题就…

人工智能 2023年7月7日
0046
selenium用法详解【从入门到实战】【Python爬虫】【4万字】

👉跳转文末👈 获取实战源码与作者联系方式，共同学习进步文章目录 * – 简介 – selenium安装 – 安装浏览器驱动 –…

人工智能 2023年7月3日
0081
现代数字图像处理作业—-用维纳滤波器进行图像复原

作业题目： 1、任选一张彩色风景图片作为源图像，设置不同的模糊参数实现任一幅图像的运动模糊（fspecial,imfilter），再用imadd和imnoise给图像添加不同类型的…

人工智能 2023年6月20日
0096
ORB_SLAM3 算法框架解析

论文地址：https://arxiv.org/abs/2007.11898v1代码地址：https://github.com/UZ-SLAMLab/ORB_SLAM3ORB_SLA…

人工智能 2023年5月26日
0080
使用fairseq从头开始训练一个中英神经机器翻译模型

本文在news-commentary-v15语料上训练了中英NMT模型，并将整个流程，包括工具和数据的准备、数据的预处理、训练及解码，以及中途遇到的问题和解决方案记录在此，希望能…

人工智能 2023年7月22日
0095
【机器学习】几种常见的有监督学习算法

本文是作者阅读《图解机器学习算法》（[日] 秋庭伸也、杉山阿圣、寺田学）的相关读书笔记。读完的感受是：如果作为机器学习的入门书籍，行文和内容有点突兀，初学者通过几幅图也并不一定能…

人工智能 2023年6月16日
00116
python数据框常用操作_python pandas dataframe基本使用整理

dataframe是一种表格型的数据存储结构，可以看作是几个serie的集合。dataframe既有行索引，也有列索引。以下代码环境为google colab/jupyter n…

人工智能 2023年7月8日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

动手强化学习（十）：Actor-Critic 算法

动手强化学习（七）：DQN 改进算法——Dueling DQN

大家都在看