【强化学习】Actor-Critic（演员-评论家）算法详解

2023年7月27日下午7:17 • 人工智能 • 阅读 61

1 Actor Critic算法简介

1.1 为什么要有Actor Critic

Actor-Critic的Actor的前身是Policy Gradient，这能让它毫不费力地在连续动作中选取合适的动作，而Q-Learning做这件事会瘫痪，那为什么不直接用Policy Gradient呢，原来Actor-Critic中的Critic的前身是Q-Learning或者其他的以值为基础的学习法，能进行单步更新，而更传统的Policy Gradient则是回合更新，这降低了学习效率。
现在我们有两套不同的体系，Actor和Critic，他们都能用不同的神经网络来代替。现实中的奖惩会左右Actor的更新情况。Policy Gradient也是靠着这个来获取适宜的更新。那么何时会有奖惩这种信息能不能被学习呢？这看起来不就是以值为基础的强化学习方法做过的事吗。那我们就拿一个Critic去学习这些奖惩机制，学习完了以后，由Actor来指手画脚，由Critic来告诉Actor你的哪些指手画脚哪些指得好，哪些指得差，Critic通过学习环境和奖励之间的关系，能看到现在所处状态的潜在奖励，所以用它来指点Actor便能使Actor每一步都在更新，如果使用单纯的Policy Gradient，Actor只能等到回合结束才能开始更新。
但是事务始终有它坏的一面，Actor-Critic设计到了两个神经网络，而且每次都是在连续状态中更新参数，每次参数更新前后都存在相关性，导致神经网络只能片面的看待问题，甚至导致神经网络学不到东西。Google DeepMind为了解决这个问题，修改了Actor-Critic的算法。

1.2 改进版Deep Deterministic Policy Gradient(DDPG)

将之前在电动游戏Atari上获得成功的DQN网络加入进Actor-Critic系统中，这种新算法叫做Deep Deterministic Policy Gradient，成功的解决在连续动作预测上的学不到东西的问题。
文章【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解一文对该算法有详细的介绍，文章链接：https://blog.csdn.net/shoppingend/article/details/124344083?spm=1001.2014.3001.5502

2 Actor-Critic算法详解

2.1 要点

一句话概括Actor-Critic算法：结合了Policy Gradient(Actor)和Function Approximation(Critic)的方法。Actor基于概率选行为，Critic基于Actor的行为评判行为的得分，Actor根据Critic的评分修改选行为的概率。
Actor-Critic方法的优势：可以进行单步更新，比传统的Policy Gradient要快。
Actor-Critic方法的劣势：取决于Critic的价值判断，但是Critic难收敛，再加上Actor的更新，就更难收敛，为了解决这个问题，Google Deepmind提出了Actor-Critic升级版Deep Deterministic Policy Gradient。后者融合了DQN的优势，解决了收敛难得问题。

2.2 算法

这套算法是在普通的Policy Gradient算法上面修改的，如果对Policy Gradient算法不是很了解，可以点这里https://blog.csdn.net/shoppingend/article/details/124297444?spm=1001.2014.3001.5502了解一下。
这套算法打个比方：Actor修改行为时就像蒙着眼睛一直向前开车，Critic就是那个扶方向盘改变Actor开车方向的。

或者说详细点，就是Actor在运用Policy Gradient的方法进行Gradient ascent的时候，由Critic来告诉他，这次的Gradient ascent是不是一次正确的ascent，如果这次的得分不好，那么就不要ascent这么多。

; 2.3 代码主结构

上面是Actor的神经网络结构，代码结构如下：

class Actor(object):
    def __init__(self, sess, n_features, n_actions, lr=0.001):

    def learn(self, s, a, td):

    def choose_action(self, s):

上面是Critic的神经网络结构，代码结构如下：

class Critic(object):
    def __init__(self, sess, n_features, lr=0.01):

    def learn(self, s, r, s_):

        return

2.4 两者学习方式

Actor 想要最大化期望的reward，在Actor-Critic算法中，我们用”比平时好多少”（TDerror）来当作reward，所以就是：

with tf.variable_scope('exp_v'):
    log_prob = tf.log(self.acts_prob[0, self.a])
    self.exp_v = tf.reduce_mean(log_prob * self.td_error)
with tf.variable_scope('train'):

    self.train_op = tf.train.AdamOptimizer(lr).minimize(-self.exp_v)

Critic的更新更简单，就是像Q-Learning那样更新现实和估计的误差（TDerror）就好。

with tf.variable_scope('squared_TD_error'):
    self.td_error = self.r + GAMMA * self.v_ - self.v
    self.loss = tf.square(self.td_error)
with tf.variable_scope('train'):
    self.train_op = tf.train.AdamOptimizer(lr).minimize(self.loss)

2.5 每回合算法

for i_episode in range(MAX_EPISODE):
    s = env.reset()
    t = 0
    track_r = []
    while True:
        if RENDER: env.render()

        a = actor.choose_action(s)

        s_, r, done, info = env.step(a)

        if done: r = -20

        track_r.append(r)

        td_error = critic.learn(s, r, s_)
        actor.learn(s, a, td_error)

        s = s_
        t += 1

        if done or t >= MAX_EP_STEPS:

            ep_rs_sum = sum(track_r)
            if 'running_reward' not in globals():
                running_reward = ep_rs_sum
            else:
                running_reward = running_reward * 0.95 + ep_rs_sum * 0.05
            if running_reward > DISPLAY_REWARD_THRESHOLD: RENDER = True
            print("episode:", i_episode, "  reward:", int(running_reward))
            break

文章来源：莫凡强化学习h ttps://mofanpy.com/tutorials/machine-learning/reinforcement-learning/

Original: https://blog.csdn.net/shoppingend/article/details/124341639
Author: 谁最温柔最有派
Title: 【强化学习】Actor-Critic（演员-评论家）算法详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/718979/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【andriod】设备APP开发之各种细节部署和操作

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0089
时序分析 29 – 时序预测 – 格兰杰因果关系（下） python实践2

时序分析 29 Granger-Cause 实践2 金融时序数据分析本文主要搭建经济模型，从而分析和预测金融时序数据，重点关注黄金和原油价格。这两种金融资产对全球经济影响较大…

人工智能 2023年7月15日
0048
项目场景： gyp verb check python checking for Python executable python2 in the PATH

node v16.15.0 npm 8.5.5 npm install 报错 gyp verb check python checking for Python execu…

人工智能 2023年7月5日
0065
私域流量知识图谱_私域的社交流量-微信生态转化路径 – 知识库

这个模式到了今年才真正的把所谓的OTO的整套的模型整理完整。零售行业是永远摆脱不了人货场的，不管是电商还是线下，人货场一定都是零售业的核心的思路和方式。这就形成了多方位的触点，比如…

人工智能 2023年6月10日
0071
实时语义分割网络 BiSeNet（附代码解读）

实时语义分割网络 BiSeNet BiSeNet * Contributions BackGround BiSeNet 结构 Loss function Experimental …

人工智能 2023年5月26日
0079
Sublime合并生成,同时编辑三页代码和文本框

Sublime合并生成,同时编辑三页代码和文本框 Sublime Merge是应用程序工具的名称，当然，它对编程非常有用。事实上，一个文本编辑器和一个非常简单的代码非常方便，当然功…

人工智能 2023年6月27日
0074
机器学习入门目标检测之印章检测和分类

识别效果如上图模型下载地址： ; 采用技术架构 Flask PaddlePaddle PaddleX 安装框架：Flask，PaddlePaddle，PaddleXpython3….

人工智能 2023年6月16日
0070
【GIS】夜光遥感数据时序分析

基于夜光遥感的旅游产业发展分析夜光遥感技术是指遥感平台获取夜间灯光数据的遥感技术。其具有空间清晰的与城市化有关的社会经济活动强度的感知信息,为探索城市和城市化问题提供了新的研究途…

人工智能 2023年6月19日
0076
20. Python的字典嵌套

嵌套是我们迄今为止最强大的概念之一。嵌套涉及将列表或字典放在另一个列表或字典中。通过嵌套，可以在程序中建模信息的能力大大扩展。字典嵌套：我们在这里看两个例子，一个是字典中的列…

人工智能 2023年7月29日
0061
使用transformer进行图像分类

文章目录 1、导入模型 2、定义加载函数 3、定义批量加载函数 4、加载数据 5、定义数据预处理及训练模型的一些超参数 6、定义数据增强模型 7、构建模型 7.1 构建多层感知器（…

人工智能 2023年5月25日
0071
Vulntarget-a靶场实战记录

攻击手段通达OA未授权上传+文件包含RCE Redis未授权写马 ms17-010永恒之蓝代理转发内网跳板 CVE-2020-1472 域控杀器Zerologon wmiexe…

人工智能 2023年6月27日
0097
（记录一下）电脑上现有环境

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月28日
0064
2022 新版本c++安装opencv库的简单操作教程

近期选修了计算机视觉的课程，正好更新一下最新的cpp下的opencv库的教程。废话少说干货降临：网站下载解压对应opencv库这里我们推荐官网下载：https://open…

人工智能 2023年5月26日
0074
win10安装neo4j社区版(十分钟ok)

亲不要再踩坑啦来这里啦 1 安装jdk11 1.1 why neo4j是用Java语言编写的图形数据库，运行时需要启动JVM进程。neo4j和java版本要匹配，截止文章发布时…

人工智能 2023年6月4日
00115
最小二乘法，回归，线性回归，Logistic回归

1：最小二乘法 2：回归 3：线性回归 4.逻辑回归（Logistic Regression） Original: https://blog.csdn.net/u013171226…

人工智能 2023年6月18日
0050
10.1 Python图像处理之边缘算子-Sobel算子、Roberts算子、拉普拉斯算子、Canny算子、Prewitt算子、高斯拉普拉斯算子

10.1 Python图像处理之边缘算子-Sobel算子、Roberts算子、拉普拉斯算子、Canny算子、Prewitt算子、高斯拉普拉斯算子文章目录 10.1 Python图…

人工智能 2023年6月18日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31