强化学习-学习笔记15 | 连续控制

2023年10月29日上午6:50 • Python • 阅读 52

本系列的完结篇，介绍了连续控制情境下的强化学习方法，确定策略 DPG 和随机策略 AC 算法。

15. 连续控制

15.1 动作空间

离散动作空间
(Action \ space \ \mathcal{A}={left,right,up})
比如超级玛丽游戏中的向上\向左\向右；
此前博文讨论的，都是离散的控制，动作有限。
连续动作空间
(Action \ space \ \mathcal{A}=[0°,360°]×[0°,180°])
比如机械臂，如果具有两个运动关节：

* 所以此前的方法不能简单照搬到连续控制。要想应用到连续控制上，可以采用 连续空间离散化。

连续空间离散化：

比如机械臂进行二维网格划分。那么有多少个格子，就有多少种动作。
缺点：假设d为连续动作空间的自由度，动作离散化后的数量会随着d的增加呈现指数增长，从而造成维度灾难。动作太多会学不好DQN 或策略网络。
所以 离散化 适合自由度较小的问题。

另外还有两个方法：

使用确定策略网络((Deterministic \ policy \ network))
使用随机策略((Stochastic \ policy \ network))。

15.2 DPG | 确定策略

a. 基础了解

Deterministic Policy Gradient.确定策略梯度，可以用于解决连续控制问题。后续引入深度神经网络，就是著名的 DDPG。

DPG 是 Actor-Critic 方法的一种。结构图如下：

策略网络 actor
策略网络是确定性的函数(a=\pi(s;\theta))
输入是状态 s ；输出是一个具体的动作 s；即给定状态输出具体的动作，无随机性。
输出的动作是可以指导运动的实数或向量。
价值网络 critic
记作(q(s,a;w))
输入是状态 s 和动作 a，基于状态 s，评价动作 a 的好坏程度，输出一个分数 q；
训练两个神经网络，让两个网络越来越好。
用 TD 算法更新价值网络：
观测 transition:((s_t,a_t,r_t,s_{t+1}))
价值网络预测 t 时刻的动作价值 (q_t=q(s_t,a_t;w))
价值网络预测 t+1时刻的价值：(q_{t+1}=q(s_{t+1},a’_{t+1};w))

注意这里的 (a’_{t+1}) 是策略网络 t+1 时刻预选出来的动作，尚未执行。
TD error：(\delta_t=q_t-\underbrace{(r_t+\gamma\cdot q_{t+1})}_{TD \ target})
更新参数：(w\leftarrow w-\alpha\cdot\delta_t \cdot \frac{\partial q(s_t,a_t;w)}{\partial w})
策略网络用 DPG 算法更新

b. 算法推导

对 DPG 算法进行推导。

训练价值网络的目标是，让价值网络的输出 q 越大越好。
而在DPG 的网络结构中，在给定状态时，动作是确定的（策略网络会给出一个确定的动作），且价值网络固定，那么影响输出的就是策略网络的参数 (\theta)。
所以更新 θ 使价值 q 更大；
计算价值网络关于 θ 的梯度 DPG：(g=\frac{\partial q(s,\pi(s;\theta))}{\partial\theta}=\frac{\partial a}{\partial\theta}\cdot\frac{\partial q(s,a;w)}{\partial a})

链式法则，让梯度从价值 q 传播到动作 a；再从 a 传播到策略网络。
梯度上升更新 (\theta)：(\theta\leftarrow \theta+\beta\cdot g)

c. 算法改进1 | 使用 TN

上面的 DPG 是比较原始的版本，用 Target Network 可以提升效果。Target Network 在此前第11篇中讲过，上文中的算法也会出现高估问题或者低估问题。

因为用自身下一时刻的估计来更新此时刻的估计。

Target Network 方法的过程是：

用价值网络计算 t 时刻的价值:(q_t=q(s_t,q_t;w))
TD target (不同之处):
改用两个不同的神经网络计算 TD target 。
用 target policy network 代替策略网络来预选(a’{t+1})，网络结构和策略网络一样，但参数不一样；记为(a’{t+1}=\pi(s_{s+1};\theta^-))
用 target value network 代替价值网络计算(q_{t+1})，与价值网络结构相同，参数不同；记为(q_{t+1}=q(s_{t+1},a’_{t+1};w^-))
后续 TD error 以及参数更新与原始算法一致，具体见第11篇

d. 完整过程

策略网络做出选择:(a=\pi(s;\theta))
用 DPG 更新策略网络：(\theta\leftarrow \theta+ \beta\cdot\frac{\partial a}{\partial\theta}\cdot\frac{\partial q(s,a;w)}{\partial a})
价值网络计算(q_t)：(q_t=q(s,a;w))
Target Networks 计算(q_{t+1})
TD error：(\delta_t=q_t-(r_t+\gamma\cdot q_{t+1}))
梯度下降：(w\leftarrow w-\alpha\cdot\delta_t \cdot\frac{\partial q(s,a;w)}{\partial w})

同样，之前讲过的其他改进也可以用于这里，如经验回放、multi-step TD Target 等。

15.3 确定策略 VS 随机策略

DPG 使用的是确定策略网络，跟之前的随机策略不同。

\ 随机策略确定策略策略函数 $\pi(a s;\theta)$ 输出每个动作一个概率值，向量确定的动作控制方式根据概率分布抽样a 输出动作并执行应用大多是离散控制，用于连续的话结构大有不同连续控制

15.4 | 随机策略

这部分来介绍怎么在连续控制问题中应用随机策略梯度。

构造一个策略网络，来做连续控制，这个策略网络与之前学过的相差很大，以机械臂为例：

a. 自由度为 1 的连续动作空间

先从一个简单的情况研究起，自由度为1，这时动作都是实数 (\mathcal{A}\subset \mathbb{R})

记均值为(\mu)，标准差是(\sigma) ，都是状态 s 的函数，输出是一个实数
假定我们的策略函数是正态分布函数(N(\mu,\sigma^2))：(π(a|s)=\frac{1}{\sqrt{6.28}\sigma}\cdot exp(-\frac{(a-\mu)^2}{2\sigma^2}))
根据策略函数随机抽样一个动作

b. 自由度 >1 的连续动作空间

而机械臂的自由度通常是3或者更高，把自由度记为 d，动作 a 是一个 d 维的向量。

用粗体(\boldsymbol{\mu}) 表示均值，粗体(\boldsymbol{\sigma}) 表示标准差，都是状态 s 的函数，输出是都是 d 维向量
用(\mu_i) 和(\sigma_i) 表示(\boldsymbol{\mu}(s)) 和(\boldsymbol{\sigma}(s)) 输出的第 i 个元素，假设各个维度独立，则可以表示成 a 中的函数连乘
(π(a|s)=\Pi_{i=1}^d \frac{1}{\sqrt{6.28}\sigma_i}\cdot exp(-\frac{(a_i-\mu_i)^2}{2\sigma_i^2}))

但是问题是，我们不知道具体的 (\mu , \sigma)，我们 用神经网络来近似它们。

c. 函数近似

用神经网络(\mu(s;\theta^\mu)) 近似(\mu)
用神经网络(\sigma(s;\theta^\sigma))近似(\sigma(s))，实际上这样效果并不好，近似方差的对数更好:(\boldsymbol{\rho_i=ln\sigma_i^2},for \ i=1,…,d.)
即用神经网络(\boldsymbol\rho(s;\boldsymbol{\theta^\rho})) 近似(\boldsymbol\rho)；

网络结构如下：

d. 连续控制

观测到状态 s，输入神经网络；
神经网络输出 (\hat\mu=\mu(s;\theta^\mu),\hat\rho=\rho(s;\theta^\rho))，都是 d 维度
(\hat\rho) 计算 (\hat\sigma_i^2=\exp(\hat\rho_i))
随机抽样得到动作 a ：(a_i\sim\mathcal{N}(\hat\mu_i,\hat\sigma_i^2))

这个正态分布是假定的策略函数。

e. 训练策略网络

1. 辅助神经网络

Auxiliary Network, 计算策略梯度时对其求导。

随机策略梯度为：(g(a)=\frac{\partial ln\pi(a|s;\theta)}{\partial\theta}\cdot Q_\pi(s,a))
计算 (\pi) 的对数。
策略网络为：(\pi(A|s;\theta^\mu)=\Pi_{i=1}^d\frac{1}{\sqrt{6.28}}\cdot\exp(-\frac{(a_i–\mu)^2}{2\delta^2_i})),输出是一个概率密度，表示在某点附近的可能性大小

虽然可以算出来某个动作的概率，但实际上我们只需要知道均值和方差，来做随机抽样即可，所以实际上我们用不到这个策略函数 (\pi)
由上面策略梯度公式知：我们需要策略 (\pi) 的对数，所以训练时，我们会用到策略 (\pi) 的对数，而不是 (\pi) 本身： [\ln\pi(a|s;\theta^\mu,\theta^\rho)=\sum_{i=1}^d[-\ln\delta_i-\frac{(a_i-\mu_i)^2}{2\delta^2}]+const ]
由于神经网络输出的时方差对数(\rho_i)，而不是(\delta^2_i)，所以做个替换：(\delta_i^2=\exp\rho_i)
(\ln\pi(a|s;\theta^\mu,\theta^\rho)=\sum_{i=1}^d[-\ln\delta_i-\frac{(a_i-\mu_i)^2}{2\delta^2}]+const\=\sum_{i=1}^d[-\frac{\rho_i}{2}-\frac{(a_i-\mu_i)^2}{2\exp(\rho_i)}]+const)
这样神经网络的对数就表示成了 (\rho,\mu) 的形式，记 (\theta=(\theta^\mu,\theta^\rho))
把上式连加的一项记为 (f(s,a;\theta))，这就是 辅助神经网络 Auxiliary Network.用于帮助训练。
(f(a,s;\theta)=\sum_{i=1}^d[-\frac{\rho_i}{2}-\frac{(a_i-\mu_i)^2}{2\exp(\rho_i)}])
f 的输入是 s, a ，依赖于 (\rho,\mu)，所以参数也是 (\theta)
1. 输入为 (\underbrace{\mu,\rho}_{s},a)，输出为一个实数 f；

2.策略梯度算法训练策略网络

随机策略梯度：(g(a)=\frac{\partial ln\pi(a|s;\theta)}{\partial\theta}\cdot Q_\pi(s,a))
辅助神经网路：(f(s,a;\theta)=\ln\pi(a|s;\theta)+const)
可以注意到，f 的梯度和 (\ln\pi) 的梯度相同，可以用前者梯度代替后者，即 [g(a)=\frac{\partial f(s,a;\theta)}{\partial \theta}\cdot Q_\pi(s,a) ] 而 f 作为一个神经网路，成熟的 pytorch 等可以对其自动求导。
Q 还未知，需对其做近似
具体参见第14篇
Reinforce
- 用观测到的回报(u_t) 来近似(Q_\pi)
- 更新策略网络：(\theta\leftarrow\theta+\beta\cdot\frac{\partial f(s,a;\theta)}{\partial\theta}\cdot u_t)
Actor-Critic（A2C）
- 用价值网络(q(s,a;w)) 近似(Q_\pi)
- 更新策略网络：(\theta\leftarrow\theta+\beta\cdot\frac{\partial f(s,a;\theta)}{\partial\theta}\cdot q(s,a;w))
- 而新引入的价值网络(q(S,a;w))，用 TD 算法来进行学习。

15.5 总结

连续动作空间有无穷多种动作数量
解决方案包括：
离散动作空间，使用标准DQN或者策略网络进行学习，但是容易引起维度灾难
使用确定策略网络进行学习

没有随机性，某些情境下不合适。
随机策略网络（(\mu) 与 (\sigma^2)）
随机策略的训练过程：
构造辅助神经网络(f(s,a;\theta)) 计算策略梯度；
策略梯度近似算法包括：reinforce、Actor-Critic 算法
- 可以改进 reinforce 算法，使用带有 baseline 的 reinforce 算法
- 可以改进 Actor-Critic 算法，使用 A2C 算法

本系列完结撒花！

x. 参考教程

视频课程：深度强化学习（全）_哔哩哔哩_bilibili
视频原地址：https://www.youtube.com/user/wsszju
课件地址：https://github.com/wangshusen/DeepLearning
参考博客：https://blog.csdn.net/Cyrus_May/article/details/124137445

Original: https://www.cnblogs.com/Roboduster/p/16479404.html
Author: climerecho
Title: 强化学习-学习笔记15 | 连续控制

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/807374/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

VUE：引入腾讯地图并实现轨迹动画

VUE：引入腾讯地图并实现轨迹动画腾讯位置服务JavaScript API 效果：引入步骤：在 html 中通过引入 script 标签加载API服务在一个盒子元素 div…

Python 2023年10月21日
0044
python-sklearn数据分析-线性回归和支持向量机（SVM）回归预测（实战）

注：本文是小编学习实战心得分享，欢迎交流讨论！话不多说，直接附上代码和图示说明。目录一、分段示例 1.导入必要的库 2.读取数据，查看数据基本信息 3.简单查看有无重复值 4….

Python 2023年7月31日
0060
详细了解JVM运行时内存

详细了解JVM运行时内存 1.程序计数器概念程序计数器也叫作PC寄存器，是一块很小的内存区域，可以看做是当前线程执行的字节码的行号指示器。字节码的解释工作就是通过改变程序计数器…

Python 2023年10月16日
0033
pyqt5-tools安装失败处理方法

在准备学习python的PyQt5库时会遇到pyqt5-tools安装失败的情况。其中一种可能是版本不适配。 Pycharm弹出&amp…

Python 2023年8月3日
0047
数据结构最短路径课设（源码+实验报告+视频讲解）（不要钱、用了自取）

XI`AN TECHNOLOGICAL UNIVERSITY 课程设计报告实验课程名称算法与数据结构专业：班级：姓名：学号：实验学时：指导教师：成绩： …

Python 2023年11月6日
0040
实践题目：使用pandas处理excel多行到多列

文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言使用pandas实现excel的复杂多列到多行转换一、需求使用pandas实现ex…

Python 2023年8月7日
0056
PyTorch学习笔记（6）–热点图

目录 1.载入地图图片，创建随机分布的散列点，这些散列点以某些坐标正态分布，构成一些热点。 2.调用scipy.ndimage.filters.aussian_filter对频度图…

Python 2023年8月27日
0044
YOLOV7详细解读（一）网络架构解读

YOLOV7详细解读网络架构解读 YOLOV7详细解读前言一、YOLOV7是什么？二、网络架构 * 1、架构图总览 2、CBS模块解读 3、CBM模块解读 4、REP模块解…

Python 2023年9月29日
0053
Python学习必备：10个奇妙的Python库，看完后我惊呆了

10个奇妙的Python库，看完后我惊呆了！开发工具 Python版本： 3.6.4 相关模块： socket模块； textblob模块； pygame模块； pyqrcode…

Python 2023年9月20日
0048
Python教程：self用法

class Test: def prt(self): print(self) print(self.__class__) t = Test() t.prt() TypeError:…

Python 2023年8月23日
0058
机器学习基础

Linear Regression 线性回归 cost function 代价函数 [J(\theta_0,\theta_1) = \frac{1}{2m} \sum^m_{i=1…

Python 2023年6月6日
0076
使用Pandas进行数据清洗

数据清洗的目的是修正异常值，以更好地进行运算和观察结果。通过 Pandas对序列或数据帧的清洗分为两个步骤：异常检测和数据修正。 1.异常检测Pandas中的空值用’ …

Python 2023年8月20日
0062
numpy的简单使用（一）

目录 1.数组的简单创建数组的属性如何修改数组的形状数组的转置 2.数组生成函数 np.ones_like(array)的简单使用以下是arange(b,e,s)的简单使用…

Python 2023年8月29日
0047
Linux基础命令

系统信息命令 arch 显示机器的处理器架构 uname -m 显示机器的处理器架构 uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 &#82…

Python 2023年6月3日
0089
vulnhub靶场之CONTAINME: 1

准备：攻击机：虚拟机kali、本机win10。靶机：CONTAINME: 1，下载地址：https://download.vulnhub.com/containme/THM-C…

Python 2023年10月13日
0054
python pandas dataframe 遍历行_在pandas中遍历DataFrame行的实现方法

pandas.DataFrame.loc好慢，怎么遍历访问DataFrame如果用for来遍历，pandas比普通的python程序还要慢. 试试Series.apply函数来调用…

Python 2023年8月7日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31