强化学习—— 经验回放（Experience Replay）

2023年10月9日上午7:09 • Python • 阅读 32

强化学习—— 经验回放（Experience Replay）

1、DQN的缺点
*
1.1 DQN
1.2 DQN的不足
–
- 1.2.1 经验浪费
- 1.2.2 相关更新（correlated update）
2 经验回放
*
2.1 简介
2.2 计算步骤
2.3 经验回放的优点
3. 改进的经验回放（Prioritized experience replay）
*
3.1 基本思想
3.2 重要性抽样（importance sampling）
–
3.3 总结

; 1、DQN的缺点

1.1 DQN

近似最优动作价值函数：Q ( s , a ; W ) ∼ Q ⋆ ( s , a ) Q(s,a;W)\sim Q^\star (s,a)Q (s ,a ;W )∼Q ⋆(s ,a )
TD error:δ t = q t − y t \delta_t=q_t-y_t δt =q t −y t
TD Learning:L ( W ) = 1 T ∑ t = 1 T δ t 2 2 L(W)=\frac{1}{T}\sum_{t=1}^{T} \frac{\delta_t^2}{2}L (W )=T 1 t =1 ∑T 2 δt 2

1.2 DQN的不足

1.2.1 经验浪费

一个 transition为：( s t , a t , r t , s t + 1 ) (s_t,a_t,r_t,s_{t+1})(s t ,a t ,r t ,s t +1 )
经验（所有的transition）为：{ ( s 1 , a 1 , r 1 , s 2 , ) , . . . ( s t , a t , r t , s t + 1 ) , . . . , s T , a T , r T , s T + 1 } {(s1,a1,r1,s2,),…(s_t,a_t,r_t,s_{t+1}),…,s_T,a_T,r_T,s_{T+1}}{(s 1 ,a 1 ,r 1 ,s 2 ,),…(s t ,a t ,r t ,s t +1 ),…,s T ,a T ,r T ,s T +1 }

1.2.2 相关更新（correlated update）

通常t时刻的状态和t+1时刻的状态是强相关的。
r ( s t , s t + 1 ) r(s_t,s_{t+1})r (s t ,s t +1 )

2 经验回放

2.1 简介

一个transition为：( s t , a t , r t , s t + 1 ) (s_t,a_t,r_t,s_{t+1})(s t ,a t ,r t ,s t +1 )
回放容器（replay buffer）为：存储n个transition
如果超过n个transition时，删除最早进入容器的transition
容器容量（buffer capacity）n为一个超参数：n 一般设置为较大的数，如 1 0 5 ∼ 1 0 6 具体大小取决于任务 n一般设置为较大的数，如10^5\sim 10^6\具体大小取决于任务n 一般设置为较大的数，如1 0 5 ∼1 0 6 具体大小取决于任务

2.2 计算步骤

最小化目标为：L ( W ) = 1 T ∑ t = 1 T δ t 2 2 L(W)=\frac{1}{T}\sum_{t=1}^{T} \frac{\delta_t^2}{2}L (W )=T 1 t =1 ∑T 2 δt 2
使用随机梯度下降（SGD）进行更新：
从buffer中随机抽样：( s i , a i , r i , s i + 1 ) (s_i,a_i,r_i,s_{i+1})(s i ,a i ,r i ,s i +1 )
计算TD Error：δ i \delta_i δi
随机梯度为：g i = ∂ δ i 2 2 ∂ W = δ i ⋅ ∂ Q ( s i , a i ; W ) ∂ W g_i=\frac{\partial \frac{\delta_i^2}{2}}{\partial W}= \delta_i \cdot \frac{\partial Q(s_i,a_i;W)}{\partial W}g i =∂W ∂2 δi 2 =δi ⋅∂W ∂Q (s i ,a i ;W )
梯度更新：W ← W − α g i W\gets W-\alpha g_i W ←W −αg i

2.3 经验回放的优点

打破了序列相关性
重复利用过去的经验

3. 改进的经验回放（Prioritized experience replay）

3.1 基本思想

不是所有transition都同等重要
TD error 越大，则transition更重要：∣ δ t ∣ |\delta_t|∣δt ∣

3.2 重要性抽样（importance sampling）

用非均匀抽样替代均匀抽样

3.2.1 抽样方式

p t ∝ ∣ δ t ∣ + ϵ p_t \propto |\delta_t|+\epsilon p t ∝∣δt ∣+ϵ
transition依据TD error进行降序处理，rank（t）代表第t个transition：p t ∝ 1 r a n k ( t ) + ϵ p_t \propto \frac{1}{rank(t)}+\epsilon p t ∝r a n k (t )1 +ϵ
总而言之，TD error越大，被抽样的概率越大，通常按Mini-batch进行抽样。

3.2.2 学习率变换（scaling learning rate）

为了抵消不同抽样概率造成的学习偏差，需要对学习率进行变换

SGD:W ← W − α ⋅ g W\gets W-\alpha \cdot g W ←W −α⋅g
均匀抽样：学习率对于所有transition都一样(转换因子为1)：p 1 = p 2 = . . . = p n p_1=p_2=…=p_n p 1 =p 2 =…=p n
非均匀抽样：高概率对应低学习率：( n ⋅ p t ) − β β ∈ [ 0 , 1 ] (n\cdot p_t)^{-\beta}\ \beta \in 0,1−ββ∈[0 ,1 ]网络刚开始训练时，β设置较小，随着网络训练，逐渐增加β至1。

3.2.3 训练过程

如果一个transition最近被收集，还未知其TD Error，将其TD Error设为最大值，即具有最高的优先级。
每次从replay buffer中选取出一个transition，然后更新其TD Error：δ t \delta_t δt

3.3 总结

transitionsampling probabilitieslearning rates
( s t , a t , r t , s t + 1 ) (s_t,a_t,r_t,s_{t+1})(s t ,a t ,r t ,s t +1 )p t ∝ ∣ δ t ∣ + ϵ p_t \propto |\delta_t|+\epsilon p t ∝∣δt ∣+ϵα ⋅ n ⋅ ( p t ) − β \alpha \cdot n\cdot (p_t)^{-\beta}α⋅n ⋅(p t )−β( s t + 1 , a t + 1 , r t + 1 , s t + 2 ) (s_{t+1},a_{t+1},r_{t+1},s_{t+2})(s t +1 ,a t +1 ,r t +1 ,s t +2 )p t + 1 ∝ ∣ δ t + 1 ∣ + ϵ p_{t+1}\propto |\delta_{t+1}|+\epsilon p t +1 ∝∣δt +1 ∣+ϵα ⋅ n ⋅ ( p t + 1 ) − β \alpha \cdot n\cdot (p_{t+1})^{-\beta}α⋅n ⋅(p t +1 )−β( s t + 2 , a t + 2 , r t + 2 , s t + 3 ) (s_{t+2},a_{t+2},r_{t+2},s_{t+3})(s t +2 ,a t +2 ,r t +2 ,s t +3 )p t + 2 ∝ ∣ δ t + 2 ∣ + ϵ p_{t+2}\propto |\delta_{t+2}|+\epsilon p t +2 ∝∣δt +2 ∣+ϵα ⋅ n ⋅ ( p t + 2 ) − β \alpha \cdot n\cdot (p_{t+2})^{-\beta}α⋅n ⋅(p t +2 )−β

本文内容为参考B站学习视频书写的笔记！

by CyrusMay 2022 04 10

我们在小孩和大人的转角
盖一座城堡
——————五月天（好好）——————

Original: https://blog.csdn.net/Cyrus_May/article/details/124075208
Author: CyrusMay
Title: 强化学习—— 经验回放（Experience Replay）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/794598/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一招解决所有依赖冲突

背景介绍最近遇到了这样一个问题，我们有一个 jar 包 common-tool，作为基础工具包，被各个项目在引用。突然某一天发现日志很多报错。一看是 NoSuchMethodE…

Python 2023年10月13日
0054
【盘点】Python新手入门常犯的错误!

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
0069
从零开始学定位 — kaist数据集体验

1 Kaist数据集简介选择数据集选择了好几天，最终选择了kaist数据集，这个数据集中有轮速计，imu, gps, 16线雷达，这些传感器满足了我认为多传感器融合定位的需要。…

Python 2023年9月16日
0048
利用pandas拆分单元格并进行分组聚合

背景：最近指导老师布置了一个数据分析的任务要将三张表格进行整理得到错题的数目页行列表示错题的位置思路：我的思路是读取文件夹当中的文件名列表，然后利用for循环和panda…

Python 2023年8月17日
0047
Go的网络编程详解

一互联网协议介绍 1.1互联网分层模型互联网的逻辑实现被分为好几层。每一层都有自己的功能，就像建筑物一样，每一层都靠下一层支持。用户接触到的只是最上面的那一层，根本不会感觉到下…

Python 2023年10月19日
0034
python编程从入门到实战16章x轴_《python编程：从入门到实践》中文文字版

这本书对python新手比较友好，共20章内容，基本上python的基础操作都包含了，目录太长，这里就不全部列出来了，本书最大的亮点是最后的实战项目，比如可以通过pygame库编写…

Python 2023年9月25日
0050
CentOS7部署Flask（安装mod_wsgi遇到的坑）

最近在Windows下写了个小东西，打算发布到内部的centos7服务器上，部门内部使用。参考以下链接准备开干：CentOS7部署Flask 结果因为我提前装了apache，再按上…

Python 2023年8月13日
0077
numpy的安装和创建

一：安装 1.以管理员的形式打开cmd 2.以管理员身份运行 pip install nump 3.输入安装命令 python -m pip install numpy <i…

Python 2023年8月27日
0064
【小记】go如何判断key是否在map中

go如何判断key是否在map中判断key是否存在, 判断方式为value,ok := map[key], ok为true则存在 if _, ok := map[key], ok…

Python 2023年6月9日
0056
搜索中常见数据结构与算法探究（二）

本文介绍了几个常见的匹配算法，通过算法过程和算法分析介绍了各个算法的优缺点和使用场景，并为后续的搜索文章做个铺垫；读者可以通过比较几种算法的差异，进一步了解匹配算法演进过程以及解决…

Python 2023年10月19日
0037
python中分组频率统计功能_Python数据分析之数据聚合与分组

一、概述之前我们总结了Pandas的数据加载、清洗及规整，本文主要总结数据聚合与分组，其在我们的数据分析工作中的使用频率也比较高，Pandas为我们提供了gruopby功能，它使…

Python 2023年8月20日
0046
【数学建模】聚类分析——python实现

目录一、储备知识（1）何为聚类分析：（2）分类方法：二、聚类分析的一般步骤三、聚类实操——python实现四、代码总结一、储备知识（1）何为聚类分析：聚类分析又称…

Python 2023年8月1日
0039
Pytest学习笔记（14）-allure之@allure.link()、@allure.issue()和@allure.testcase()

文章目录 * – + * @allure.link()、@allure.issue()和@allure.testcase() * – 先看下源码 &#821…

Python 2023年9月11日
0051
python读取数据库的值并保存为csv格式的文件

由于自己不怎么会写存储过程，不能再数据库中直接处理数据，只能通过python读取数据库的数据用python处理数据。需要引用的包为 import pymssql import p…

Python 2023年8月7日
0052
前端必读3.0：如何在 Angular 中使用SpreadJS实现导入和导出 Excel 文件

在之前的文章中，我们为大家分别详细介绍了在JavaScript、React中使用SpreadJS导入和导出Excel文件的方法，作为带给广大前端开发者的”三部曲&#82…

Python 2023年10月21日
0075
ValueError:only one element tensors can be converted to Python scalars解决办法

深度学习初学者的我在使用pytorch debug深度神经网络模型的时候，list，tensor，array之间的转化太复杂了，总是傻傻分不清。这次又遇到问题：ValueError…

Python 2023年8月23日
0052

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

强化学习—— 经验回放（Experience Replay）

强化学习—— 经验回放（Experience Replay）

; 1、DQN的缺点

1.1 DQN

1.2 DQN的不足

1.2.1 经验浪费

1.2.2 相关更新（correlated update）

2 经验回放

2.1 简介

2.2 计算步骤

2.3 经验回放的优点

3. 改进的经验回放（Prioritized experience replay）

3.1 基本思想

3.2 重要性抽样（importance sampling）

3.2.1 抽样方式

3.2.2 学习率变换（scaling learning rate）

3.2.3 训练过程

3.3 总结

大家都在看