【强化学习PPO算法】

2023年8月1日上午9:18 • Python • 阅读 65

强化学习PPO算法

一、PPO算法
二、伪代码
三、相关的简单理论
*
1.ratio
2.裁断
3.Advantage的计算
4.loss的计算
四、算法实现
五、效果
六、感悟

最近再改一个代码，需要改成PPO方式的，由于之前没有接触过此类算法，因此进行了简单学习，论文没有看的很详细，重点看了实现部分，这里只做简单记录。

这里附上论文链接，需要的可以详细看一下。

一、PPO算法

PPO算法本质上是一个On-Policy的算法，它可以对采样到的样本进行多次利用，在一定程度上解决样本利用率低的问题，收到较好的效果。论文里有两种实现方式，一种是结合KL的penalty的，另一种是clip裁断的方法。大部分都是采用的后者，本文记录的也主要是后者的实现。

二、伪代码

在网上找了一下伪代码，大概两类，前者是Open AI的，比较精炼，后者是Deepmind的，写的比较详细，在这里同时附上.

; 三、相关的简单理论

1.ratio

这里的比例ratio，是两种策略下动作的概率比，而在程序实现中，用的是对动作分布取对数，而后使用e指数相减的方法，具体实现如下所示：

action_logprobs = dist.log_prob(action)
ratios = torch.exp(logprobs - old_logprobs.detach())

2.裁断

其中，裁断对应的部分如下图所示：

上述公式代表的含义如下：
clip公式含义.

这里我是这样理解的：
(1)如果A>0,说明现阶段的(st,at)相对较好，那么我们希望该二元组出现的概率越高越好，即ratio中的分子越大越好，但是分母分子不能差太多，因此需要加一个上限;
(2)如果A

Original: https://blog.csdn.net/weixin_47471559/article/details/125593870
Author: 喜欢库里的强化小白
Title: 【强化学习PPO算法】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/727829/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

matplotlib之Line2D类详解

不同于之前几篇文章，这个Line2D是一个类对象，而不是一个方法，下面是来自官网的定义。 class matplotlib.lines. Line2D(xdata, ydata, …

Python 2023年9月6日
0052
2流高手速成记（之四）：SpringBoot整合redis及mongodb

最近很忙，好不容易才抽出了时间，咱们接上回上次我们主要讲了如何通过SpringBoot快速集成mybatis/mybatis-plus，以实现业务交互中的数据持久化，而这一切都是…

Python 2023年10月17日
0050
软件设计模式白话文系列（十二）组合模式

1、模式描述组合模式属于结构型模式，把多个对象组成树状结构来表示局部与整体，这样用户可以以 相同的方式对待单个对象和组合对象。需要注意…

Python 2023年10月15日
0094
tolist方法python_python中如何使用tolist()方法将数组或者矩阵转换为列表？

python中最基础的数据类型就是列表，可以使数据的计算简单明了名可以快速地运算，那么如何将复杂数组或者矩阵转换为列表进行计算呢？其实只需要简单的一步，使用tolist()方法，它…

Python 2023年8月28日
0069
sqlalchemy insert or ignore

insert ignore 批量操作 https://github.com/pallets/flask-sqlalchemy/issues/241 https://docs.sql…

Python 2023年6月12日
0066
Python代码阅读（第33篇）：反转字典

本文中读取的代码颠倒了一个字典，并且原始字典的值不是唯一的。 [En] The code read in this article reverses a dictionary, a…

Python 2023年5月25日
0070
Python 虚拟环境安装，以及使用Pycharm创建一个flask项目

文章目录 Python虚拟环境安装一、虚拟环境安装步骤二、使用Pycharm创建flask项目一、Python虚拟环境安装 Windows系统下，打开cmd窗口，输入以下命令…

Python 2023年8月13日
0062
安装VMware Tools显示灰色的解决办法

用VMware Workstation Pro好几年了，期间这个问题也遇到过好几次，这次把解决方案记录一下，若后续有其他情况其他解决方案将在此博文更新。 Step1：关闭虚拟机； …

Python 2023年6月11日
0083
python爬虫多进程,多线程,协程以及组合应用的效率对比(multiprocessing库)–以爬取单本小说全文为例

本篇将测试爬取单本小说下：利用多进程，多线程，协程，以及多进程加多线程，多进程加协程组合应用的效率。以爬取–笔趣阁–大道争锋为例，测试相关组合的性能。 …

Python 2023年6月3日
0092
2022年各国程序员编程水平排行榜出炉，排名第一的国家没听说过

哪个地方的程序员编程水平最高？相信很多人对这个问题感兴趣，今天就来聊一聊这个话题。 Pentalog 是一个全球数字服务平台，主要帮助企业寻找世界上一流的IT人才，每年都会发布一份…

Python 2023年10月9日
0053
DataFrame，pandas索引，重置索引

3.1.2 DataFrame DataFrame是一个类似于二维数组或表格的对象，它每列的数据可以是不同的数据类型。与Series的结构相似，DataFrame的结构也是有索引和…

Python 2023年8月6日
0047
centos 安装python3导致yum报错

centos yum报错 File “/usr/bin/yum”, line 30 except KeyboardInterrupt, e: 报错一： Fi…

Python 2023年6月11日
0067
Python练习实例021

问题：猴子吃桃问题：猴子第一天摘下若干个桃子，当即吃一半，还不过瘾，又多吃了一个，第二天早上又将剩下的桃子吃掉一半，又多吃了一个。以后每天早上都吃了前一天剩下的一半加一个。到第10…

Python 2023年6月11日
0085
【智能PDU】智慧网络远程电源开关管理系统

【智能PDU】智慧网络远程电源开关管理系统【智能PDU】智慧网络远程电源开关管理系统京准电子科技——ahjzsz 专业级网络远程监控管理电源分配系统，是我公司在电源分配技术领域…

Python 2023年10月28日
0034
Pytest断言使用

assert断言方法异常断言Excepiton 检查断言装饰器 Pytest使用的断言是使用 python内置的断言assert。Python assert（断言）用于判断一个表…

Python 2023年9月13日
0074
记录一下参加计算机设计大赛(大数据类)用Flask制作的项目(耗时12天)

刚刚参加完大数据技能竞赛，回到学校立刻就开启了计算机设计大赛，时间非常仓促，所以这个项目只能一边设计一边开发。12天的速成品，就只能这样啦。这个项目主要主题是岗位分析，分析用户的…

Python 2023年10月2日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【强化学习PPO算法】

强化学习PPO算法

1.ratio

2.裁断

大家都在看