PPO实战学习总结

2023年7月22日上午11:17 • 人工智能 • 阅读 97

PPO used in go-bigger

前段时间一直在学习ppo算法，写了一点总结，记录一下自己对ppo算法的一些理解与RL实战时候容易遇到的一些问题。代码地址如下，需要的可以自取：

https://github.com/FLBa9762/PPO_used_in_Gobigger.git

一般DRL在实际使用时根据流程可分类为collect、learn、eval三大过程，所以本文将PPO代码分成这三大过程逐一解析，重点解析learn部分的原理与代码，最后边再附上共享参数的PPO网络模型以供参考

collect

同时输出 action 和 value，并且保存在buffer中：

output = self._collect_model.forward(data, mode='compute_actor_critic')

保存到 buffer 的数据信息结构如下，其中 tarj_flag是一个标志位，从done信息得来但是将一组数据的最后一个done置为True：

其中；obs下数据的格式为：
PPO实战学习总结

每一次采集的数据可以多次输入到learn中进行学习， 提高样本的利用率：

    for i in range(cfg.policy.learn.update_per_collect):
        input_data = copy.deepcopy(train_data)
        learner.train(input_data, collector.envstep)

此外，还使用了 并行采集，使用了pipe库，具体使用方法还没有掌握

learn

流程

（1）用data中的obs信息和next_obs信息得出value和next_value：并且对value信息进行标准化

with torch.no_grad():
    value = self._learn_model.forward(data['obs'], mode='compute_critic')['value']
    next_value = self._learn_model.forward(data['next_obs'], mode='compute_critic')['value']
    if self._value_norm:
        value *= self._running_mean_std.std
        next_value *= self._running_mean_std.std

（2）利用data中的数据和value，next_value得出adv信息：

compute_adv_data = gae_data(value, next_value, data['reward'], data['done'], data['traj_flag'])
data['adv'] = gae(compute_adv_data, self._gamma, self._gae_lambda)

具体步骤在本小节后的关键步骤中。

（3）求return值，并对return和value进行标准化：

unnormalized_returns = value + data['adv']
if self._value_norm:
    data['value'] = value / self._running_mean_std.std
    data['return'] = unnormalized_returns / self._running_mean_std.std
    self._running_mean_std.update(unnormalized_returns.cpu().numpy())

处理后的data数据包含信息如图：

（4）将 data数据随机打乱，分组，每组大小为learn_batch，输入到model中进行loss计算，下面代码是计算loss时数据的准备工作（ 这里要注意data的维度，因为数据的运算全都是并行batch形式，不注意检查很容易就会出现问题，之前在这里吃了大亏）：

for batch in split_data_generator(data, self._cfg.learn.batch_size, shuffle=True):
    output = self._learn_model.forward(batch['obs'], mode='compute_actor_critic')
    adv = batch['adv'].squeeze(-1)
    output['logit'] = output['logit'].squeeze(1)
    batch['logit'] = batch['logit'].squeeze(1)
    if self._adv_norm:

        adv = (adv - adv.mean()) / (adv.std() + 1e-5)

（5）将处理后的数据打包输入进行loss计算，clip_ratio一般取0.2：

    ppo_batch = ppo_data(output['logit'], batch['logit'], batch['action'], output['value'], batch['value'], adv,batch['return'], batch['weight'])
    ppo_loss, ppo_info = ppo_error(ppo_batch, self._clip_ratio)

ppo_error 的具体步骤在本小节后的关键步骤中。

（6）第五步返回的loss有三种类型，分为policy_loss，value_loss和 entropy_loss, 由于actor和critic网络使用了公共参数，并且可以通过添加熵加成来确保足够的探索性。根据PPO论文所指出的（如下图），每次迭代要 最大化以下公式，这里我的 value_loss 和 entropy_loss 都是和公式一样的，policy_loss我在求的时候就加了负号了（policy_gradient的习惯），所以代码中的 total_loss 写成了如下形式：

    wv, we = self._value_weight, self._entropy_weight
    total_loss = ppo_loss.policy_loss + wv * ppo_loss.value_loss -  we * ppo_loss.entropy_loss
    self._optimizer.zero_grad()
    total_loss.backward()
    self._optimizer.step()

其中，wv和we分别为value_loss和entropy_loss的权重，一般取0.5和0.01

关键步骤

求adv(使用GAE方法)

（1）数据整理，代码如下：

    compute_adv_data = gae_data(value, next_value, data['reward'], data['done'], data['traj_flag'])
    data['adv'] = gae(compute_adv_data, self._gamma, self._gae_lambda)

（2）gae函数求每帧数据对应的adv：

def gae(data: namedtuple, gamma: float = 0.99, lambda_: float = 0.97):
    value, next_value, reward, done, traj_flag = data
    if done is None:
        done = torch.zeros_like(reward, device=reward.device)
    if len(value.shape) == len(reward.shape) + 1:
        reward = reward.unsqueeze(-1)
        done = done.unsqueeze(-1)
    delta = reward + (1 - done) * gamma * next_value - value
    factor = gamma * lambda_
    adv = torch.zeros_like(value, device=value.device)
    gae_item = torch.zeros_like(value[0])

    for t in reversed(range(reward.shape[0])):
        if traj_flag is None:
            gae_item = delta[t] + factor * gae_item * (1 - done[t])
        else:
            gae_item = delta[t] + factor * gae_item * (1 - traj_flag[t].float())
        adv[t] += gae_item
    return adv

关键的计算公式：

delta = reward + (1 - done) * gamma * next_value - value

用reward、value和next_value信息求的一个大致的基优势

gae_item = delta[t] + factor * gae_item * (1 - traj_flag[t].float())

通过反向迭代，对基优势进行修正，修正后优势包含未来的奖励信息，其中

factor = gamma * lambda_

factor越大，智能体越有远见，但相应模型越难收敛

求loss（policy_loss, value_loss, entropy_loss)

（1）求三个loss，其中ppo_output中包括ppo_loss和entropy_loss，ppo_info中包括approx_kl（新旧策略差异）和 clipfrac（clip的数据占比）。

def ppo_error(
        data: namedtuple,
        clip_ratio: float = 0.2,
        use_value_clip: bool = True,
        dual_clip: Optional[float] = None
) -> Tuple[namedtuple, namedtuple]:

    assert dual_clip is None or dual_clip > 1.0, "dual_clip value must be greater than 1.0, but get value: {}".format(dual_clip)
    logit_new, logit_old, action, value_new, value_old, adv, return_, weight = data
    policy_data = ppo_policy_data(logit_new, logit_old, action, adv, weight)
    policy_output, policy_info = ppo_policy_error(policy_data, clip_ratio, dual_clip)
    value_data = ppo_value_data(value_new, value_old, return_, weight)
    value_loss = ppo_value_error(value_data, clip_ratio, use_value_clip)

    return ppo_loss(policy_output.policy_loss, value_loss, policy_output.entropy_loss), policy_info

（2）ppo_policy_error()代码：

先给出ppo的loss公式：

其中:

代码：

def ppo_policy_error(data: namedtuple,
                     clip_ratio: float = 0.2,
                     dual_clip: Optional[float] = None) -> Tuple[namedtuple, namedtuple]:
    logit_new, logit_old, action, adv, weight = data
    if weight is None:
        weight = torch.ones_like(adv)
    dist_new = torch.distributions.categorical.Categorical(logits=logit_new)
    dist_old = torch.distributions.categorical.Categorical(logits=logit_old)
    logp_new = dist_new.log_prob(action)
    logp_old = dist_old.log_prob(action)
    dist_new_entropy = dist_new.entropy()
    if dist_new_entropy.shape != weight.shape:
        dist_new_entropy = dist_new.entropy().mean(dim=1)
    entropy_loss = (dist_new_entropy * weight).mean()

    ratio = torch.exp(logp_new - logp_old)
    if ratio.shape != adv.shape:
        ratio = ratio.mean(dim=1)
    surr1 = ratio * adv
    surr2 = ratio.clamp(1 - clip_ratio, 1 + clip_ratio) * adv
    if dual_clip is not None:
        clip1 = torch.min(surr1, surr2)
        clip2 = torch.max(clip1, dual_clip * adv)

        policy_loss = -(torch.where(adv < 0, clip2, clip1) * weight).mean()
    else:
        policy_loss = (-torch.min(surr1, surr2) * weight).mean()
    with torch.no_grad():
        approx_kl = (logp_old - logp_new).mean().item()
        clipped = ratio.gt(1 + clip_ratio) | ratio.lt(1 - clip_ratio)
        clipfrac = torch.as_tensor(clipped).float().mean().item()
    return ppo_policy_loss(policy_loss, entropy_loss), ppo_info(approx_kl, clipfrac)

其中关键代码：

    dist_new = torch.distributions.categorical.Categorical(logits=logit_new)
    dist_old = torch.distributions.categorical.Categorical(logits=logit_old)
    logp_new = dist_new.log_prob(action)
    logp_old = dist_old.log_prob(action)

torch.distributions.categorical.Categorical(logits=< >) 创建一个由logits参数组成的分布（logits是未标准化的概率），pytorch官方手册中是这样描述的

dist_new.log_prob() 是用新旧策略对采样的动作进行处理 (这里具体处理理解的不是很清楚，其实就是对应了ppo算法中求新旧策略的差异) 并得到最后的logp_new和logp_old，（使用log_prob是因为后边方便用对数运算的性质得到 新旧策略的比值作为新旧策略的差异）
log_prob 源码：
PPO实战学习总结

ratio就是PPO公式中的r(θ)，求法如下：

ratio = torch.exp(logp_new - logp_old)

之后将r(θ)带入clip公式求ppo_loss。weight通常是全为1向量。

policy_loss = (-torch.min(surr1, surr2) * weight).mean()

至于ppo_loss前为何加负号，看公式，由于使用了adv优势，所以我们希望得到更好的奖励，所以希望优势越高越好（最大化 torch.min(surr1, surr2)），根据神经网络的更新原理，可以reduce（-torch.min(surr1, surr2)）。

此外，entropy_loss的求解公式为:

dist_new = torch.distributions.categorical.Categorical(logits=logit_new)
dist_new_entropy = dist_new.entropy()
entropy_loss = (dist_new_entropy * weight).mean()

先上pytorch官方源码：

公式很这样看理解起来比较复杂，但是大体上是在求新策略的信息熵（entropy）， 信息熵的定义是: 表示随机变量不确定的度量，越随机的信源熵越大。 也就是logit_new（未标准化的概率，这段直接叫它概率）概率数组对应的动作不确定度。
例如，如果logit_new 中每个下标对应的概率都一样，动作非常的不确定，那么它的entropy应该就很大，因为此时每个动作的概率都相等，所以logit_new中相当于信息含量很少，它的entropy就很大；相反，在模型训练后期，智能体已经可以根据状态得到一个非常确定的动作了，也就是logit_new中可能会有一个很大的概率和其他很小的概率，那么此时logit_new中信息含量很大，它的entropy也就越小。
（这部分是个人的一点理解，不知道是不是对的）

（3）ppo_value_error()代码：

def ppo_value_error(
        data: namedtuple,
        clip_ratio: float = 0.2,
        use_value_clip: bool = True,
        ) -> torch.Tensor:
    value_new, value_old, return_, weight = data
    if weight is None:
        weight = torch.ones_like(value_old)

    if use_value_clip:
        value_clip = value_old + (value_new - value_old).clamp(-clip_ratio, clip_ratio)
        v1 = (return_ - value_new).pow(2)
        v2 = (return_ - value_clip).pow(2)
        value_loss = 0.5 * (torch.max(v1, v2) * weight).mean()
    else:
        value_loss = 0.5 * ((return_ - value_new).pow(2) * weight).mean()
    return value_loss

利用return和value_new构成误差来求value_loss，这里也用到了clip的思想，是为了防止网络更新过快，这里构建方法类似于DQN，就不多余赘述，value_loss的符号为+。

eval

（1）对data信息进行处理后（信息结构为：obs）输入网络求 action和 logit，代码如下：

    with torch.no_grad():
        output = self._eval_model.forward(data, mode='compute_actor')

（2）与环境完成一个episode交互后求得评估信息并输出，输出内容如下（可参考使用）

            'train_iter': train_iter,
            'ckpt_name': 'iteration_{}.pth.tar'.format(train_iter),
            'episode_count': n_episode,
            'envstep_count': envstep_count,
            'avg_envstep_per_episode': envstep_count / n_episode,
            'evaluate_time': duration,
            'avg_envstep_per_sec': envstep_count / duration,
            'avg_time_per_episode': n_episode / duration,
            'reward_mean': np.mean(episode_reward),
            'reward_std': np.std(episode_reward),
            'reward_max': np.max(episode_reward),
            'reward_min': np.min(episode_reward),

model:

主模型

主模型如下，其中 self.encoder为对输入信息进行的特征提取，为Actor和Critic网络的共用部分， self.actor_head为actor网络独有的输出部分，由于本环境使用的动作空间维度为16，因此输出的 logit（未归一化的概率） 也是16维的； self.critic_head 为critic网络独有的部分，输出为评价值，维度为1。

mode = [‘compute_actor’, ‘compute_critic’, ‘compute_actor_critic’] 分为三种网络输出模式，可以根据需要选择（官方库的设置非常灵活，可以记录一下这种forward选择方式）

class GoBiggerPPoModel(nn.Module):

    mode = ['compute_actor', 'compute_critic', 'compute_actor_critic']

    def __init__(self,
                 scalar_shape: int,
                 food_shape: int,
                 food_relation_shape: int,
                 thorn_relation_shape: int,
                 clone_shape: int,
                 clone_relation_shape: int,
                 hidden_shape: int,
                 encode_shape: int,
                 action_type_shape: int,
                 rnn: bool = False,
                 critic_head_hidden_size: int = 32,
                 critic_head_layer_num: int = 1,
                 activation=nn.ReLU(inplace=True),
            ) -> None:
        super(GoBiggerPPoModel, self).__init__()
        self.activation = activation
        self.action_type_shape = action_type_shape
        self.encoder = Encoder(scalar_shape = scalar_shape,
                   food_shape = food_shape,
                   food_relation_shape = food_relation_shape,
                   thorn_relation_shape = thorn_relation_shape,
                   clone_shape = clone_shape,
                   clone_relation_shape = clone_relation_shape,
                   hidden_shape = hidden_shape,
                   encode_shape = encode_shape,
                    activation = activation)

        self.actor_head = DiscreteHead(32, action_type_shape, layer_num=2, activation=self.activation)
        self.critic_head = RegressionHead(critic_head_hidden_size, 1, critic_head_layer_num,activation=activation)

        self.actor = [self.encoder, self.actor_head]
        self.critic = [self.encoder, self.critic_head]

        self.actor = nn.ModuleList(self.actor)
        self.critic = nn.ModuleList(self.critic)

    def forward(self, inputs, mode:str):

        assert mode in self.mode, "not support forward mode: {}/{}".format(mode, self.mode)
        return getattr(self, mode)(inputs)

compute_actor, compute_critic, compute_actor_critic部分的代码：

compute_actor

    def compute_actor(self, inputs: torch.Tensor):
        B = inputs['batch']
        A = inputs['player_num_per_team']

        scalar = inputs['scalar']
        food = inputs['food']
        food_relation = inputs['food_relation']
        thorn_relation = inputs['thorn_relation']
        thorn_mask = inputs['thorn_mask']
        clone = inputs['clone']
        clone_relation = inputs['clone_relation']
        clone_mask = inputs['clone_mask']

        x = self.encoder(scalar, food, food_relation, thorn_relation, thorn_mask, clone,clone_relation, clone_mask)
        res = self.actor_head(x)

        action_type_logit = res['logit']
        action_type_logit = action_type_logit.reshape(B, A,*action_type_logit.shape[1:])

        return {'logit': action_type_logit,}

compute_critic：

    def compute_critic(self, inputs: torch.Tensor):
        B = inputs['batch']
        A = inputs['player_num_per_team']
        scalar = inputs['scalar']
        food = inputs['food']
        food_relation = inputs['food_relation']
        thorn_relation = inputs['thorn_relation']
        thorn_mask = inputs['thorn_mask']
        clone = inputs['clone']
        clone_relation = inputs['clone_relation']
        clone_mask = inputs['clone_mask']

        x = self.encoder(scalar, food, food_relation, thorn_relation, thorn_mask, clone,clone_relation, clone_mask)
        value = self.critic_head(x)
        value_pred = value['pred']
        value_type_pred = value_pred.reshape(B, A, *value_pred.shape[1:])
        value_output_pred = torch.mean(value_type_pred, 1).unsqueeze(-1)

        return {'value': value_output_pred}

compute_actor_critic:

    def compute_actor_critic(self, inputs:torch.Tensor):
        B = inputs['batch']
        A = inputs['player_num_per_team']

        scalar = inputs['scalar']
        food = inputs['food']
        food_relation = inputs['food_relation']
        thorn_relation = inputs['thorn_relation']
        thorn_mask = inputs['thorn_mask']
        clone = inputs['clone']
        clone_relation = inputs['clone_relation']
        clone_mask = inputs['clone_mask']

        actor_embedding = critic_embedding = self.encoder(scalar, food, food_relation, thorn_relation,thorn_mask, clone, clone_relation, clone_mask)

        act = self.actor_head(actor_embedding)
        action_logit = act['logit']
        action_type_logit = action_logit.reshape(B, A, *action_logit.shape[1:])

        value = self.critic_head(critic_embedding)
        value_pred = value['pred']
        value_type_pred = value_pred.reshape(B, A, *value_pred.shape[1:])
        value_output_pred = torch.mean(value_type_pred, 1).unsqueeze(-1)

        return {'logit': action_type_logit, 'value': value_output_pred}

写在最后

到这里就结束了，在这次PPO实战中，给我最大的感悟就是真正自己在具体应用中实践完一套RL流程会遇到非常多的问题，远远难于学习一下算法理论或者跑几个官方例程。真正实践起来还有很多的遗留问题，例如状态空间处理、动作空间的选择，奖励设置，状态标准化等等等等，博主对这些知识了解的还不够系统，日后学习到比较系统的程度之后再进行总结。

Original: https://blog.csdn.net/weixin_42454651/article/details/124008429
Author: 饭了白a
Title: PPO实战学习总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708917/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【基于知识图谱的前后端（vue+django）分离的问答系统的设计与实现（二）：前端搭建与插件配置】

基于知识图谱的前后端（vue3+django）分离的问答系统的设计与实现基于知识图谱的前后端（vue3+django）分离的问答系统的设计与实现（一）：总体介绍基于知识图谱的前后…

人工智能 2023年6月1日
0090
自动驾驶目标识别—–毫米波雷达学习笔记（1）

1、毫米波雷达介绍 1.1 什么是毫米波雷达通常将波长为1～10毫米的电磁波称毫米波，车载毫米波雷达工作的频段为24GHz和77GHz，少数国家（如日本）采用60GHz频段。车载…

人工智能 2023年6月2日
00111
图数据管理与挖掘-第三讲社区发现算法笔记

社区发现是真实网络分析方面重要的研究课题，例如在社交网络中利用社区发现，可以进行好友推荐和广告的精准推荐等。社区发现算法比较多，本讲从最初的层级聚类的社区发现算法开始，介绍了基于边…

人工智能 2023年6月2日
0090
睿智的目标检测50——Tensorflow2 利用mobilenet系列（v1,v2,v3）搭建yolov4目标检测平台

睿智的目标检测50——Tensorflow2 利用mobilenet系列（v1,v2,v3）搭建yolov4目标检测平台学习前言源码下载网络替换实现思路 * 1、网络结构解析…

人工智能 2023年7月14日
0099
一文速学-Pandas中DataFrame转换为时间格式数据与处理

一、Time Series / Date functionality 1.创建日期范围 2.频率截至 3.Series数据类型转换 Original: https://blog.c…

人工智能 2023年7月15日
0060
利用YOLOv3 SPP网络源码，训练自己的数据集的步骤

利用YOLOv3 SPP网络源码，训练自己的数据集的步骤主要内容利用YOLOv3 SPP网络源码，训练自己的数据集的步骤第一部分 * 1. 下载项目及文件结构介绍 2. 训练…

人工智能 2023年7月12日
0058
rasterio的安装和使用

很久没更新公众号啦，给看客老爷们汇报下我最近都在忙啥。由于工作和自己的原因，需要搞一点科研，这一直是我的短板。所以我浅学了一下大学数学（线代、高数和概率论），准备结合Python做…

人工智能 2023年6月15日
0065
plt.plot()，plt.scatter()，plt.legend函数的用法介绍

plt.plot()函数 plt.plot(x, y, format_string, **kwargs) 参数说明 x X轴数据，列表或数组，可选 y Y轴数据，列表或数组 for…

人工智能 2023年7月3日
0057
C++OpenCV系统学习（19）——轮廓周围绘制矩形和圆形框

1.轮廓周围绘制矩形和园 1.1绘制矩形和圆概述在图像外侧绘制最小矩形。基于RDP算法实现，目的是减少多边形轮廓的点数，加快运算效率，对图像轮廓点拟合多边形；该函数用另一条曲线或…

人工智能 2023年7月18日
0068
使用核SVM对鸢尾花进行分类

用高斯核SVM拟合异或数据集使用核SVM可以很容易地解决非线性可分问题，代码引自《python机器学习》。一种非线性可分的数据集可以通过如下代码实现： np.random.see…

人工智能 2023年7月2日
0090
NLP会议期刊

对于NLPer而言，了解科研动态最好的方法就是关注顶会论文，与NLP相关的比较有影响力的顶会主要有ACL、EMNLP、NAACL、COLING、ICLR、AAAI、CoNLL、NL…

人工智能 2023年5月28日
0085
关于pytorch、TensorFlow、cuda版本匹配问题

以下均在 Windows 10操作系统下进行。我在conda中安装了pytorch1.4.0和cuda10.1（通过命令 conda install pytorch==1.4.0…

人工智能 2023年5月25日
00129
目标检测算法——YOLOv5/YOLOv7改进之结合ConvNeXt结构

>>>深度学习Tricks，第一时间送达<<< 论文题目：A ConvNet for the 2020s 纯卷积主干网络！可与大火的分层视觉Tr…

人工智能 2023年7月9日
00180
常用的图像处理标准图片汇总

常用的图像处理标准图片汇总在进行图像处理时，有一些常用的图像数据需要用到，这里总结一下这些图像。 1.Lena、Baboon等数据主要包括：Baboon、Barbara、Cam…

人工智能 2023年6月18日
0077
搭建centos+java+opencv+chrome环境

搭建centos+OpenCV+chrome环境准备安装chrome 安装java-OpenCV 安装中文字符集启动项目脚本启动项目问题镜像准备 docker pull…

人工智能 2023年7月20日
0065
CodeGym一个学习平台

C odeGym 背后的小故事 Code Gym由充满激情的Java开发人员于2018年创立。2019年， Code Gym在全球拥有十万名用户。从那时起，我们的团队不断创新 C…

人工智能 2023年6月28日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31