强化学习: Policy Gradient

2023年7月14日上午8:09 • 人工智能 • 阅读 39

按照目前的发展方向，强化学习大致可分为value-based，policy-based，以及两者的结合体actor-critic这三种体系。其中，DeepMind主要采用的是value-based，OpenAI主要采用的是policy-based（RL两大流派的历史渊源见此处）。由于目前需要用到policy gradient，因此先对这部分进行学习。

参考资料

知乎：https://zhuanlan.zhihu.com/p/107906954
李宏毅：http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html（本文图片均来源于该强化课程的课件）
pytorch：https://github.com/pytorch/examples/tree/main/reinforcement_learning

一、算法原理

1. 回合(episode)与轨迹（trajectory）

对于一个控制飞机射击外星人的游戏，如果通过神经网络输出动作概率来控制飞机的行动，如向左移动、向右移动和开火，以此来获取最高的游戏分数，那么这个神经网络就是策略网络（Policy Network）。
强化学习: Policy Gradient

在一个游戏回合（episode）中，由在时间上连续的状态（state）和动作（action）所构成的序列叫做轨迹（trajectory）。显然，一个游戏回合内只有一条轨迹（具有随机性）。策略网络要做的就是接收状态state并输出该状态下各个action的概率。
一条轨迹发生的概率p θ ( τ ) p_{\theta}(\tau)p θ(τ)可以按照下式计算：
p θ ( τ ) p_{\theta}(\tau)p θ(τ)
= p ( s 1 ) p θ ( a 1 ∣ s 1 ) p ( s 2 ∣ s 1 , a 1 ) p θ ( a 2 ∣ s 2 ) p ( s 3 ∣ s 2 , a 2 ) ⋅ ⋅ ⋅ p θ ( a t ∣ s t ) p ( s t + 1 ∣ s t , a t ) ⋅ ⋅ ⋅ =p(s_1)p_{\theta}(a_1|s_1)p(s_2|s_1,a_1)p_{\theta}(a_2|s_2)p(s_3|s_2,a_2)\cdot\cdot\cdot p_{\theta}(a_t|s_t)p(s_{t+1}|s_t,a_t)\cdot\cdot\cdot =p (s 1 )p θ(a 1 ∣s 1 )p (s 2 ∣s 1 ,a 1 )p θ(a 2 ∣s 2 )p (s 3 ∣s 2 ,a 2 )⋅⋅⋅p θ(a t ∣s t )p (s t +1 ∣s t ,a t )⋅⋅⋅
= p ( s 1 ) ∏ t = 1 T p θ ( a t ∣ s t ) p ( s t + 1 ∣ s t , a t ) =p(s_1)\prod\limits_{t=1}^{T}p_{\theta}(a_t|s_t)p(s_{t+1}|s_t,a_t)=p (s 1 )t =1 ∏T p θ(a t ∣s t )p (s t +1 ∣s t ,a t )
其中，只有p θ ( a t ∣ s t ) p_{\theta}(a_t|s_t)p θ(a t ∣s t )这一项与网络参数θ \theta θ有关，表示在状态s t s_t s t 下选择动作a t a_t a t 的概率。

; 2. 奖励（reward）与损失函数

一条轨迹的总reward为R ( τ ) = ∑ t r t R(\tau)=\sum\limits_{t}r_t R (τ)=t ∑r t ，在训练策略网络时要采样多条轨迹，则期望reward为：R θ ‾ = ∑ τ R ( τ ) p θ ( τ ) = E τ ∼ p θ ( τ ) [ R ( τ ) ] \overline{R_{\theta}}=\sum\limits_{\tau}R(\tau)p_{\theta}(\tau)=\mathbb{E}{\tau\sim p{\theta}(\tau)}[R(\tau)]R θ=τ∑R (τ)p θ(τ)=E τ∼p θ(τ)[R (τ)]强化学习的目标为：求得最优参数θ \theta θ，使得R θ ‾ \overline{R_{\theta}}R θ最大：
θ ∗ = a r g m a x θ R θ ‾ = a r g m a x θ E τ ∼ p θ ( τ ) [ R ( τ ) ] \theta^{*}=arg\underset{\theta}{max}\overline{R_{\theta}}=arg\underset{\theta}{max}\mathbb{E}{\tau\sim p{\theta}(\tau)}[R(\tau)]θ∗=a r g θma x R θ=a r g θma x E τ∼p θ(τ)[R (τ)]由于强化学习中不存在标签，因此就将R θ ‾ \overline{R_{\theta}}R θ作为损失函数。

3. 策略梯度（Policy Gradient）

确定损失函数后，需要采用梯度优化方法来更新策略网络参数θ \theta θ，由于目标是使R θ ‾ \overline{R_{\theta}}R θ最大，因此采用梯度上升法。
∇ R θ ‾ \nabla\overline{R_{\theta}}∇R θ
= ∑ τ R ( τ ) ∇ p θ ( τ ) =\sum\limits_{\tau}R(\tau)\nabla p_{\theta}(\tau)=τ∑R (τ)∇p θ(τ)
= ∑ τ R ( τ ) p θ ( τ ) ∇ l o g p θ ( τ ) =\sum\limits_{\tau}R(\tau)p_{\theta}(\tau)\nabla logp_{\theta}(\tau)=τ∑R (τ)p θ(τ)∇l o g p θ(τ)
= E τ ∼ p θ [ R ( τ ) ∇ l o g p θ ( τ ) ] =\mathbb{E}{\tau\sim p{\theta}}[R(\tau)\nabla logp_{\theta}(\tau)]=E τ∼p θ[R (τ)∇l o g p θ(τ)]
≈ 1 n ∑ n = 1 N R ( τ n ) ∇ l o g p θ ( τ n ) \approx\frac{1}{n}\sum\limits_{n=1}^{N}R(\tau^{n})\nabla logp_{\theta}(\tau^{n})≈n 1 n =1 ∑N R (τn )∇l o g p θ(τn )
= 1 n ∑ n = 1 N ∑ t = 1 T n R ( τ n ) ∇ l o g p θ ( a t n ∣ s t n ) =\frac{1}{n}\sum\limits_{n=1}^{N}\sum\limits_{t=1}^{T^n}R(\tau^{n})\nabla logp_{\theta}(a^n_t|s^n_t)=n 1 n =1 ∑N t =1 ∑T n R (τn )∇l o g p θ(a t n ∣s t n )

① 第一个等式到第二个等式用到了一个技巧：∇ f ( x ) = f ( x ) ∇ l o g f ( x ) \nabla f(x)=f(x)\nabla logf(x)∇f (x )=f (x )∇l o g f (x )
② 倒数第二个等式的意思是通过采样的方式来近似计算期望，N N N表示采样的轨迹数量；
③ 最后一个等式中T n T^{n}T n表示在第n n n条轨迹中包含T T T个step。
θ = θ + η ∇ R θ ‾ \theta=\theta+\eta\nabla\overline{R_{\theta}}θ=θ+η∇R θ然后通过梯度上升法更新参数。

二、Tips

1. baseline

由第一部分可知：∇ R θ ‾ = 1 n ∑ n = 1 N ∑ t = 1 T n R ( τ n ) ∇ l o g p θ ( a t n ∣ s t n ) \nabla\overline{R_{\theta}}=\frac{1}{n}\sum\limits_{n=1}^{N}\sum\limits_{t=1}^{T^n}R(\tau^{n})\nabla logp_{\theta}(a^n_t|s^n_t)∇R θ=n 1 n =1 ∑N t =1 ∑T n R (τn )∇l o g p θ(a t n ∣s t n )，观察该式会发现，对于一条轨迹中的每个step选择动作的概率，对应的权重都是一条轨迹的总reward，在reward总是正的情况下，意味着在第t个step时所有动作被选择的概率都要上升。在理想状况下，所有动作都会被采样到，即便reward都是正的，不同大小的reward经过normalize后，大的reward对应的动作概率会上升，反之，小的会下降。

但是在实际情况中，往往有动作不会被采样到（特别是一个回合更新一次参数，且一个回合内step较少时），由于所有动作被选择的概率和为1，此时就会出现没有被采样到的动作概率减小的问题，即使该动作是最优的，这样很可能会错过最优解。
强化学习: Policy Gradient

解决这个问题的方式就是让reward有正有负，在原式的基础上减去一个baseline即可：
∇ R θ ‾ = 1 n ∑ n = 1 N ∑ t = 1 T n ( R ( τ n ) − b ) ∇ l o g p θ ( a t n ∣ s t n ) \nabla\overline{R_{\theta}}=\frac{1}{n}\sum\limits_{n=1}^{N}\sum\limits_{t=1}^{T^n}(R(\tau^{n})-b)\nabla logp_{\theta}(a^n_t|s^n_t)∇R θ=n 1 n =1 ∑N t =1 ∑T n (R (τn )−b )∇l o g p θ(a t n ∣s t n )baseline通常由network输出，此处不深究。

; 2. 分配合理权重 & 折扣回报

再次观察该式，∇ R θ ‾ = 1 n ∑ n = 1 N ∑ t = 1 T n R ( τ n ) ∇ l o g p θ ( a t n ∣ s t n ) \nabla\overline{R_{\theta}}=\frac{1}{n}\sum\limits_{n=1}^{N}\sum\limits_{t=1}^{T^n}R(\tau^{n})\nabla logp_{\theta}(a^n_t|s^n_t)∇R θ=n 1 n =1 ∑N t =1 ∑T n R (τn )∇l o g p θ(a t n ∣s t n )，一条轨迹中每个step选择动作概率的权重都是R ( τ n ) R(\tau^{n})R (τn )，这显然是不太合理的。首先，一条轨迹得到了比较好的reward，不代表每个step选择的action都是好的；其次，对于第t t t个step，所选择的动作只会影响未来的reward。因此，需要对每个step选择的action分配合理的权重，才能反映这个action对总的reward实际的贡献。
∇ R θ ‾ = 1 n ∑ n = 1 N ∑ t = 1 T n U t ∇ l o g p θ ( a t n ∣ s t n ) \nabla\overline{R_{\theta}}=\frac{1}{n}\sum\limits_{n=1}^{N}\sum\limits_{t=1}^{T^n}U_t\nabla logp_{\theta}(a^n_t|s^n_t)∇R θ=n 1 n =1 ∑N t =1 ∑T n U t ∇l o g p θ(a t n ∣s t n )U t = ∑ t ′ = t T n r t ′ n U_t = \sum\limits_{t^{\prime}=t}^{T^n}r_{t^{\prime}}^n U t =t ′=t ∑T n r t ′n 更进一步，考虑到随着step的增大，当前step选择的action对于未来的影响会越来越小，则有：U t = ∑ t ′ = t T n γ t ′ − t r t ′ n U_t = \sum\limits_{t^{\prime}=t}^{T^n}\gamma ^{t^{\prime}-t}r_{t^{\prime}}^n U t =t ′=t ∑T n γt ′−t r t ′n

三、pytorch实现

参考pytorch官方提供的例子：

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.distributions import Categorical

import numpy as np
import argparse
import gym

def args():
    parser = argparse.ArgumentParser(description='PyTorch REINFORCE example')
    parser.add_argument('--gamma', type=float, default=0.99, metavar='G',
                        help='discount factor (default: 0.99)')
    parser.add_argument('--seed', type=int, default=1314, metavar='N',
                        help='random seed (default: 1314)')
    parser.add_argument('--render', action='store_true',
                        help='render the environment')
    parser.add_argument('--episodes', type=int, default=1000, metavar='N',
                        help='number of episodes for training agent(default: 1000)')
    parser.add_argument('--steps', type=int, default=1000, metavar='N',
                        help='number of steps per episode (default: 1000)')
    parser.add_argument('--lr', type=float, default=1e-2,
                        help='learning rate')
    parser.add_argument('--log-interval', type=int, default=10, metavar='N',
                        help='interval between training status logs (default: 10)')
    return parser.parse_args()

class Policy(nn.Module):
    def __init__(self, obs_n, act_n, hidden_size):
        super(Policy, self).__init__()
        num_outputs = act_n

        self.linear1 = nn.Linear(obs_n, hidden_size)
        self.dropout = nn.Dropout(p=0.6)
        self.linear2 = nn.Linear(hidden_size, num_outputs)

    def forward(self, x):
        x = self.linear1(x)
        x = self.dropout(x)
        x = F.relu(x)
        actions_scores = self.linear2(x)
        return F.softmax(actions_scores, dim=1)

class ReinforceAgent(object):
    def __init__(self, policy, lr, gamma):
        super(ReinforceAgent, self).__init__()
        self.policy = policy
        self.optimizer = torch.optim.Adam(self.policy.parameters(), lr=lr)
        self.gamma = gamma
        self.saved_log_probs = []
        self.rewards = []

    def select_action(self, state):
        state = torch.from_numpy(state).float().unsqueeze(0)
        probs = self.policy(state)
        action_distributions = Categorical(probs)
        action = action_distributions.sample()
        log_probs = action_distributions.log_prob(action)
        self.saved_log_probs.append(log_probs)
        return action.item()

    def learn(self):
        eps = np.finfo(np.float32).eps.item()
        policy_loss = []
        R = 0
        returns = []

        for r in self.rewards[::-1]:
            R = r + self.gamma * R
            returns.insert(0, R)
        returns = torch.tensor(returns)
        returns = (returns - returns.mean()) / (returns.std() + eps)
        for log_prob, reward in zip(self.saved_log_probs, returns):
            policy_loss.append(-log_prob*reward)
        policy_loss = torch.cat(policy_loss).sum()
        self.optimizer.zero_grad()
        policy_loss.backward()
        self.optimizer.step()

        del self.saved_log_probs[:]
        del self.rewards[:]

def train_agent(args):
    env = gym.make('CartPole-v1')
    policy = Policy(obs_n=env.observation_space.shape[0], act_n=env.action_space.n, hidden_size=128)
    agent = ReinforceAgent(policy, lr=args.lr, gamma=args.gamma)

    env.reset(seed=args.seed)
    torch.manual_seed(args.seed)

    running_reward = 10
    for i_episode in range(args.episodes):
        state, ep_reward = env.reset(), 0
        for step in range(args.steps):
            action = agent.select_action(state)
            state, reward, done, _ = env.step(action)
            if args.render:
                env.render()
            agent.rewards.append(reward)
            ep_reward += reward
            if done:
                break

        running_reward = 0.05 * ep_reward + (1 - 0.05) * running_reward
        agent.learn()
        if i_episode % args.log_interval == 0:
            print('Episode {}\tLast reward: {:.2f}\tAverage reward: {:.2f}'.format(
                i_episode, ep_reward, running_reward))
        if running_reward > env.spec.reward_threshold:
            print("Solved! Running reward is now {} and "
                  "the last episode runs to {} time steps!".format(running_reward, step))
            break

if __name__ == '__main__':
    args = args()
    train_agent(args)

一共做了四组实验：
① 分配合理权重（gamma=1.0）
② 使用discount reward（gamma=0.99）
③ 使用一条轨迹的总reward作为权重（total reward）
④ 在total reward的基础上减去baseline
每组实验均训练1000个episode，最大step为1000，结果如下：

从图中可以看出：
① 当为每个step选择动作的概率分配合理的权重时（gamma=1.0 or 0.99），网络会快速收敛。反之，每个step分配相同的权重时网络很难收敛。
② 分配合理权重时，是否使用折扣回报在该任务中影响不大，不使用反而会收敛更快。因此，在自己的任务中需要根据实验结果来选择是否使用折扣回报。
③ 添加一个常数baseline效果比不添加好。（使用network来输出一个可以学习的baseline可能取得比较好的效果）

附上测试代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
import gym
from torch.distributions import Categorical

class Policy(nn.Module):
    def __init__(self):
        super(Policy, self).__init__()
        self.affine1 = nn.Linear(4, 128)
        self.dropout = nn.Dropout(p=0.6)
        self.affine2 = nn.Linear(128, 2)

        self.saved_log_probs = []
        self.rewards = []

    def forward(self, x):
        x = self.affine1(x)
        x = self.dropout(x)
        x = F.relu(x)
        action_scores = self.affine2(x)
        return F.softmax(action_scores, dim=1)

def select_action(policy, state):
    state = torch.from_numpy(state).float().unsqueeze(0)
    probs = policy(state)
    m = Categorical(probs)
    action = m.sample()
    policy.saved_log_probs.append(m.log_prob(action))
    return action.item()

def main():
    policy = Policy()
    policy.load_state_dict(torch.load('./checkpoint/CartPole-v1@gamma1.pth'))
    policy.eval()

    env = gym.make('CartPole-v1')
    state = env.reset()

    for t in range(1000):
        env.render()
        action = select_action(policy, state)
        state, reward, done, _ = env.step(action)

        if done:
            break

    env.close()

if __name__ == '__main__':
    main()

效果：

Original: https://blog.csdn.net/zxdd2018/article/details/124209600
Author: 有时候。
Title: 强化学习: Policy Gradient

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/691647/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于电商用户开展的用户行为分析

分析背景中国电商行业逐渐转变到精细化运营的模式，随着数据基础平台以及数据库的完善，所收集到的数据更加完整，对于分析提供了强有力的支持，同时通过数据分析来为企业经营提供决策变得越来…

人工智能 2023年7月16日
0093
目标检测中anchor的概念

主要从以下几个部分理解anchor的概念： 1. 什么是anchor? 2. anchor的意义 3. Faster R-CNN的Anchor Box 4 总结什么是anchor…

人工智能 2023年6月17日
00102
【目标检测】YOLOv5针对小目标检测的改进模型/添加帧率检测

问题背景众所周知，YOLOv5会对输入的图片进行放缩，并进行32倍下采样。对于一些分辨率很高的遥感/无人机图片，小目标难以被训练识别。本篇博文就来尝试这篇博文YOLOV5 模型和…

人工智能 2023年7月3日
0083
欧洲启动量子纠错神经网络项目

（图片来源：网络）近日，以色列量子计算公司Quantum Machines、法国量子计算初创公司Alice&Bob和马克斯·普朗克光科学研究所联合宣布，正式启动为期3年的…

人工智能 2023年7月14日
0072
Pytorch避坑之：RuntimeError: Input type(torch.cuda.FloatTensor) and weight type(torch.FloatTensor) shoul

问题分析就像是字面意思那样，这个错误是因为模型中的 weights 没有被转移到 cuda 上，而模型的数据转移到了 cuda 上而造成的但是造成这个问题的原因却没有那么简单。…

人工智能 2023年7月5日
0066
深度学习之图像分类（十九）– Bottleneck Transformer(BoTNet)网络详解

深度学习之图像分类（十九）Bottleneck Transformer(BoTNet)网络详解目录 * – 深度学习之图像分类（十九）Bottleneck Trans…

人工智能 2023年6月25日
0073
dataframe数据标准化处理_pandas 对每一列数据进行标准化的方法

两种方式 import numpy as np import pandas as pd Backend TkAgg is interactive backend. Turning …

人工智能 2023年7月9日
0059
详述numpy中的np.random.rand()、np.random.randn()、np.random.randint()、np.random.uniform()函数的用法

目录（一）np.random.rand() （二）np.random.randn() （三）np.random.randint(low，high，size，dtype) （四）n…

人工智能 2023年7月4日
0055
安装tensorflow的GPU版本（详细图文教程）–CUDA11.6的安装

文章目录 TensorFlow简介 * TensorFlow是什么 tensorflow版本变迁 tensorflow 2.0 架构安装过程 * 常用IDE安装 – …

人工智能 2023年5月26日
00103
Ubuntu20.04下YOLOX环境搭建之———Anaconda安装

ubuntu20.04内核信息如下安装Anaconda3 (1)、下载Anaconda3 清华大学开源软件镜像站 (2)、安装Anaconda3 bash Anaconda3-2…

人工智能 2023年7月12日
0052
木字楠后台管理系统开发(5)：Vue登陆界面编写以及与后台联调测试

🎶 文章简介：木字楠后台管理系统开发(5)：Vue登陆界面编写以及与后台联调测试💡 创作目的：为了带大家完整的体验木字楠后台管理系统模版的开发流程☀️ 今日天气：愿冷空气冷藏你的烦…

人工智能 2023年7月30日
0066
Dynamic Convolution: Attention over Convolution Kernels

摘要文章提出的动态卷积能够根据输入，动态地集成多个并行的卷积核为一个动态核，可以提升模型表达能力而无需提升网络深度与宽度。通过简单替换成动态卷积，MobileNetV3-smal…

人工智能 2023年7月14日
00107
python 读取netcdf4文件的全过程（基础教程，看了包会）

python 读取netcdf4（nc）文件的完整教学过程，再基础不过拿到一个nc文件，如何使用python进行读取呢？本文带你完整走一遍流程。前期准备： xarray &amp…

人工智能 2023年7月5日
00102
TransE算法介绍

Translating Embeddings for Modeling Multi-relational Data 一个简单的python版本的复现：复现代码 TransE 算法…

人工智能 2023年6月1日
0060
【分类】DWI将每个个体处理到链接矩阵之后做组分析的几个方法

注：本博客仅记录与分类相关的DWI分析方法，内容来源于阅读的论文，每个方法介绍时会把论文链接放在开头。文章目录使用矩阵计算得出新的加权强度 * – 使用该方法的论文…

人工智能 2023年7月1日
0074
【毕业设计】机器学习驾驶疲劳检测系统 – python

文章目录 0 前言 1 总结 2 基于多视频窗口的疲劳驾驶监测系 3 基于近红外图像的疲劳驾驶检测 4 基于面部特征的全天候疲劳驾驶检测及预警 5 其他方法最后 0 前言 🔥 H…

人工智能 2023年6月29日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31