DQN算法的原理与复现

2023年6月16日上午9:33 • 人工智能 • 阅读 81

基本思路

先来解释下Q-learning
简单来说就是瞬时奖励+记忆经验奖励。

瞬时奖励：做了一个动作就能获得的奖励

经验奖励：按照训练时的经验，上一系列动作发生之后，接下来怎么做才能获得更大的奖励，换句话就是说根据复盘经验去研究如何更好地补刀,从而形成一系列的动作(连招)

DQN自然就是加入深度神经网络进行预测，我们先来看看Q-learning是如何运行的

1收集数据(即游戏记录)

2令目标等于以下公式(获得价值最高的选择)：

3目标函数(获得最小的误差)

整体流程

伽马值(就是那个很像r的)用于减少下一步的贡献度，因为下一步与上一步紧密相连，故不能减少太多，我们也是将其设置为0.99
DQN算法的原理与复现

因为其是瞬时奖励，加的是记忆中价值量最大的动作，但也终归是记忆中的，我们要对其影响做一个削弱，构成一个估计值

举个通俗的例子，走迷宫
状态0,1,2,3,4,5，其中5是出口
目标就是能走出去
并非每个状态都是互通的(比如2到3)
通过不断地迭代让智能体逃出去

5是出口我们就直接把运行到状态5的奖励设为100，其余为0

数据的格式
对R与Q进行初始化
Q是一个由0构成的没有实际意义的空表，要不断地进行填充
行为state，列为action
DQN算法的原理与复现

-1表示此路不通，只要没到5，奖励都为0

开始迭代
假设初始化状态为1
根据右表action只能选择3和5
此时选择3还是5呢，当前的Q为空表，按理来说是要比较这两个选择的价值的，但是我们是从0开始训练，故我们只能先随机选一个，比如5
接下来就到了状态5，此时有三种选择，1，4，5，选哪个呢

其中0.8是伽马值，就是折扣因子，相当于经验记忆奖励的权重，然后由此我们就得到了Q(1,5)，5亦代表了游戏结束
如此重复，尽可能地把每个可能性都试一遍，这也是为什么次数越多模型的准确度越高的原因，联想一波蒙特卡洛即可。

那么我们想一下，如果放到游戏画面，我们真的能做到穷举吗，那个像素点太多了，Q(s,a)就不能用表格来表达了，于是我们想到了用神经网络去表达，现在一般的方法是构建一个 replay buffers 到时候去里面取一个batch就行，其实就是off policy策略，这个策略的代码构建还是比较容易的，

对DQN的改进

第一种改进，double-dqn

红色为目标，蓝色为模型达到的程度
换句话说就是模型高估了自己

为了提升模型效果，我们在原来训练的基础上再用另一个神经网络训练一次

注意，里面的括号下方的小A与小B都代表一个神经网络

第二种改进，dueling-dqn

在同一个网络中分别嫁接两个全连接层，以此为原理使得网络能同时更新相同state下不同的行为(action)可能导致的结果

也就是说其实只有V(s)是变量用于微调

mulit-step-dqn策略
就像下围棋一样，
不光要看眼前的下一步，也要看下N步的结果，该算法就是在计算Q值得时候选择多个时间步

只看下一步

只看下N步

联想下梯度下降中的随机/批量，这个就是小批量

连续值的处理方法-连续动作

这就是一个求极值的问题，常用的解法有采样，梯度上升
不断地运行，并比较，选择一个最大值就可以了

问题来了，这样子不断地运算，动作越多计算的负担越大，于是我们要优化计算方法，改变数据的输入格式

即重新定义Q网络，输出三个结果分别是向量，矩阵，值

由此构成新的公式

这个是恒为正的，

此时代入Q(s,a)即可得出
DQN算法的原理与复现

; 部分代码复现

训练网络

while True:

    env.render()
    action = RL.choose_action(observation)
    observation_,reward,done = env.step(action)
    RL.store_transition(observation,action,reward,observation_)
    if (step>x) and (step%y== 0):
        RL.learn()
        observation = observation_
    if done:
        break
    step += 1

行动参数更新


def choose_action(self,observation):
    observation = observation[np.newaxis,:]
    if np.random.uniform() < self.epsilon:
        actions_value = self.sess.run(self.q_eval,feed_dict = {self.s:observation})
        action = np.argmax(actions_value)
    else:
        action = np.random.randint(0,self.n_actions)
    return action

经验池


def store_transition(self,s,a,r,s_):

    if not hasattr(self,'memory_counter'):
        self.memory_counter = 0
        transition = np.hstack(s,[a,r],s_)
        index = self.memory_counter%self.memory_size
        self.memory[index,:] = transition
        self.memory_counter += 1

学习函数


def leran(self):
    q_traget = q_eval.copy()
    batch_index = np.arange(self.batch_size,dtype = np.int32)
    eval_act_index = batch_memory[:,self.n_fextures].astype(int)
    reward = batch_memory[;self.n_fextures +1]
    q_traget[batch_index,eval_act_index] = reward + self.gamma * np.max(q_next,axis = 1)
    -,self.cost = self.sess.run([self._train_op,self.loss],feed_dict = {self.s:batch_memory[:,:self.n_fextures],self.q_traget:q_traget})
    self.cost_his.append(self.cost)

网络搭建

def _build_net(self):

        self.s = tf.placeholder(tf.float32, [None, self.n_features], name='s')
        self.q_target = tf.placeholder(tf.float32, [None, self.n_actions], name='Q_target')
        with tf.variable_scope('eval_net'):

            c_names, n_l1, w_initializer, b_initializer = \
                ['eval_net_params', tf.GraphKeys.GLOBAL_VARIABLES], 10, \
                tf.random_normal_initializer(0., 0.3), tf.constant_initializer(0.1)

            with tf.variable_scope('l1'):
                w1 = tf.get_variable('w1', [self.n_features, n_l1], initializer=w_initializer, collections=c_names)
                b1 = tf.get_variable('b1', [1, n_l1], initializer=b_initializer, collections=c_names)
                l1 = tf.nn.relu(tf.matmul(self.s, w1) + b1)

            with tf.variable_scope('l2'):
                w2 = tf.get_variable('w2', [n_l1, self.n_actions], initializer=w_initializer, collections=c_names)
                b2 = tf.get_variable('b2', [1, self.n_actions], initializer=b_initializer, collections=c_names)
                self.q_eval = tf.matmul(l1, w2) + b2

        with tf.variable_scope('loss'):
            self.loss = tf.reduce_mean(tf.squared_difference(self.q_target, self.q_eval))
        with tf.variable_scope('train'):
            self._train_op = tf.train.RMSPropOptimizer(self.lr).minimize(self.loss)

        self.s_ = tf.placeholder(tf.float32, [None, self.n_features], name='s_')
        with tf.variable_scope('target_net'):

            c_names = ['target_net_params', tf.GraphKeys.GLOBAL_VARIABLES]

            with tf.variable_scope('l1'):
                w1 = tf.get_variable('w1', [self.n_features, n_l1], initializer=w_initializer, collections=c_names)
                b1 = tf.get_variable('b1', [1, n_l1], initializer=b_initializer, collections=c_names)
                l1 = tf.nn.relu(tf.matmul(self.s_, w1) + b1)

            with tf.variable_scope('l2'):
                w2 = tf.get_variable('w2', [n_l1, self.n_actions], initializer=w_initializer, collections=c_names)
                b2 = tf.get_variable('b2', [1, self.n_actions], initializer=b_initializer, collections=c_names)
                self.q_next = tf.matmul(l1, w2) + b2

Original: https://blog.csdn.net/CSDNXXCQ/article/details/117354917
Author: 丰。。
Title: DQN算法的原理与复现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/623057/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【语音识别】基于动态时间规整（DTW）的孤立字语音识别Matlab源码

1 模型 2 部分代码 function trimmed_X = my_vad(x) %端点检测；输入为录入语音，输出为有用信号 Ini = 0.1; %初始静默…

人工智能 2023年5月25日
0076
Pytorch安装教程

Pytorch安装教程（使用版本CUDA == 10.2）前言 1.安装Anaconda 2.查看CUDA版本 3.安装Pytorch 4.测试是否安装成功前言在测试中一直提…

人工智能 2023年7月10日
0093
DETR 论文精读，并解析模型结构

上一篇文章介绍了ViT，即Version Transformer，用于图像分类，今天这篇名为DETR的模型结构诞生于2020年，一经发布便有很多的追随者对其进行改进，使得目标检测前…

人工智能 2023年7月9日
00143
python pandas模块读取excel_python中pandas模块读取Excel的所有sheet表

Excel转CSV，一个sheet表存入一个CSV文件中，并以sheet名字命名 import pandas as pd def xlsx_to_csv_pd(): sheet_n…

人工智能 2023年7月9日
0081
python实现AES加密解密

1. 前言 AES是一种对称加密，所谓对称加密就是加密与解密使用的秘钥是一个。之前写过一片关于python AES加密解密的文章，但是这里面细节实在很多，这次我从参数类型、加密…

人工智能 2023年7月4日
00117
VIT实战总结：非常简单的VIT入门教程，一定不要错过

文章目录摘要项目结构计算mean和std 生成数据集数据增强Cutout和Mixup 导入项目使用的库设置全局参数图像预处理与增强读取数据设置模型定义训练和验证函…

人工智能 2023年6月16日
0076
实操-rapidminer进行关联分析、分类预测（使用相关算子，全流程讲解）

目录一、关联分析 1.构建过程 1.1导入数据 1.2检查缺失值，异常值 1.3 约减数据集中属性 2.对结果的评述 2.1 FP-Growth的支持度（Support）参数为0…

人工智能 2023年6月19日
00109
机器学习多元线性回归模型（公式推导以及代码实现）

一、理论部分二、代码实现三、感想一、理论部分（公式推导） 1.1、线性回归矩阵最小二乘法(参考高等代数) 这部分知识可以参考：求C = y-Y 最小值–&gt…

人工智能 2023年6月16日
00102
GAN评价指标代码(FID、LPIPS、MS-SSIM)

科研需要，对GAN生成的图片要做定量评价，因此总结一些自己要用到的一些评价指标。 FID 描述：FID越小，表示生成图片越多样、质量越好。步骤：（1）先下载pytorch-fid…

人工智能 2023年6月23日
0075
产业链图谱：2022年中国医药健康产业链图谱｜产业链全景图

医药健康产业就是指与医药产销及医疗服务直接相关的产业活动。医药健康产业链图谱上游产业主要囊括医药原材料的生产及相关制药机械、设备，中游就是医药生产(化学药剂、生物药、中药、保健品等…

人工智能 2023年6月1日
0097
音频格式_如何区分音乐质量的好坏？一分钟，教你如何从音频格式看音乐等级…

听音乐也是一种娱乐方式，在朋友圈或其他平台发布视频是必备的配乐。音乐不仅可以帮助我们表达我们的情感，有时还可以驱动我们的情绪。你知道喜欢听歌的人可以选择什么格式的歌曲吗？不同的音频…

人工智能 2023年5月27日
00101
文本分类还停留在BERT？对偶对比学习框架也太强了

论文简介：对偶对比学习：如何将对比学习用于有监督文本分类论文标题：Dual Contrastive Learning: Text Classification via Label-…

人工智能 2023年7月2日
0048
基于Pytorch实现的图像分割算法: DeepLabV3+

图1. 基于DeepLabV3+的图像分割结果示意图。目录一. 简介二. 实现细节三. 项目代码总结： Reference 图像分割属于图像处理领域最重要的几个问题之一。…

人工智能 2023年6月1日
0089
深度可分离卷积

深度可分离卷积导读提出背景研究进展深度可分离卷积详细介绍空间可分离参数分析深度可分离卷积以及MobileNet的网络结构导读最近在学习模型量化相关的技术，过程中了…

人工智能 2023年7月14日
0047
Failed to load image Python extension: libtorch_cuda_cu.so

1. 问题描述运行一个Pytorch的深度学习工程，当安装好各项以来之后，运行程序，出现如下错误： /root/anaconda3/envs/yolox/lib/python3….

人工智能 2023年7月6日
0054
【深度学习】“OSError [WinError 1455]页面文件太小，无法完成操作”解决方案

目录前言解决方案 * 1.调整Dataloader中的参数num_workers为0 2.分配虚拟内存（页面文件） References 前言跑别人的深度学习论文代码时，出现…

人工智能 2023年7月20日
0050

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31