深度强化学习DQN网络

2023年7月13日上午7:44 • 人工智能 • 阅读 63

DQN网络

DQN（Deep Q Networks）网络属于深度强化学习中的一种网络，它是深度学习与Q学习的结合，在传统的Q学习中，我们需要维护一张Q(s,a)表，在实际运用中，Q表往往是巨大的，并且当状态和行为的组合无穷时，则无法通过查表的方式获取最优的行为，因此我们需要一个深度学习模型来拟合Q(s,a)表，即能够帮助Q算法在对应的状态下找出最优的行为，即DQN网络，其网络结构如下图所示：

其中，DNN网络的训练集为：

针对训练数据

DQN网络的训练算法如下图所示：

从上面损失函数的公式L i ( θ i ) L_{i}(\theta_{i})L i (θi ) 中可以看出有两个训练参数w i − w_{i}^{-}w i − 和w i w_{i}w i ，这表示了我们需要两个神经网络DQN1和DQN2，它们的结构完全一样，但是其中的权重、偏置参数不同，一个是w i − w_{i}^{-}w i −，另一个是w i w_{i}w i ，其中DQN1网络，即参数w i − w_{i}^{-}w i −所在的神经网络被称为Target Network网络。

之所以需要训练两个神经网络，是因为如果只有一个神经网络的话，那么随着参数w i w_{i}w i 的不断更新，其学习的目标m a x a ′ Q ( s ′ , a ′ , w i − ) max_{a’}Q(s’,a’,w_{i}^{-})m a x a ′Q (s ′,a ′,w i −) 也在不断更新，因此算法很难收敛，而当我们使用两个神经网络DQN1和DQN2，在训练时，我们固定住学习目标m a x a ′ Q ( s ′ , a ′ , w i − ) max_{a’}Q(s’,a’,w_{i}^{-})m a x a ′Q (s ′,a ′,w i −)中的参数 w i − w_{i}^{-}w i −，这样另一个神经网络中的参数w i w_{i}w i 是针对一个固定的目标在更新，实现神经网络的训练。
其算法如下图所示：

以上就是深度强化学习中DQN网络的详细介绍，使用TD方法结合非线性的神经网络函数近似时可能不会收敛，但是DQN网络使用经理重现和固定的Q目标值，能够做到收敛而且算法具有很好的鲁棒性。

Original: https://blog.csdn.net/a_123zxy/article/details/122742875
Author: 人工智能小a
Title: 深度强化学习DQN网络

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/689375/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

论文浅尝 | PairRE: 通过成对的关系向量实现知识图谱嵌入

笔记整理：黎洲波，浙江大学硕士，研究方向为自然语言处理、知识图谱。研究背景知识图谱因其在问答、语义解析和命名实体消歧等任务取得了良好的效果而受到广泛关注，而大部分知识图谱都存在…

人工智能 2023年6月1日
0065
语音转文字的测试用例

语音转文字的测试用例语音识别失败是否有提示不说话的时候发送语音, 是否会有转文字说话分贝很轻很轻, 是否可以录入语言转文字转好的文字是否有错别字传输到文本的字数是否有最小和最大限…

人工智能 2023年5月27日
00134
三小时爬取四万份年报

三小时爬取四万份年报本文爬虫的任务提交速度以及下载速度： ; 年报文本分析如果你有年报文本分析需求，首先你就要获取上市公司年报关于上市公司年报的爬虫已经有很多篇了，如下：《3…

人工智能 2023年7月16日
0059
PyTorch——自注意力（self-attention）机制实现（代码详解）

参考链接 https://www.bilibili.com/video/BV1JE411g7XF?p=54 https://arxiv.org/abs/1706.03762 htt…

人工智能 2023年7月21日
0072
python 使用vtk和matplotlib保存高质量图片

python 使用matplotlib和vtk保存高质量图片引言一、vtk保存大尺寸图片二、matplotlib更改尺寸和分辨率 * 2.1 尺寸和分辨率 2.2 其它常用设…

人工智能 2023年5月26日
0058
ID3决策树算法及其Python实现

目录一、决策树算法 * 基础理论决策树的学习过程 ID3算法二、实现针对西瓜数据集的ID3算法 * 实现代码三、C4.5和CART的算法代码实现 * C4.5算法 CART…

人工智能 2023年7月5日
00111
看知识图谱如何解锁隐藏的营销利器

作者：Neo4j亚太区市场副总裁伍长辉如今，营销人员可以获得比以往任何时候都多且呈指数级增长的数据。新冠疫情所驱动的数字化加速缔造了一个围绕消费者、产品和购买行为的海量数据库。 …

人工智能 2023年6月1日
0062
unet模型及代码解析

什么是unet 一个U型网络结构，2015年在图像分割领域大放异彩，unet被大量应用在分割领域。它是在FCN的基础上构建，它的U型结构解决了FCN无法上下文的信息和位置信息的弊端…

人工智能 2023年6月23日
00174
全网最全RuntimeError: CUDA error: out of memory解决方法

第一种情况如果这个报错后面跟了想要占用多少显存但是不够这样的字眼，如下：解决办法就很简单了：改小batchsize，batchsize砍半可以差不多省掉一半的显存推理阶段加上…

人工智能 2023年7月6日
0049
AI大视觉（十八） | Yolo v5的改进思想

本文来自公众号”AI大道理”。这里既有AI，又有生活大道理，无数渺小的思考填满了一生。 Yolo v5一共有四个模型，分别为Yolov5s、Yolov…

人工智能 2023年6月17日
00118
TensorFlow如何处理数据流图

详细解决问题: TensorFlow数据流图处理在介绍TensorFlow如何处理数据流图之前，我们先来了解一下数据流图的概念和算法原理。数据流图（Dataflow graph…

人工智能 2023年12月30日
0032
Pytorch model.eval()的作用

使用pytorch训练和预测时会分别使用到以下两行代码： model.train() model.eval() 后来想了解model.eval()的具体作用，在网上查找资料大都是以…

人工智能 2023年7月21日
0051
openCV第三篇

前文复习： openCV第一篇_老师我作业忘带了的博客-CSDN博客 openCV第二篇_老师我作业忘带了的博客-CSDN博客文章目录一、Canny边缘检测二、图像轮廓 2…

人工智能 2023年7月26日
0070
Yolov5如何在训练意外中断后接续训练

Yolov5如何在训练意外中断后接续训练 1.配置环境 2.问题描述 3.解决方法 * 3.1设置需要接续训练的结果 3.2设置训练代码 4.原理 5.结束语 1.配置环境操作系…

人工智能 2023年7月4日
0059
PCM转换成WAV

1 音频格式简介 AudioRecord录制的音频文件格式为PCM，MediaPlayer无法播放PCM格式文件，AudioTrack可以播放PCM格式文件。PCM（Puls Co…

人工智能 2023年5月25日
0095
什么是最大池化(ma

什么是最大池化最大池化（Max Pooling）是深度学习中常用的一种池化操作。在卷积神经网络（CNN）中，最大池化作为一种非线性下采样方法，可以通过减少特征图的大小来降低计算量…

人工智能 2024年1月4日
0030

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

深度强化学习DQN网络

大家都在看