深度强化学习DQN网络

DQN网络

DQN(Deep Q Networks)网络属于深度强化学习中的一种网络,它是深度学习与Q学习的结合,在传统的Q学习中,我们需要维护一张Q(s,a)表,在实际运用中,Q表往往是巨大的,并且当状态和行为的组合无穷时,则无法通过查表的方式获取最优的行为,因此我们需要一个深度学习模型来拟合Q(s,a)表,即能够帮助Q算法在对应的状态下找出最优的行为,即DQN网络,其网络结构如下图所示:

深度强化学习DQN网络
其中,DNN网络的训练集为:

针对训练数据

DQN网络的训练算法如下图所示:

深度强化学习DQN网络
从上面损失函数的公式L i ( θ i ) L_{i}(\theta_{i})L i ​(θi ​) 中可以看出有两个训练参数w i − w_{i}^{-}w i −​ 和w i w_{i}w i ​ ,这表示了我们需要两个神经网络DQN1和DQN2,它们的结构完全一样,但是其中的权重、偏置参数不同,一个是w i − w_{i}^{-}w i −​,另一个是w i w_{i}w i ​,其中DQN1网络,即参数w i − w_{i}^{-}w i −​所在的神经网络被称为Target Network网络。

之所以需要训练两个神经网络,是因为如果只有一个神经网络的话,那么随着参数w i w_{i}w i ​的不断更新,其学习的目标m a x a ′ Q ( s ′ , a ′ , w i − ) max_{a’}Q(s’,a’,w_{i}^{-})m a x a ′​Q (s ′,a ′,w i −​) 也在不断更新,因此算法很难收敛,而当我们使用两个神经网络DQN1和DQN2,在训练时,我们固定住学习目标m a x a ′ Q ( s ′ , a ′ , w i − ) max_{a’}Q(s’,a’,w_{i}^{-})m a x a ′​Q (s ′,a ′,w i −​)中的参数 w i − w_{i}^{-}w i −​,这样另一个神经网络中的参数w i w_{i}w i ​是针对一个固定的目标在更新,实现神经网络的训练。
其算法如下图所示:

深度强化学习DQN网络
以上就是深度强化学习中DQN网络的详细介绍,使用TD方法结合非线性的神经网络函数近似时可能不会收敛,但是DQN网络使用经理重现和固定的Q目标值,能够做到收敛而且算法具有很好的鲁棒性。

Original: https://blog.csdn.net/a_123zxy/article/details/122742875
Author: 人工智能小a
Title: 深度强化学习DQN网络

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/689375/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 论文浅尝 | PairRE: 通过成对的关系向量实现知识图谱嵌入

    笔记整理:黎洲波,浙江大学硕士,研究方向为自然语言处理、知识图谱。 研究背景 知识图谱因其在问答、语义解析和命名实体消歧等任务取得了良好的效果而受到广泛关注,而大部分知识图谱都存在…

    人工智能 2023年6月1日
    065
  • 语音转文字的测试用例

    语音转文字的测试用例 语音识别失败是否有提示不说话的时候发送语音, 是否会有转文字说话分贝很轻很轻, 是否可以录入语言转文字转好的文字是否有错别字传输到文本的字数是否有最小和最大限…

    人工智能 2023年5月27日
    0134
  • 三小时爬取四万份年报

    三小时爬取四万份年报 本文爬虫的任务提交速度以及下载速度: ; 年报文本分析 如果你有年报文本分析需求,首先你就要获取上市公司年报关于上市公司年报的爬虫已经有很多篇了,如下: 《3…

    人工智能 2023年7月16日
    059
  • PyTorch——自注意力(self-attention)机制实现(代码详解)

    参考链接 https://www.bilibili.com/video/BV1JE411g7XF?p=54 https://arxiv.org/abs/1706.03762 htt…

    人工智能 2023年7月21日
    072
  • python 使用vtk和matplotlib保存高质量图片

    python 使用matplotlib和vtk保存高质量图片 引言 一、vtk保存大尺寸图片 二、matplotlib更改尺寸和分辨率 * 2.1 尺寸和分辨率 2.2 其它常用设…

    人工智能 2023年5月26日
    058
  • ID3决策树算法及其Python实现

    目录 一、决策树算法 * 基础理论 决策树的学习过程 ID3算法 二、实现针对西瓜数据集的ID3算法 * 实现代码 三、C4.5和CART的算法代码实现 * C4.5算法 CART…

    人工智能 2023年7月5日
    0111
  • 看知识图谱如何解锁隐藏的营销利器

    作者:Neo4j亚太区市场副总裁伍长辉 如今,营销人员可以获得比以往任何时候都多且呈指数级增长的数据。新冠疫情所驱动的数字化加速缔造了一个围绕消费者、产品和购买行为的海量数据库。 …

    人工智能 2023年6月1日
    062
  • unet模型及代码解析

    什么是unet 一个U型网络结构,2015年在图像分割领域大放异彩,unet被大量应用在分割领域。它是在FCN的基础上构建,它的U型结构解决了FCN无法上下文的信息和位置信息的弊端…

    人工智能 2023年6月23日
    0174
  • 全网最全RuntimeError: CUDA error: out of memory解决方法

    第一种情况 如果这个报错后面跟了想要占用多少显存但是不够这样的字眼,如下:解决办法就很简单了: 改小batchsize,batchsize砍半可以差不多省掉一半的显存 推理阶段加上…

    人工智能 2023年7月6日
    049
  • AI大视觉(十八) | Yolo v5的改进思想

    本文来自公众号”AI大道理”。 这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 ​ Yolo v5一共有四个模型,分别为Yolov5s、Yolov…

    人工智能 2023年6月17日
    0118
  • TensorFlow如何处理数据流图

    详细解决问题: TensorFlow数据流图处理 在介绍TensorFlow如何处理数据流图之前,我们先来了解一下数据流图的概念和算法原理。 数据流图(Dataflow graph…

    人工智能 2023年12月30日
    032
  • Pytorch model.eval()的作用

    使用pytorch训练和预测时会分别使用到以下两行代码: model.train() model.eval() 后来想了解model.eval()的具体作用,在网上查找资料大都是以…

    人工智能 2023年7月21日
    051
  • openCV第三篇

    前文复习: openCV第一篇_老师我作业忘带了的博客-CSDN博客 openCV第二篇_老师我作业忘带了的博客-CSDN博客 文章目录 一、Canny边缘检测 二、 图像轮廓 2…

    人工智能 2023年7月26日
    070
  • Yolov5如何在训练意外中断后接续训练

    Yolov5如何在训练意外中断后接续训练 1.配置环境 2.问题描述 3.解决方法 * 3.1设置需要接续训练的结果 3.2设置训练代码 4.原理 5.结束语 1.配置环境 操作系…

    人工智能 2023年7月4日
    059
  • PCM转换成WAV

    1 音频格式简介 AudioRecord录制的音频文件格式为PCM,MediaPlayer无法播放PCM格式文件,AudioTrack可以播放PCM格式文件。PCM(Puls Co…

    人工智能 2023年5月25日
    095
  • 什么是最大池化(ma

    什么是最大池化 最大池化(Max Pooling)是深度学习中常用的一种池化操作。在卷积神经网络(CNN)中,最大池化作为一种非线性下采样方法,可以通过减少特征图的大小来降低计算量…

    人工智能 2024年1月4日
    030
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球