价值学习（Value-based Reinforcement Learning）

2023年7月13日下午3:15 • 人工智能 • 阅读 58

文章目录

前言
一、价值学习（Value-based Reinforcement Learning）
*
1.Deep Q-Network（DQN）
2.训练DQN使用的算法
3.TD learning for DQN
总结

前言

讲完强化学习的基本概念，来介绍一下价值学习算法；

一、价值学习（Value-based Reinforcement Learning）

1.Deep Q-Network（DQN）

核心就是用神经网络去近似Q*（s,a）函数；我们把这个神经网络记为Q是Q（s,a;w），神经网络的参数是w，输入是状态s，输出是很多数值，这些数值是每一个动作对应的分数，通过奖励reward学习神经网络，使神经网络打分越来越准；

（以打游戏为例，强化学习的目标是在游戏结束的时候，获得的奖励最大；当有Q*（s,a）函数时，就可以告诉我们每个动作的平均回报，从而做平均回报最高的动作）

问题是我们并不知道Q（s,a）函数，价值学习的想法就是学习一个函数来近似Q（s,a）函数；

例子：应用DQN来打游戏

价值学习（Value-based Reinforcement Learning）

观测到当前的状态st，DQN把st作为输入，给所有的动作打分，选出分数最高的动作作为at；

agent执行动作at后，环境会改变状态，用状态转移函数p随机抽一个新的状态st+1，环境同时也告诉我们这一步的奖励rt；（奖励就是强化学习中的监督信号，DQN靠这些奖励来训练）

同理，观测到当前的状态st+1，DQN把st+1作为输入，给所有的动作打分，选出分数最高的动作作为at+1；

agent执行动作at+1后，环境改变状态，用状态转移函数p随机抽一个新的状态st+2，环境同时也告诉我们这一步的奖励rt+1

一直重复这个过程，一直到游戏结束；

; 2.训练DQN使用的算法

Temporal Difference Learning（TD算法）；

TD算法例子理解Td算法：假设现在要开车从纽约到亚特兰大，模型Q（W）可以估计开车的时间，估计Q（W）估计开车要花1000分钟；

更新模型参数的过程：

首先估计开车要花多长时间；

到达亚特兰大后，看一下开车所花的真实时间；

计算预测时间与真实时间的差距；（也就是计算损失函数）

求损失函数对模型参数w的梯度；

梯度梯度下降更新模型的参数，使得估计的时间与真实时间越来越接近；

问题：如果我想在到达亚特兰大之前就更新模型的参数w呢？

这时候就需要用TD算法了；（从纽约到亚特兰大要经过DC（华盛顿），我们可以到华盛顿后，估计华盛顿到亚特兰大的时间，假设纽约到亚特兰大要300分钟）

模型估计从纽约到亚特兰大要花1000分钟；

（到华盛顿后发现用了300分钟；（300分钟是真实的观测），模型估计从华盛顿到亚特兰大要花600分钟；）根据模型新的预测，总的时间应该为900分钟，新的估计900分钟叫做TD target，虽然TD target也是估计值，但比原来的1000分钟更可靠，因为里面有事实的成分，300分钟就是真实值，因此当越接近亚特兰大时，TD target越准确；因此到达华盛顿就可以更新模型参数了！

损失函数就是最初的估计与TDtarget的差距的平方，这个差距叫做TD error，然后再做梯度下降更新模型的参数就行了；

TD算法的优点：即使不完成整个旅途，也能更新模型的参数，改进模型；

3.TD learning for DQN

应用TD算法到DQN的上个例子要用的公式：

整个旅途的时间和第二段时间都是模型的估计，而第一段时间是真实的时间；

TD算法必须等式左边有一项，右边有两项，也右边的两项必须有一项是真实观测到的；

在深度强化学习中，我们要应用的公式为：

简要证明：

应用TD算法到DQN上：
价值学习（Value-based Reinforcement Learning）

t时刻，DQN输出的值Q（st,at;w）是对Ut作出的估计；
t+1时刻，DQN输出的值Q（st+1,at+1;w）是对Ut+1作出的估计；

Q（st,at;w）类似于出发之前预计的时间，Q（st+1,at+1;w）类似于到达华盛顿后预计的到亚特兰大的时间；

整个过程：

; 总结

以上就是今天要讲的内容，本文简单介绍了价值学习。

Original: https://blog.csdn.net/weixin_44924725/article/details/124491043
Author: 问凝
Title: 价值学习（Value-based Reinforcement Learning）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690093/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MATLAB NAR时间序列神经网络两种预测方法

针对Math老师提到的《MATLAB时间序列神经网络训练好以后怎么预测》MATLAB时间序列神经网络训练好以后怎么预测 – MATLAB中文论坛 (ilovematlab.cn)h…

人工智能 2023年6月25日
0099
数据预处理

一、引言 (1)为什么要进行数据预处理？现实世界的数据是”脏的”——数据多了什么都会出现。比如会出现(不完整、有噪声、数据不一致)。 (2)数据预处理为什…

人工智能 2023年6月19日
0065
java outlook 日历_使用Outlook中的“日历”功能管理日程的方法

经常在外奔波的销售经理小黄，需要时刻掌控自己的日程。小黄通常使用Outlook中的”日历”功能来统一组织和管理自己的日程信息。当他外出办公，或者在差旅途中时…

人工智能 2023年5月25日
0059
【CUDA error: CUBLAS_STATUS_EXECUTION_FAILED】解决方法

CUDA error: CUBLAS_STATUS_EXECUTION_FAILED 解决方法最近在训练StructureNet的时候出现了一个错误：这个错误是在反向传播 ba…

人工智能 2023年7月22日
0053
web前端网页设计期末课程大作业：企业网页主题网站设计——舞蹈培训11页HTML+CSS+JavaScript

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月27日
0054
Python采集某网站小视频内容, m3u8内容下载

前言大家早好、午好、晚好吖~ 目录标题 * – 前言 – 环境使用: – 模块使用: – 模块安装问题: – + * …

人工智能 2023年7月6日
0070
知识图谱基础入门（一）

知识图谱旨在采用图结构来建模和记录世界万物之间的关联关系和只是，以便有效实现更加精准的对象级搜索。其相关技术可以应用在搜索引擎、语言理解、推荐计算、大数据决策分析等众多领域。如今，…

人工智能 2023年6月1日
0071
RabbitMQ延迟队列

目录 💌 介绍 💒 使用场景 🏳‍🌈 模拟案例 📕 准备工作 🏴 写法一(死信队列TTL) RabbitMQ配置文件生产者消费者测试 🏴 写法二 (死信队列TTL) Rabb…

人工智能 2023年5月30日
0054
R语言计算回归模型每个样本（观察、observation、sample）的杠杆值（leverage）实战：如果一个样本的预测变量比其他样本的预测变量值更极端，那么被认为具有很高的杠杆作用

好的，下面是一个使用Python编写的基于PyTorch的强化学习模型_示例：首先，需要安装PyTorch和其他必要的库。可以使用以下命令在Python中安装PyTorch： …

人工智能 2023年6月18日
0077
搭建自己的语义分割平台deeplabV3+

文章目录前言一、deeplabV3+ 二、数据准备三、修改代码四、开始训练五、测试前言在上一篇主要了解了语义分割，实例分割，全景分割的区别，以及labelme标注的数…

人工智能 2023年5月26日
0069
Pytorch model.eval()的作用

使用pytorch训练和预测时会分别使用到以下两行代码： model.train() model.eval() 后来想了解model.eval()的具体作用，在网上查找资料大都是以…

人工智能 2023年6月17日
0069
电机PID控制和闭环控制

电机PID控制和闭环控制 1 PID控制 1.1 位置式PID 理论公式： PID中，P用于提高响应速度，I用于减小静差、D用于抑制震荡。一般在进行PID参数整定时，首先设I和D的…

人工智能 2023年6月23日
00102
一文读懂PCL可视化，CloudView类、PCLVisualizer可视化类、PCLPlotter可视化方法

官网链接：Point Cloud Library (PCL): Module visualization参考博客：PCL可视化一、PCL可视化概述构建pcl_visualiza…

人工智能 2023年6月2日
0091
JMeter 性能测试实例

JMeter 性能测试实例 1. 实验目的熟悉 Badboy + JMeter 的自动化测试流程 2. 实验内容 2.1 使用 Badboy 录制脚本 2.2 使用 JMeter…

人工智能 2023年6月6日
0064
数据挖掘基础学习（1）数据清洗：重复值、缺失值、异常值处理

本文暂不讨论数据类型转换、离散变量重编码、冗余信息及无意义信息处理方法，仅先从最基本数据清洗规则：重复值、缺失值、异常值处理角度入手进行讨论，其余部分内容将在后期进行说明注：本文…

人工智能 2023年7月7日
0079
PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏详细介绍：NLP专栏简介：数据增强、智能标注…

人工智能 2023年5月27日
0073

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

价值学习（Value-based Reinforcement Learning）

文章目录

1.Deep Q-Network（DQN）

; 2.训练DQN使用的算法

3.TD learning for DQN

大家都在看