强化学习-学习笔记8 | Q-learning

2023年10月29日上午7:20 • Python • 阅读 35

上一篇笔记认识了Sarsa，可以用来训练动作价值函数(Q_\pi)；本篇来学习Q-Learning，这是另一种 TD 算法，用来学习最优动作价值函数 Q-star，这就是之前价值学习中用来训练 DQN 的算法。

8. Q-learning

承接上一篇的疑惑，对比一下两个算法。

8.1 Sarsa VS Q-Learning

这两个都是 TD 算法，但是解决的问题不同。

Sarsa

Sarsa 训练动作价值函数(Q_\pi(s,a))；
TD target：(y_t = r_t + \gamma \cdot {Q_\pi(s_{t+1},a_{t+1})})
价值网络是(Q_\pi) 的函数近似，Actor-Critic 方法中，用 Sarsa 更新价值网络(Critic)

Q-Learning

Q-learning 是训练最优动作价值函数 (Q^*(s,a))
TD target :(y_t = r_t + \gamma \cdot {\mathop{max}\limits_{a}Q^*(s_{t+1},a_{t+1})})，对 Q 求最大化

注意这里就是区别。
用Q-learning 训练DQN

个人总结区别在于Sarsa动作是随机采样的，而Q-learning是取期望最大值

下面推导 Q-Learning 算法。

8.2 Derive TD target

注意Q-learning 和 Sarsa 的 TD target 有区别。

之前 Sarsa 证明了这个等式：(Q_\pi({s_t},{a_t})=\mathbb{E}[{R_t} + \gamma \cdot Q_\pi({S_{t+1}},{A_{t+1}})])

等式的意思是，(Q_\pi) 可以写成奖励以及 (Q_\pi) 对下一时刻做出的估计；
等式两端都有 Q，并且对于所有的 (\pi) 都成立。

所以把最优策略记作 (\pi^*)，上述公式对其也成立，有：

(Q_{\pi^}({s_t},{a_t}) = \mathbb{E}[{R_t} + \gamma \cdot Q_{\pi^}({S_{t+1}},{A_{t+1}})])

通常把(Q_{\pi^}) 记作 (Q^)，都可以表示最优动作价值函数，于是便得到：

(Q^({s_t},{a_t})=\mathbb{E}[{R_t} + \gamma \cdot Q^({S_{t+1}},{A_{t+1}})])

处理右侧期望中的 (Q^*)，将其写成最大化形式：

因为(A_{t+1} = \mathop{argmax}\limits_{a} Q^({S_{t+1}},{a})) ，A一定是最大化 (Q^)的那个动作

解释：给定状态(S_{t+1})，Q* 会给所有动作打分，agent 会执行分值最高的动作。
因此 (Q^({S_{t+1}},{A_{t+1}}) = \mathop{max}\limits_{a} Q^({S_{t+1}},{a}))，(A_{t+1}) 是最优动作，可以最大化 (Q^*)；
带入期望得到：(Q^({s_t},{a_t})=\mathbb{E}[{R_t} + \gamma \cdot \mathop{max}\limits_{a} Q^*({S_{t+1}},{a})])

左边是 t 时刻的预测，等于右边的期望，期望中有最大化；期望不好求，用蒙特卡洛近似。用 (r_t \ s_{t+1}) 代替 (R_t \ S_{t+1})；
做蒙特卡洛近似：(\approx {r_t} + \gamma \cdot \mathop{max}\limits_{a} Q^*({s_{t+1}},{a}))称为TD target (y_t)。

此处 (y_t) 有一部分真实的观测，所以比左侧 Q-star 完全的猜测要靠谱，所以尽量要让左侧 Q-star 接近 (y_t)。

8.3 算法过程

a. 表格形式

观测一个 transition(({s_t},{a_t},{r_t},{s_{t+1}}))
用(s_{t+1} \ r_t) 计算 TD target：({r_t} + \gamma \cdot \mathop{max}\limits_{a} Q^*({s_{t+1}},{a}))
Q-star 就是下图这样的表格：

找到状态 (s_{t+1}) 对应的行，找出最大元素，就是 (Q^*) 关于 a 的最大值。

计算 TD error:(\delta_t = Q^*({s_t},{a_t}) – y_t)
更新(Q^({s_t},{a_t}) \leftarrow Q^({s_t},{a_t}) – \alpha \cdot \delta_t)，更新((s_{t},a_t))位置，让Q-star 值更接近(y_t)

b. DQN形式

DQN (Q^({s},{a};w))近似 $Q^({s},{a}) $，输入是当前状态 s，输出是对所有动作的打分；

接下来选择最大化价值的动作 ({a_t}= \mathop{argmax}\limits_{{a}} Q^({S_{t+1}},{a},w))，让 agent 执行 (a_t)；用收集到的 _transitions*_ 学习训练参数 w，让DQN 的打分 q 更准确；

用 Q-learning 训练DQN的过程：

观测一个transition (({s_t},{a_t},{r_t},{s_{t+1}}))
TD target:({r_t} + \gamma \cdot \mathop{max}\limits_{a} Q^*({s_{t+1}},{a};w))
TD error:(\delta_t = Q^*({s_t},{a_t};w) – y_t)
梯度下降，更新参数:(w \leftarrow w -\alpha \cdot \delta_t \cdot \frac{\partial Q^*({s_t},{a_t};w)}{\partial w})

x. 参考教程

视频课程：深度强化学习（全）_哔哩哔哩_bilibili
视频原地址：https://www.youtube.com/user/wsszju
课件地址：https://github.com/wangshusen/DeepLearning
笔记参考：
https://zlq7m64rhg.feishu.cn/drive/folder/fldcnvII4pZn6rjElhDTte1O7yD
- QLearning：https://zlq7m64rhg.feishu.cn/docs/doccndQt6Mdv4tVmKoQUrNHcJv3

Original: https://www.cnblogs.com/Roboduster/p/16455054.html
Author: climerecho
Title: 强化学习-学习笔记8 | Q-learning

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/807387/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一文搞懂ubuntu下colmap的使用方法

本文介绍了基于ubuntu20.04下colmap的两种使用方法，新手向，如有不对请指教，因为colmap的安装编译网络上有很多教程，并且很容易操作，这里不再赘述。本博客的大部分内…

Python 2023年9月26日
0052
从创建conda环境再到安装mmcv及mmdet

网上有很多，后期有需要再出吧。以前也踩了不少坑！创建conda环境 conda create -n pytorch python=3.8移除conda环境 conda remov…

Python 2023年9月8日
0028
关系型数据库存储多维指标数据

指标是一个统称概念，可以细分为原子指标和派生指标。以某企业近一周上海地域的销售金额为例，整体是一个派生指标，其中的销售金额是原子指标；近一周是时间，企业和地…

Python 2023年10月22日
0033
Flask框架

python web框架同步框架： Django：大而全(3.x以后支持异步) flask：小而精，插件的支持异步框架：Sanic、FastAPI flask介绍 Flask是…

Python 2023年6月12日
0058
[漏洞复现] [Vulhub靶机] OpenSSL Heartbleed Vulnerability (CVE-2014-0160)

免责声明：本文仅供学习研究，严禁从事非法活动，任何后果由使用者本人负责。 0x00 背景知识传输层安全协议SSL 安全套接字协议SSL（Secure Sockets Layer）…

Python 2023年6月12日
0097
python 单例

python 单例原创海洋的渔夫2022-07-22 21:43:04博主文章分类：Python系列 ©著作权文章标签类属性初始化 python 文章分类 Python …

Python 2023年5月25日
0091
Linux下的 sniff-andthen-spoof程序编写

Linux下的 sniff-andthen-spoof程序编写一、任务描述在本任务中，您将结合嗅探和欺骗技术来实现以下嗅探然后欺骗程序。你需要两台机器在同一个局域网。从机器A …

Python 2023年6月3日
0074
python运算符、六大数据类型

一、运算符 1，算数运算符是完成基本的算术运算使用的符号，用来处理四则运算在python中 * 运算符还可以用于字符串，计算结果就是字符串重复指定次数的结果 print(&quo…

Python 2023年9月23日
0074
HTML爱心网页制作[樱花+爱心]

HTML+CSS+JavaScript实现先点赞后观看,养成好习惯“不想动手的小伙伴可以直接拿网盘成品”阿里云盘——提取码: 0d…

Python 2023年11月6日
0058
使用 ChatGPT 启发游戏创意｜基于 AI 5 天创建一个农场游戏，第 2 天

欢迎使用 AI 进行游戏开发! 在本系列中，我们将使用各种 AI 工具，在 5 天内创建一个功能完备的农场游戏。到本系列结束时，你将了解到如何将多种 AI 工具整合到游戏开发流程中…

Python 2023年11月4日
0030
如何在 JupyterLab 中把 ipykernel 切换到不同的 conda 虚拟环境？

内容简介：学习虚拟环境配置时，您可能见过在 JupyterLab (或 Jupyter Notebook) 中切换不同 kernel 的做法，看着就很酷哈哈。那么，这样做有什么作用…

Python 2023年9月9日
0061
python flask面试题_Flask面试题

什么是Flask，有什么优点？轻量级web框架，默认依赖两个外部库：jinja2和Werkzeug WSGI工具适用于做小型网站以及web服务的API 如何在Flask中访问会…

Python 2023年8月14日
0055
pandas中dataframe部分操作总结

文章目录 * – 基本操作 – + 1.构建dataframe + * （1）创建 + 2.对于大型的dataframe，head方法将只选出头部的五行；t…

Python 2023年8月7日
0047
案例——中国篮球运动员的基本信息分析

案例——中国篮球运动员的基本信息分析分析目标 1、计算中国男篮、女篮运动员的平均身高与平均体重2、分析中国篮球运动员的年龄分布3、计算中国篮球运动员的体质指数数据获取先导入可…

Python 2023年8月7日
00177
pygame实现找方块(色彩敏感度测试)游戏

调皮的目录前言编程构思 * 游戏主要结构设想 pygame random 颜色设定整体流程待改进的地方完整代码游戏截图前言某人最近在手机上玩起了找方块游戏，给我发了…

Python 2023年9月20日
00104
【华为机试真题详解】最大报酬【2022 Q4 | 100分】

文章目录前言题目描述输入描述输出描述示例 1 题目解析参考代码 ; 前言《华为机试真题详解 Python实现》专栏含牛客网华为专栏、华为面经试题、华为OD机试真题。如…

Python 2023年9月30日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31