马尔可夫决策过程

2023年6月23日下午7:04 • 人工智能 • 阅读 71

马尔可夫决策过程

一、马尔科夫决策过程：
*
马尔科夫决策过程
最优决策
值迭代
策略迭代
MDP中的参数估计
二、代码实战：
*
A、马尔可夫决策过程值迭代
B、马尔可夫决策过程策略迭代
C、马尔可夫决策过程动态规划版
参考文章

本文介绍了马尔可夫决策过程，首先给出了马尔可夫决策过程的定义形式，其核心是在时序上的各种状态下如何选择最优决策得到最大回报的决策序列，通过贝尔曼方程得到累积回报函数；然后介绍两种基本的求解最优决策的方法，值迭代和策略迭代，同时分析了两种方法的适用场景；最后回过头来介绍了马尔科夫决策过程中的参数估计问题：求解-即在该状态下采取该决策到底下一状态的概率。

一、马尔科夫决策过程：

机器学习算法（有监督，无监督，弱监督）中，马尔科夫决策过程是弱监督中的一类叫增强学习。增加学习与传统的有监督和无监督不同的地方是，这些方法都是一次性决定最终结果的，而无法刻画一个决策过程，无法直接定义每一次决策的优劣，也就是说每一次的决策信息都是弱信息，所以某种程度上讲，强化学习也属于弱监督学习。从模型角度来看，也属于马尔科夫模型，其与隐马尔科夫模型有非常强的可比性。

下面是一个常用的马尔科夫模型的划分关系

不考虑动作考虑动作状态完全可见马尔科夫链(MC)马尔科夫决策过程(MDP)状态不完全可见隐马尔科夫模型(HMM)不完全可观察马尔科夫决策过程(POMDP)

马尔科夫决策过程

有了上面的定义之后，一个完整的马尔科夫决策过程状态转移图如下：

也就是说最优决策下对应的累积回报一定不小于一般的决策下的累积回报。

值得注意是，最优决策是出于全局考虑的，是从所有状态下出发到得到的累积回报的加和最大，这就意味着决策函数不保证其中每一个状态出发根据决策函数得到的累积回报都是最大的。

; 最优决策

也许上面的目标函数还不清晰，如何求解最有决策，如何最大化累积回报

下面结合例子来介绍如何求解上面的目标函数。且说明累积回报函数本身就是一个过程的累积回报，回报函数[公式]才是每一步的回报。

下面再来看求解上述最优问题，其中就是以s为初始状态沿着决策函数走到结束状态的累积回报。

值迭代

内循环迭代的的处理方法有两种：

同步迭代：即在一次循环过程中，累积回报不更新，而是计算完所有的累积回报之后，再统一更新。
异步迭代，即在一次循环过程中，每计算完一个初始状态下累积回报就立即更新，不需要等到所有的累积回报都计算出来之后再更新。

; 策略迭代

值迭代是使累积回报值最优为目标进行迭代，而策略迭代是借助累积回报最优即策略最优的等价性，进行策略迭代。

同样，收敛性也是值得探讨的，这里简单的思考一下，由于奖励状态和惩罚状态的分布，以及累积回报唯一确定决策函数，那么未达到最优决策，必然累积回报和决策函数处于不稳定的状态，而只有当到达最优决策时，才有：

所以该过程就是在a步由决策函数确定累积回报，然后最大化累积回报来更新决策，如此反复，则有最优决策。值迭代和策略迭代比较：可以看出策略迭代涉及从决策函数到累积回报的解线性方程组的步骤，值迭代则是反复的，所以策略迭代更适合处理少量状态的情况，一般10000以内还是可以接受的。

MDP中的参数估计

回过头来再来看前面的马尔科夫决策过程的定义是一个五元组，一般情况下，五元组应该是我们更加特定的问题建立马尔科夫决策模型时该确定的，并在此基础上来求解最优决策。所以在求解最优决策之前，我们还需更加实际问题建立马尔科夫模型，建模过程就是确定五元组的过程，其中我们仅考虑状态转移概率，那么也就是一个参数估计过程。（其他参数一般都好确定，或设定）。

假设，在时间过程中，我们有下面的状态转移路径：

整个流程就是在策略迭代的基础上，同时进行了参数估计。

; 二、代码实战：

A、马尔可夫决策过程值迭代

/***
 马尔科夫决策过程值迭代，关键在于第一次迭代要例外，
 因为目标状态是一个终止状态，放到迭代循环里面会出现
 临近的状态回报函数无限的，发散。
 迭代过程采用的是异步迭代，即每一次内层循环找到更优的
 回报就立即更新最大回报，以便与之相邻的状态能立即更新到最优
 */
   /****
 值迭代
 同步更新
 12*12*7
   */

while(!flag)
 {
 flag=1;
 for(i=0; i<size; i++)
 {
 if(action[i]>0||action[i]==0)
 maxreward[i]=reward[i]+maxreward[action[i]];
 else
 maxreward[i]=reward[i];
 }//放到这意味着同步更新，count=1008是12*12的7倍，即扫了7遍
 for(i=0; i<size; i++)//对每一个状态求最大的V(s)
 {
 for(j=0; j<size; j++)//策略迭代的话这里其实可以换做扫一遍策略集，这也就是和值迭代不同的地方
 {
 //cout<<"i="<<i<<" "<<maxreward[i]<<" "<<endl;
 if(matrix[i][j]==1&&maxreward[j]>maxreward[i]-reward[i]+0.0001)//更新累积回报
 {
 action[i]=j;
 //if(action[i]>0||action[i]==0)
 //maxreward[i]=reward[i]+maxreward[action[i]];//放到这是异步更新，
 //else
 // maxreward[i]=reward[i];
 flag=0;//当累积回报不再更新，即不进入该if，那么就结束迭代
 }
 count++;
 }
 }
 }

B、马尔可夫决策过程策略迭代

while(!flag)
 {
 flag=1;
 for(i=0; i<size; i++)//对每一个状态求最大的V(s)
 {
 for(j=0; j<ACTION; j++)//策略迭代的话这里其实可以换做扫一遍策略集，这也就是和值迭代不同的地方
 {
 //cout<<"i="<<i<<" "<<maxreward[i]<<" "<<endl;
 if(matrix[i][ac[j]+i]==1&&maxreward[ac[j]+i]>maxreward[i]-reward[i]+0.0001)
 {
 action[i]=j;
 //if(reward[i]!=1&&reward[i]!=-1)
 maxreward[i]=reward[i]+maxreward[ac[j]+i];
 //else
 // maxreward[i]=reward[i];
 flag=0;
 }
 count++;
 }
 }
 }

C、马尔可夫决策过程动态规划版

/**
   4 非递归动态规划
   从最终状态出发，采用广度遍历不断的更新其上一状态的累积回报
 */
   /*

while(q!=NULL)//这里图的广度遍历没有用到队列，但也用到了队列的思想
 //对于当前步能到达的节点用链表连接起来，然后逐渐进行下一步的能到达的节点进行入链（入队列），同样是一种先进先出思想
 {
 for(i=0; i<size; i++) //由于不是策略迭代，只能遍历所有的状态，找出能到的，且更优的
 {
 if(matrix[i][q->data]==1&&maxreward[i]<0)//double类型比较大小的偏差，加上一个小数作为精度
 {
 maxreward[i]=reward[i]+maxreward[q->data];
 p=(subset *)malloc(sizeof(subset)*1);
 p->data=i;
 p->next=NULL;
 q=maxsubset;
 while((q->next)!=NULL)
 q=q->next;
 q->next=p;
 }
 count++;
 }
 maxsubset->next=maxsubset->next->next;//删除当前节点，即当前步下能到达的节点都已经走完了，可出队列了
 q=maxsubset->next;//
 }

参考文章

【机器学习】马尔科夫决策过程

Original: https://blog.csdn.net/qq_40713201/article/details/124958052
Author: yitahutu79
Title: 马尔可夫决策过程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/647734/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Windows】搭建Pytorch环境(GPU版本，含CUDA、cuDNN)，并在Pycharm上使用（零基础小白向）

文章目录 * – 前言 – 一、安装CUDA – + 1、检查电脑是否支持CUDA + 2、下载并安装CUDA + 3、下载并安装cuDNN &…

人工智能 2023年7月21日
0085
【andriod】设备APP开发之各种细节部署和操作

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0076
三、loss和Val_loss判定模型结果好坏准则

loss：训练集的损失值 Val_loss：测试集的损失值情况一：train loss不断下降，test loss不断下降，说明网络任然在学习中解决办法：此时的网络模型是最好…

人工智能 2023年7月21日
0039
K_近邻算法_分类Ionosphere电离层数据【python机器学习系列（三）】

K_近邻算法_分类Ionosphere电离层数据【python机器学习系列（三）】文章目录摘要 1.数据获取 2.数据集分割与初步训练表现 3.测试不同近邻值 4.交叉检验 5…

人工智能 2023年7月3日
0072
Python机器学习算法备忘单之5 种常见算法的快速参考指南

机器学习的”没有免费的午餐”定理指出，没有一种机器学习算法可以解决所有类型的机器学习问题。线性回归：最适合解决存在线性关系且关系相对简单的数据集的基于回归…

人工智能 2023年6月26日
0047
FigDraw 1. SCI 文章的灵魂之简约优雅的图表配色

关注公众号，桓峰基因桓峰基因生物信息分析，SCI文章撰写及生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你 66篇原创内容公众…

人工智能 2023年6月19日
0072
用Python来表白，把情书写进她的照片里

前言这不已经十一月了，22年马上就过完了，各位兄弟有对象了吗，现在就是缺钱还缺对象退一步来说，有心仪的人吗啊，如果有的话，看看这篇程序员的表白小妙招吧 ; 实现步骤想要实现…

人工智能 2023年6月28日
0054
深度学习5之目标检测、人脸识别（简洁）

目录 * – 目标定位 – 特征点检测 – 目标检测（跳过） – 交并比Iou – 非极大值抑制 – anc…

人工智能 2023年7月12日
0050
Opencv的mat转换成qimage或者qpixmap

一、方法一二、方法二三、比较方法一优缺点方法二优缺点本方法基本思路是把图片编码成某种格式图片的Buffer，然后QT或者OpenCV框架用该Buffer来构造出图片。 c…

人工智能 2023年7月19日
0055
opencv_python直方图反向投影原理解析

反向投影通俗的讲就是拿一张小图片在一张大图片中找出和小图片相似的区域。直方图反向投影有两种，一种是基于块的，一种是基于像素的。一、基于块的直方图反向投影。先看下直方图反向投影…

人工智能 2023年7月19日
0059
实体消歧方法(1)__BOOTLEG

刚整理好的论文总结被我学弟一键ctrl+z搞没了，想暴揍他一顿~ 熊孩子太皮了！！还好这只是论文总结…… 目录现存问题解决方法 1. 四种推理模式 2…

人工智能 2023年5月28日
0085
激光SLAM框架总结

一、激光SLAM简介基于激光雷达的同时定位与地图构建技术（simultaneous localization and mapping， SLAM）以其准确测量障碍点的角度与距离、…

人工智能 2023年7月26日
0054
超分算法之SRCNN

这篇文章是2014年的一篇论文，其主要意义在于作者推出的SRCNN是深度学习在超分上开篇之作！SRCNN证明了深度学习在超分领域的应用可以超越传统的插值等办法取得较高的表现力。参…

人工智能 2023年7月27日
0077
Unix基础

Unix 万物介文件 cd: change directory ls 列出当前路径下的所有文件名或目录名 ll 是”ls -l”的别名显示当前目录下文件详…

人工智能 2023年6月4日
0061
jupyter notebook上使用GPU运行程序

问题描述虽然jupyter上能后直接运行代码，但是默认是使用的cpu，我的电脑支持GPU，虽然也安装了tensorflow-gpu，但是运行的时候没有使用上。网上找了很多办法， …

人工智能 2023年5月24日
00122
paddleocr自定义字典训练自己的数据集（rec模块）

下载的paddleocr的2.3版本。地址是paddleocr检测模块用的是 det模块跑的慢，所以训练了一下rec模块。默认的字典在ppocr_keys_v1.txt文件里面，6…

人工智能 2023年5月28日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

马尔可夫决策过程

马尔可夫决策过程

马尔科夫决策过程

; 最优决策

值迭代

; 策略迭代

MDP中的参数估计

A、马尔可夫决策过程值迭代

B、马尔可夫决策过程策略迭代

C、马尔可夫决策过程动态规划版

大家都在看