马尔科夫型决策以及使用python计算方法

2023年6月16日上午10:07 • 人工智能 • 阅读 98

一、马尔可夫性

考察某工厂一台自动加工机的工作状态。该机器有两种工作状态：正常状态和故障状态。在每个整数钟点的起始时刻检查机器的工作情况，若机器处于正常状态，则让它继续工作；若机器处于故障状态，则对他进行检修。假设处于正常状态的机器，在1小时后发生故障的概率为0.05；处于故障状态的机器，在1小时内排除故障的概率0.6

显然任何时刻，机器只能处于正常状态或故障状态，我们分别用1和2表示这两种状态。

那么，这台机器在第n小时的状态Xn或者等于1，或者等于2，即Xn是仅取两个值的

离散型随机变量。我们关心的是Xn的随机变化规律。

由于处于正常状态的机器1小时后发生故障的概率为0.05，即

所以机器1小时后任处于正常状态的概率为

此时，X1的分布列由条件概率构成，这个分布列实际是已知X0=1的情况下X1的条件分布列

，用表格表示如下：

P(.|X0=1)

0.95

0.05

已知机器在第n小时处于故障状态，等价于事件{Xn=2}已经发生.此时在第n+1小时机器

处于第j(j=1,2)状态的概率是条件概率P(Xn+1=j|Xn=2).类似于前面的讨论，由故障机器

在1小时内被修复的概率为0.6，得

因此，若机器在第n小时处于故障状态，则Xn+1的条件分别列为

Xn+1

P(.|Xn=2)

0.6

0.4

类似地，若已知机器在第n小时处于正常状态，则机器在第n+1小时处于第j(j=1,j=2)

状态的概率为

因此，若机器在第n小时处于正常状态，则Xn+1的条件分别列为

Xn+1

P(.|Xn=1)

0.95

0.05

事实上，在已知机器在第n小时所处状态Xn的情况下，Xn+1的随机变化规律与X0，X1,…,

Xn的取值都没关系。随机变量序列{Xn}所具有的这类性质称为马尔可夫性，也可以解析为

：在已知现在情况下，将来的随机变化规律与过去发生的事件无关。

二、转移概率矩阵

利用矩阵可以直观地表达马尔可夫链的各个状态间的转移概率，并且这种表达方式还

为研究马尔可夫链的随机变化规律提供了方便.例如，在表示机器运行状态的马尔可夫链

{Xn)中， Xn的分布列可以表示为

Xn+1的分布列可以表示为

Xn的两个状态间的转移概率可以表示为

于是，利用向量与矩阵的乘法运算

一般地，对于一个马尔可夫链，像P这样的矩阵称为该马尔可夫链的转移概率矩阵，

转移概率矩阵由所有的转移概率构成，它刻画了马尔可夫链各个状态经单位时间相互

转化的概率规律，而时刻n的分布则刻画了马尔可夫链{Xn}中随机变量X的概率分布规

律，该分布与Xn的分布列相互唯一确定.

特别地，马尔可夫链在0时刻的分布称为初始分布，初始分布刻画了马尔可夫链最初

时刻(n=0)的概率分布规律，例如，在表示机器运行状态的马尔可夫过程中，初始分布

(1 0)表示机器最初处于正常状态，初始分布(0 1)表示机器最初处于故障状态，初始分

布(0.5 0. 5)表示机器最初处于正常状态的概率为0.5，处于故障状态的概率也为0.5.

三、马尔可夫决策

再看一个例子：

某工厂一台自动加工机有两种工作状态:正常状态和故障状态，在每个整数

钟点的起始时刻检查机器的工作情况，若机器处于正常状态，则让它继续工作;若机器处

于故障状态，则对它进行检修，假设处于正常状态的机器，在1小时后发生故障的概率为

0.05.对于故障机器有两种检修方案可供选择，一种是加急检修，在1小时内排除故障的

概率为0.9;一种是常规检修，在1小时内排除故障的概率为0. 6.

已知这台机器正常工作1小时可收益10元，加急检修1小时费用为9元，常规检修

1小时费用为6元。那么，当机器出现故障时，应选择哪种检修方案排除故障?

这是一个决策问题，决策目标是使机器的生产获得最大的收益可供选择的行动方案包括:

d:加急检修，d2: 常规检修.

在前两讲中，决策问题中所出现的状态都与时间无关，而这里机器在第n小时的工作

状态Xn与时间有关，且{Xn)是-一个马尔可夫链.因此各个行动方案的收益也会随着时间

的改变而改变.为了获得最优决策，我们需要确定在各个整数钟点时机器的状态情况，进

而确定相应的收益情况.

上述马尔可夫链{Xn)的转移概率矩阵与所采用的行动方案有关吗?

为了回答这个问题，只需考察马尔可夫链{Xn )在行动方案d1和d2下的转移概率矩阵.

行动方案d1的转移概率矩阵为

行动方案d2的转移概率矩阵为

由此可见，马尔可夫链{Xn)的转移概率矩阵与所采用的行动方案有关.

下面，我们考虑机器在时间段[n, n+1) (n≥0)内的收益情况，当机器在n时刻处

于正常状态时，行动方案d和行动方案dr在该时间段内的收益都是10元;当机器在n时

刻处于故障工作状态时，行动方案d在该时间段内的收益是-9元，行动方案dh在该时

间段内的收益是-6元，因此，机器在时间段[n, n+1)内的收益矩阵为

在行动方案山之下，利用公式(1)，可以计算机器各个时刻的概率分布，例如，当机

器最初为正常工作状态时，初始分布为

时刻1的分布为

时刻2的分布为

连续使用矩阵乘法公式可得n时刻的分布

即马尔可夫链在时刻n的分布完全由初始分布和转移概率矩阵所决定.

因此，行动方案d1在时间段[n, n十1)内的平均收益为

行动方案d2在时间段[n, n十1)内的平均收益为

我们按照平均收益最大准则选择最优决策。如果我们只关心机器在时间

段[n, n+ 1)内的收益，就可以通过比较Q(d1, n) 和Q(d2, n)来做出决策，这可以使机器

在该单位时间段内获得最大平均收益、但是，这样获得的决策不一-定能够保证在[0, n+1)

时间段内获得最大平均收益.例如，当机器最初为正常工作状态时，初始分布为(1 0),

表列出了Q(d1，n)和Q(d2. n)的取值情况:

Q(d1

)

Q(d2

)

9.05

9.2

9.0025

8.92

9.000125

8.822

9.00000625

8.7877

9.00000031

8.775695

9.00000002

8.77149325

8.77002264

计算的python代码如下：


def MarkovChain():
    P = array([[0.95, 0.05], [0.9, 0.1]])    #&#x8F6C;&#x79FB;&#x77E9;&#x9635;
    P1 = array([[10], [-9]])

    n = 7    #&#x9884;&#x6D4B;n&#x5929;&#x7684;&#x4E8B;&#x4EF6;&#x53D1;&#x751F;&#x6982;&#x7387;
    for j in range(n):
        j=j+1
        Init_State = array([1, 0])   #&#x521D;&#x59CB;&#x72B6;&#x6001;&#x5206;&#x5E03;
        for i in range(j):
            S = matmul( Init_State, P)
            Init_State = S
        S = matmul( Init_State,P1)
        print(f'&#x7B2C;{j}&#x5929;&#x6536;&#x76CA;&#x5206;&#x5E03;&#xFF1A;{S.T}')

由表可以看出，仅在时间段[1，2)内，行动方案d2的平均收益大于行动方案d1

的平均收益.按照机器在时间段[1, 2)内的平均收益最大准则选择行动方案，应该选择

行动方案d2.但是如果机器运行的时间超过4小时，行动方案d2就不是平均收益最大的

方案了!(此时行动方案d2在各个时间段内的平均收益之和小于行动方案d1的平均收益

之和).

Original: https://blog.csdn.net/thehunters/article/details/125059976
Author: thehunters
Title: 马尔科夫型决策以及使用python计算方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/623229/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

windows使用GPU2060配置cuda11.1和pytorch

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、安装anaconda 二、安装cuda11.1 * 1.确定自己电脑显卡对应的cuda版本 2…

人工智能 2023年7月22日
0065
windows上yolov5 6.0 6.1训练 jetson nano上用tensorrtx部署

目录前言一，yolov5 v6.1训练（主机windows） 1.准备好pycharm，anaconda。 2.在anaconda中创建python虚拟环境 3.下载yolov…

人工智能 2023年7月23日
0093
[总结] 半监督学习方法: 协同训练&类协同训练(Co-training)

Co-training 最早在 1998 年提出, 是基于分歧的方法, 其假设每个数据可以由不同的视图(View)表示, 不同视图可以训练出不同的分类器, 利用这些分类器对无标签样…

人工智能 2023年6月16日
00224
Python表白代码：“ 星光月夜烟花皆归你，我也归你”（满天烟花盛开、附番外玫瑰）

导语 “慢品人间烟火色闲观人间岁月长” 🌙 遇见我以后，我们的故事就开始了，愿你历经山河，仍觉得人间值得🌙。星光月夜烟花皆归你，我也归你。关于烟花🎇…

人工智能 2023年7月3日
0092
Seaborn绘制箱型图

公众号：尤而小屋作者：Peter编辑：Peter 大家好，我是Peter~ 本文介绍的是如何使用 seaborn 的 boxplot 方法来绘制箱型图，先看看部分图形的绘制效果： …

人工智能 2023年7月5日
0089
ViT：视觉Transformer backbone网络ViT论文与代码详解

Visual Transformer Author：louwill Machine Learning Lab 今天开始Visual Transformer系列的第一篇文章，主题是V…

人工智能 2023年6月24日
00106
Python自动化办公：openpyxl绘制图表

在后台回复【阅读书籍】即可获取python相关电子书~ Hi，我是山月。之前给大家分享了openpyxl的基础和进阶教程： ** 。今天来给大家分享openpyxl的最后一个…

人工智能 2023年7月15日
0058
【机器学习】《动手学深度学习》d2l 李沐B站视频配套学习笔记

文章目录各种基础铺垫 * 如何安装d2l包？本书的内容框架 3-线性神经网络（基础回归模型） * 3.1 内容介绍 3.4 softmax回归补充：逻辑回归 1 线性回归模型…

人工智能 2023年6月15日
00168
I. 知识图谱应用案例

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月4日
0056
【nn.LSTM详解】

参数详解 nn.LSTM是pytorch中的模块函数，调用如下： torch.nn.lstm(input_size,hidden_size,num_layers,bias,batc…

人工智能 2023年6月23日
0087
【云原生 | 从零开始学istio】二、Istio核心特性与架构

istio核心特性 Istio 核心特性 * 断路器超时重试多路由规则 Istio 架构写在最后 ; Istio 核心特性 1、流控(traffic management)…

人工智能 2023年7月31日
0058
有趣有用的PCA——PCA压缩图片

PCA是数据降维的经典方法，本文给出了一个将PCA用于图片压缩的例子，并探索了标准化处理（normalization）对PCA的影响。文末还讨论了PCA推导第一主成分的过程。 PC…

人工智能 2023年6月16日
0066
TensorRT8——ONNX转trt（C++)

TensorRT安装首先需要确保正确安装CUDA，安装后通过nvcc -V验证是否安装。下载TensorRT网址：https://developer.nvidia.com/nv…

人工智能 2023年6月2日
0088
【labelme软件】使用指南

在做目标检测任务时，为了数据标注既快速又准确，需要用到labelImg进行画框标注，本文介绍一种请先阅读完指南再开始标注1.安装labelme软件(1) 打开cmd(2) 复制粘贴…

人工智能 2023年7月22日
0053
Robust Knowledge Graph Completion with Stacked Convolutions and a Student Re-Ranking Network

研究问题创建了稀疏连接的知识图谱数据集，并研究如何在稀疏连接的知识图谱上完成链路预测任务背景动机目前常用的知识图谱补全数据集都是基于稠密连接的假设创建的，比如FB15K数据集…

人工智能 2023年6月10日
0089
预训练语言模型（四）：ELMo模型

参考一个很全的总结：预训练语言模型的前世今生 – 从Word Embedding到BERTELMo也参考了这个：【NLP-13】ELMo模型（Embeddings fr…

人工智能 2023年5月28日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

马尔科夫型决策以及使用python计算方法

大家都在看