训练AI玩贪吃蛇(强化学习与Q-learning)

2023年6月25日下午9:25 • 人工智能 • 阅读 66

欢迎加入我们卧虎藏龙的python讨论qq群：729683466

● 导语 ●

AI近些年发展很火

不但可以下围棋

还可以玩各种各样的游戏

国外有人构建AI模型

然后训练出了非常厉害的拳击手

相信有一天

AI和机器人结合

肯定能训练出比泰森还强的高手

今天我们看一个简单的AI项目

代码及相关资源获取

1：关注”python趣味爱好者”公众号， 回复”AI玩贪吃蛇 “获取源代码。

效果演示

游戏只训练了很短的时间，所以效果不太好，感兴趣的同学可以多训练几次。

往期精选

🛠

开发工具

python3.10

第三方库：pygame,collections,enum

讲解部分

一：原理介绍

这里用到的核心知识是强化学习，这是一种无监督的算法，与有标签的监督学习不同，在深度学习中，监督学习的意思就是需要人工标注的正确答案，通过这些正确答案来训练神经网络，最终使神经网络可以准确模拟出下一步的操作。

但是在无监督学习中，并没有人告诉程序，你走的哪一步是正确的，哪一步是错误的。程序自动不断试错，如果撞到了墙壁或者尾巴直接死亡，吃到食物获得奖励。这样神经网络才知道哪些动作正确，哪些不正确。

二：Q-learning算法

在Q-learning算法自我训练的过程中,有5个比较重要的元素来评估当前状态的价值，首先是state，也就是当前的状态，对于贪吃蛇来说，这个状态很简单，就是蛇的位置，食物的位置，蛇移动方向等等。将这些信息组合在一起，形成一个向量，这就是当前状态，然后第二个元素就是蛇的选择action，一共4个方向，向前是无效的，向后是自杀，所以只有两个方向，向左向右（相对于蛇的移动方向来说）。这个选择就是action。随后，我们把state做出选择action后产生的新状态写作state1，这是第三个元素。如果state1是游戏结束（死亡），那么第四个元素done就是False，否则就是True。最后一个元素就是reward，也就是这个状态state1的奖励，如果吃到了食物就是奖励10分，否则就0分，如果死亡了，分数那就是-10分。

用一个图表示上述状态就是。

Q-learning核心公式如下：

在代码中实现公式如下：

Q_new = reward[idx] + self.gamma * torch.max(self.model(next_state[idx]))

用于评估每个状态的value，以训练神经网络

整个Q-learning的代码如下：

class QTrainer:
    def __init__(self,model,lr,gamma):
        self.lr = lr
        self.gamma = gamma
        self.model = model
        self.optimer = optim.Adam(model.parameters(),lr = self.lr)
        self.criterion = nn.MSELoss()
        for i in self.model.parameters():
            print(i.is_cuda)

    def train_step(self,state,action,reward,next_state,done):

        state = torch.tensor(state,dtype=torch.float)
        next_state = torch.tensor(next_state,dtype=torch.float)
        action = torch.tensor(action,dtype=torch.long)
        reward = torch.tensor(reward,dtype=torch.float)

        if(len(state.shape) == 1): # only one parameter to train , Hence convert to tuple of shape (1, x)
            #(1 , x)
            state = torch.unsqueeze(state,0)
            next_state = torch.unsqueeze(next_state,0)
            action = torch.unsqueeze(action,0)
            reward = torch.unsqueeze(reward,0)

            done = (done, )

        # 1. Predicted Q value with current state

        pred = self.model(state)
        target = pred.clone()
        for idx in range(len(done)):
            Q_new = reward[idx]
            if not done[idx]:
                #Q_new = reward[idx] + self.gamma * torch.max(self.model(next_state[idx])).cuda()
                Q_new = reward[idx] + self.gamma * torch.max(self.model(next_state[idx]))
            target[idx][torch.argmax(action).item()] = Q_new
        # 2. Q_new = reward + gamma * max(next_predicted Qvalue) -> only do this if not done
        # pred.clone()
        # preds[argmax(action)] = Q_new
        self.optimer.zero_grad()
        loss = self.criterion(target,pred)
        loss.backward()

        self.optimer.step()

三：神经网络

神经网络是深度学习的基本概念，这里不过多介绍，直接展示一下我们设计的神经网络代码，相信大家能看懂。

class Linear_QNet(nn.Module):
    def __init__(self,input_size,hidden_size,output_size):
        super().__init__()
        # self.linear1 = nn.Linear(input_size,hidden_size).cuda()
        # self.linear2 = nn.Linear(hidden_size,output_size).cuda()
        self.linear1 = nn.Linear(input_size,hidden_size)
        self.linear2 = nn.Linear(hidden_size,output_size)

    def forward(self, x):
        x = F.relu(self.linear1(x))
        x = self.linear2(x)
        return x

作者|齐

编辑|齐

感谢大家观看

有钱的老板可打赏一下小编哦

扫描二维码

关注我们

QQ群：729683466

◰

参考来源

代码来源：github

Original: https://blog.csdn.net/qq_42680814/article/details/126397478
Author: 剑心211
Title: 训练AI玩贪吃蛇(强化学习与Q-learning)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651619/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Blockchain is Watching You: Profiling and Deanonymizing Ethereum Users

今天给大家讲解的论文是关于构建区块链用户画像的，它的中文题目是《区块链正在注视着你：对以太坊用户进行分析和去匿名化》文章目录相关概念 * 准标识符 Quasi-identifi…

人工智能 2023年7月16日
0087
五分钟快速搭建一个实时人脸口罩检测系统(OpenCV+PaddleHub 含源码)

导读本文主要介绍如何使用OpenCV和PaddleHub实现一个实时人脸口罩检测系统。（公众号：OpenCV与AI深度学习）背景介绍从19年疫情爆发到现在，佩戴口罩对大家来说…

人工智能 2023年6月19日
0070
对Lasso可以做特征选择，而Ridge却不行的详细解释

为了限制模型参数的数值大小，就在模型原来的目标函数上加上一个惩罚项，这个过程叫做正则化（Regularization）。如果惩罚项是参数的l 2 l_2 l 2 范数，就是岭回…

人工智能 2023年6月17日
00109
狗都能看懂的Self-Attention讲解

文章目录 * – 1、什么是attention？ – 2、什么是self-attention？ – 3、self-attention的原理 &#…

人工智能 2023年5月27日
0089
逻辑回归模型中的sigmoid函数是什么，它有什么作用

1. 介绍在讲解sigmoid函数在逻辑回归模型中的作用之前，首先需要了解逻辑回归模型的基本原理。逻辑回归是一种广泛应用于分类问题的机器学习算法。它可以将输入特征映射到一个概率输…

人工智能 2023年12月31日
00105
【CUDA基础练习】向量内积计算的若干种方法

先从一个简单，直观的方法来了解如何用CUDA计算向量内积。向量内积既然是将两个向量对应元素相乘的结果再求和，我们先考虑将对应元素相乘并行化，再来考虑相加。【方法一】 #inclu…

人工智能 2023年5月25日
00108
anaconda新建的环境如何在jupyter notebook中打开

我的情况：win10电脑，已经安装anaconda,用的自带3.7版的python；我的问题：最近需要安装tensorflow ，在3.7版的python上安装失败，所以打算新创建…

人工智能 2023年5月24日
0070
主成分分析原理以及SPSS和Python实现

主成分分析(principal component analysis,PCA) 是一种常用的无监督学习方法，它利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关…

人工智能 2023年7月17日
0073
【python量化】搭建一个CNN-LSTM模型用于股票价格预测

写在前面下面的这篇文章主要教大家如何搭建一个基于CNN-LSTM的股票预测模型，并将其用于股票价格预测当中。原代码在文末进行获取。 1 CNN-LSTM模型这篇文章将带大家通…

人工智能 2023年5月23日
00111
10.Opencv的重要结构体Mat—深拷贝与浅拷贝

目录 Mat深拷贝与浅拷贝访问图像(Mat)的属性通道的分离与合并 Mat是什么？是一个矩阵，灰色图像2通道，彩色图像3通道。 Mat的优点：可以Numpy以矩阵的方式进…

人工智能 2023年7月18日
0055
Numpy库速通教程典藏版 #一篇就够了系列

Numpy库速通教程典藏版 #一篇就够了系列一文带你拿下numpy 文章目录 1. 创建数组 * 1.1 通过 array( object ) 创建 – 1.1.1 …

人工智能 2023年7月14日
0068
Python code模块

code — 解释器基类 code 模块提供了在 Python 中实现 read-eval-print 循环的功能。它包含两个类和一些快捷功能，可用于构建提供交互式解释器的应用程序…

人工智能 2023年6月28日
0080
python数据分析实战：使用Lightgbm解决二分类预测问题以泰坦尼克号数据为例

背景来自于kaggle上的一个经典比赛，我们使用Lightgbm进行分类预测，数据说明： VariableDefinitionKeysurvivalSurvival0 = No,…

人工智能 2023年6月30日
0084
ubuntu18.04配置ORB-SLAM3（包含ROS）完整版教程

ORB_SLAM3安装教程 ORB_SLAM3安装准备 * 1、C++11 or C++0x Compiler 2、Pangolin ==出现的问题== 3、OpenCV安装 4、…

人工智能 2023年6月1日
0099
win10安装neo4j社区版(十分钟ok)

亲不要再踩坑啦来这里啦 1 安装jdk11 1.1 why neo4j是用Java语言编写的图形数据库，运行时需要启动JVM进程。neo4j和java版本要匹配，截止文章发布时…

人工智能 2023年6月4日
00118
图像处理：单通道转为3通道

在处理图像时，经常遇到需要把单通道的图像转换为3通道的rgb图像，大部分情况下，简单的重复堆叠已经可以满足。下面总结了两种简单的转换方法：一、np.stack()函数 img = …

人工智能 2023年6月17日
00104

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

训练AI玩贪吃蛇(强化学习与Q-learning)

大家都在看