tensorflow2 tf2 DDPG算法玩立棍小游戏

DDPG算法就不做过多解读了,就是用来进行连续值预测,本文是使用DDPG进行立棍小游戏,详细过程解读注释在代码中,算法和模型都非常简单,考验的是基础,使用两个全连接模型,相互配合更新,共同让整个模型进步,所以本篇文章不再对算法做过多解释

tensorflow2 tf2 DDPG算法玩立棍小游戏

训练日志 :

观察加权分数,可以看到分数波动是非常剧烈的,但通过多次探索后,会以极快的速度达到游戏设定的满分3000分

加权得分 : 0.995累计奖励 + 0.005 最新奖励

tensorflow2 tf2 DDPG算法玩立棍小游戏

….

tensorflow2 tf2 DDPG算法玩立棍小游戏

….

tensorflow2 tf2 DDPG算法玩立棍小游戏

tensorflow2 tf2 DDPG算法玩立棍小游戏

版本:

python 3.9

tensorflow-gpu 2.6.0

除上述代码意外,其他环境准备

解决 tensorflow2 加载模型时报错的问题
pip install keras==2.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
 
游戏环境完善
pip install gym -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install ale-py  -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install gym[accept-rom-license] -i https://pypi.tuna.tsinghua.edu.cn/simple
 
安装后会报一些错,但测试已经可以运行
pip install gym[all] -i https://pypi.tuna.tsinghua.edu.cn/simple

完整代码:

GitHub – cjs199/ddpg

​​​​​​​

ddpg // 目录,存储了详细的日志文件
all_model.py // 模型文件
begin.py // 代码执行入口
cjs_util.py // 工具类,主要是处理游戏运行数据,写入日志
env.py // 游戏环境文件
replay_memory.py // 游戏运行数据缓存文件

Original: https://blog.csdn.net/qq_32740973/article/details/123546528
Author: qq_32740973
Title: tensorflow2 tf2 DDPG算法玩立棍小游戏

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/509276/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球