首页 > 后端开发 > Golang > 为什么我的 Q-Learning 价值观呈爆炸式增长?

为什么我的 Q-Learning 价值观呈爆炸式增长?

Susan Sarandon
发布: 2024-10-29 09:01:02
原创
856 人浏览过

Why are My Q-Learning Values Exploding?

Q-Learning 值超出阈值

在实施 Q-Learning 时,您遇到了 Q 值变得过大的问题,导致溢出。为了解决这个问题,让我们检查一下基本概念和潜在问题:

奖励函数

提供的奖励函数为每个时间步分配正奖励,促进长期比赛重于胜利。这是不可取的,因为应该激励代理去争取胜利。

更新方程

问题的关键在于 Q 值的更新方程:

agent.values[mState] = oldVal + (agent.LearningRate * (agent.prevScore + (agent.DiscountFactor * reward) - oldVal))
登录后复制

这里,agent.prevScore 代表前一个状态动作的奖励。但是,在您的实现中,您将其设置为上一步的 Q 值(即 oldVal)。这个错误会导致 Q 值无限增加。

解决方案

通过将 agent.prevScore 分配给上一步的奖励来纠正此错误后,代理的行为正常化。更新后的 Q 值现在反映了预期的总奖励,激励智能体追求胜利。

Q 值范围

在典型的 Q-Learning 问题中,Q-价值受到最大可能的奖励和惩罚的限制。在您的情况下,奖励函数将 Q 值限制为 [-1, 1],因为它为失败分配 -1,为获胜分配 1。然而,在其他场景中,范围可能更大甚至无界。预期总奖励是确定 Q 值范围的关键因素。

通过解决这些问题,您已经成功实施了 Q-Learning,现在可以训练一个以更具战略性的方式进行游戏的智能体,优先考虑赢得长时间游戏。

以上是为什么我的 Q-Learning 价值观呈爆炸式增长?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板