祖玛复仇中文版是一个非常有趣好玩的球球射击消除类型的游戏,这个游戏设置了超多的关卡,操作界面也是十分的清新简单且可爱,玩家上线进入
由于游戏的很大一部分是小**,它们在幻想的环境中运行,寻*奖励并执行一长串动作来实现某个目标,这似乎是研究人员算法的逻辑测试平台。在实验中,对于像马里奥赛车和蒙特祖玛的复仇这样的游戏,他们将所述游戏分为两个不同的类别:一个是监督稀疏的,这意味着**的指导较少,这被认为是“硬”探索游戏,第二个是监督更密集的,或“简单”的探索游戏。
在其他游戏中,如果游戏的分数很少(这是一个叫做《蒙特祖玛的复仇》的游戏),那么一个只基于随机探索和使用强化学习来尝试获得越来越多分数的系统,如果它从来没有弄清楚如何获得任何分数,那么它将只是随机地乱转然后放弃。
推荐理由:最先进的强化学习(RL)算法通常使用随机抽样进行探索,但这种方法在像蒙特祖玛的复仇这样的艰巨探索任务中失败了。当智能体寻求内在奖励并执行不必要的探索时,即使有足够的任务奖励可用,这种性能下降也会发生。这种跨任务性能的不一致阻碍了RL算法广泛使用内在奖励。麻省理工学院研究团队提出了一种有原则的约束策略优化程序,可以自动调整内在奖励的重要性:它在不需要探索时抑制内在奖励,并在需要探索时增加它。这导致无需手动调整即可平衡内在奖励与任务奖励的卓越探索。