Questions tagged «reinforcement-learning»

对于与由外部正强化或负反馈信号或两者控制的学习有关的问题,在学习和使用迄今为止学到的知识的同时发生。

2
为什么基线在某些时间步上取决于状态?
在机器人技术中,强化学习技术用于查找机器人的控制模式。不幸的是,大多数策略梯度方法在统计上都是有偏见的,这可能会使机器人处于不安全状况,请参阅Jan Peters和Stefan Schaal的第2页:通过策略梯度加强学习运动技能,2008年 通过运动原始学习,可以克服该问题,因为策略梯度参数优化将学习步骤引导到目标中。 quote:“如果梯度估计是无偏的,并且学习率满足sum(a)= 0,则保证学习过程至少收敛到局部最小值。因此,我们仅需要根据生成的数据来估计策略梯度在执行任务期间。”(同一论文的第4页) 在Berkeley RL类问题1 的作业中,它要求您显示,如果减去的基线是时间步长t的状态的函数,则策略梯度仍然没有偏见。 ▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0 \triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0 我正在努力进行这种证明的第一步。有人可以指出我正确的方向吗?我最初的想法是以某种方式使用总期望定律使b(st)的期望以T为条件,但我不确定。提前致谢 :) 链接到方程的原始png

1
关于在象棋这样的游戏中应用强化学习的一些疑问
我发明了象棋的棋盘游戏。我建立了一个引擎,使其可以自主播放。引擎基本上是决策树。由以下人员组成: 一个搜索功能,可以在每个节点找到所有可能的合法举动 评估功能,可为棋盘位置分配一个数值(正数表示第一个玩家获得优势,负数表示第二个玩家赢得胜利) Alphabeta修剪negamax算法 有关此引擎的主要问题是评估功能的优化确实很棘手。我不知道要考虑哪些因素以及要考虑的权重。我认为改善引擎的唯一方法是,每次因数和权重的不同组合进行尝试时都要迭代游戏。但是,这在计算上似乎是一项艰巨的壮举(我可以不使用深度学习而向后传播吗?)。 我想使用强化学习,通过与自己对战来改善引擎。我一直在阅读有关该主题的文章,但我仍然很困惑。 在游戏中,输赢(1或0)部分还有什么其他奖励?如果我使用其他奖励,例如每次评估函数的输出,该如何实现呢?如何修改评估函数,以在迭代后获得更好的回报?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.