Questions tagged «q-learning»

4
为什么Q-Learning在测试过程中使用epsilon-greedy?
在DeepMind关于Atari视频游戏的Deep Q-Learning的论文(此处)中,他们在训练过程中使用epsilon-greedy方法进行探索。这意味着在训练中选择一个动作时,它要么被选为q值最高的动作,要么是随机动作。两者之间的选择是随机的,并且基于epsilon的值,并且在训练过程中对epsilon进行退火,这样一开始,会采取许多随机动作(探索),但是随着训练的进行,会采取许多具有最大q值的动作(开发)。 然后,在测试过程中,他们也使用这种epsilon-greedy方法,但是epsilon的值非常低,因此对开发的偏向是对勘探的偏向,倾向于选择q值最高的行为而不是随机行为。但是,有时仍会选择随机动作(5%的时间)。 我的问题是:鉴于已经进行了培训,为什么在这一点上根本不需要进行任何探索?如果系统已经学会了最佳策略,那么为什么不总是将行动选择为q值最高的行动呢?难道不应该只在培训中进行探索,然后一旦学会了最佳策略,代理就可以反复选择最佳行动? 谢谢!



1
强化学习算法概述
我目前正在搜索“强化学习算法概述”,也许是它们的分类。但是除了Sarsa和Q-Learning +深度Q-Learning之外,我真的找不到任何流行的算法。 维基百科为我提供了关于不同的通用强化学习方法的概述,但是没有引用实现该方法的不同算法。 但是也许我混淆了一般的方法和算法,并且基本上像其他机器学习领域一样,在这一领域没有真正的分类。可以给我一个简短的介绍,或者只是一个参考,让我开始阅读不同的方法,它们之间的差异以及实现该方法的示例算法吗?

2
非平稳环境中的强化学习
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 13天前关闭。 问题1:一般而言,强化学习中是否有处理非固定环境的通用或公认方法? Q2:在我的网格世界中,当访问状态时,奖励功能会发生变化。每集奖励都会重置为初始状态。我希望我的代理学习的唯一内容是“除非真正需要,否则请不要回去”,但这会使环境不稳定。可以/应该将此非常简单的规则合并到MDP模型中吗?Q学习是解决此问题的最佳解决方案吗?有什么建议或可用的例子吗? Q3:我一直在研究具有经验重播的Q学习,作为应对非固定环境的解决方案,因为它可以消除连续更新的相关性。这是该方法的正确使用,还是更多地用于提高学习效率的方法?而且我只看到它与值近似一起使用。我不确定将其用于简单的离散状态空间(例如gridworld)是否过大,或者有其他原因。 即使您无法解决所有问题,也请随时回答或发表评论。

4
如何解释考克斯风险模型的生存曲线?
您如何从考克斯比例风险模型解释生存曲线? 在这个玩具示例中,假设我们对数据age变量有一个cox比例风险模型kidney,并生成了生存曲线。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 例如,在时间,哪个说法是正确的?还是两者都不对?200200200 陈述1:我们将剩下20%的主题(例如,如果我们有人,那么到200天时,我们应该剩下200个左右), 100010001000200200200200200200 陈述2:对于一个给定的人,他/她有200 20%20%20\%机会在200天生存200200200。 我的尝试:我不认为这两个陈述是相同的(如果我错了,请纠正我),因为我们没有iid假设(所有人的生存时间不是独立地来自一个分布)。在这里我的问题类似于逻辑回归,每个人的危险率取决于该人的。βTxβTx\beta^Tx

1
每个动作只有一个输出单元时,使用神经网络进行Q学习的效率如何?
背景: 我在强化学习任务中使用了神经网络Q值近似。该方法与该问题中描述的方法完全相同,但是问题本身不同。 在这种方法中,输出数量就是我们可以采取的行动数量。简单来说,算法如下:执行动作A,探索奖励,要求NN预测所有可能动作的Q值,选择最大Q值,将特定动作A的Q计算为R + max(new_state_Q)。在预测的Q值上拟合模型,只有其中一个被代替R + max(new_state_Q)。 问题:如果产出数量很大,这种方法的效率如何? 尝试:假设我们可以采取10个动作。在每个步骤中,我们都要求模型预测10个值,而在模型的早期,这种预测就是一团糟。然后,我们修改输出的1个值,并使模型适合这些值。 对于这种方法的优缺点,我有两种相反的想法,无法确定哪种方法是正确的: 从一个角度来看,我们在随机数据上训练每个神经元9次,而在接近实际值的数据上仅训练一次。如果NN在状态S下为动作A预测5,但实际值为-100,则将使NN与值5匹配9次,然后与值-100匹配一次。听起来很疯狂。 从其他角度来看,神经网络的学习是作为错误的反向传播实现的,因此,当模型预测5且我们在5上对其进行训练时,由于错误为0,因此不会学习任何新知识。权重不受影响。并且只有当我们将计算-100并将其拟合到模型中时,它才会进行权重计算。 哪个选项正确?也许还有其他我没有考虑的东西? 更新: “有效率”是指与一种输出(预期回报)的方法进行比较。当然,在这种情况下,动作将是输入的一部分。因此,方法1根据某种状态对所有动作进行预测,方法2对某种状态下采取的特定动作进行预测。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.