Questions tagged «reinforcement-learning»

一组动态策略,算法可通过该策略通过自适应地采取与不同奖励相关联的动作来在线学习环境的结构,以使所获得的奖励最大化。

1
强化学习算法概述
我目前正在搜索“强化学习算法概述”,也许是它们的分类。但是除了Sarsa和Q-Learning +深度Q-Learning之外,我真的找不到任何流行的算法。 维基百科为我提供了关于不同的通用强化学习方法的概述,但是没有引用实现该方法的不同算法。 但是也许我混淆了一般的方法和算法,并且基本上像其他机器学习领域一样,在这一领域没有真正的分类。可以给我一个简短的介绍,或者只是一个参考,让我开始阅读不同的方法,它们之间的差异以及实现该方法的示例算法吗?

2
非平稳环境中的强化学习
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 13天前关闭。 问题1:一般而言,强化学习中是否有处理非固定环境的通用或公认方法? Q2:在我的网格世界中,当访问状态时,奖励功能会发生变化。每集奖励都会重置为初始状态。我希望我的代理学习的唯一内容是“除非真正需要,否则请不要回去”,但这会使环境不稳定。可以/应该将此非常简单的规则合并到MDP模型中吗?Q学习是解决此问题的最佳解决方案吗?有什么建议或可用的例子吗? Q3:我一直在研究具有经验重播的Q学习,作为应对非固定环境的解决方案,因为它可以消除连续更新的相关性。这是该方法的正确使用,还是更多地用于提高学习效率的方法?而且我只看到它与值近似一起使用。我不确定将其用于简单的离散状态空间(例如gridworld)是否过大,或者有其他原因。 即使您无法解决所有问题,也请随时回答或发表评论。

4
如何解释考克斯风险模型的生存曲线?
您如何从考克斯比例风险模型解释生存曲线? 在这个玩具示例中,假设我们对数据age变量有一个cox比例风险模型kidney,并生成了生存曲线。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 例如,在时间,哪个说法是正确的?还是两者都不对?200200200 陈述1:我们将剩下20%的主题(例如,如果我们有人,那么到200天时,我们应该剩下200个左右), 100010001000200200200200200200 陈述2:对于一个给定的人,他/她有200 20%20%20\%机会在200天生存200200200。 我的尝试:我不认为这两个陈述是相同的(如果我错了,请纠正我),因为我们没有iid假设(所有人的生存时间不是独立地来自一个分布)。在这里我的问题类似于逻辑回归,每个人的危险率取决于该人的。βTxβTx\beta^Tx

1
每个动作只有一个输出单元时,使用神经网络进行Q学习的效率如何?
背景: 我在强化学习任务中使用了神经网络Q值近似。该方法与该问题中描述的方法完全相同,但是问题本身不同。 在这种方法中,输出数量就是我们可以采取的行动数量。简单来说,算法如下:执行动作A,探索奖励,要求NN预测所有可能动作的Q值,选择最大Q值,将特定动作A的Q计算为R + max(new_state_Q)。在预测的Q值上拟合模型,只有其中一个被代替R + max(new_state_Q)。 问题:如果产出数量很大,这种方法的效率如何? 尝试:假设我们可以采取10个动作。在每个步骤中,我们都要求模型预测10个值,而在模型的早期,这种预测就是一团糟。然后,我们修改输出的1个值,并使模型适合这些值。 对于这种方法的优缺点,我有两种相反的想法,无法确定哪种方法是正确的: 从一个角度来看,我们在随机数据上训练每个神经元9次,而在接近实际值的数据上仅训练一次。如果NN在状态S下为动作A预测5,但实际值为-100,则将使NN与值5匹配9次,然后与值-100匹配一次。听起来很疯狂。 从其他角度来看,神经网络的学习是作为错误的反向传播实现的,因此,当模型预测5且我们在5上对其进行训练时,由于错误为0,因此不会学习任何新知识。权重不受影响。并且只有当我们将计算-100并将其拟合到模型中时,它才会进行权重计算。 哪个选项正确?也许还有其他我没有考虑的东西? 更新: “有效率”是指与一种输出(预期回报)的方法进行比较。当然,在这种情况下,动作将是输入的一部分。因此,方法1根据某种状态对所有动作进行预测,方法2对某种状态下采取的特定动作进行预测。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.