马尔可夫决策过程的真实例子


20

我看了很多教程视频,它们看起来一样。例如:https : //www.youtube.com/watch?v=ip4iSMRW5X4

他们解释好的状态,动作和概率。该人很好地解释了这一点,但我似乎无法掌握它在现实生活中的用途。到目前为止,我还没有遇到任何列表。我看到的最常见的是国际象棋。

可以用来预测事物吗?如果是这样,什么类型的东西?是否可以在无限量的数据中找到模式?该算法可以为我做些什么。

奖励:感觉MDP就是要从一种状态过渡到另一种状态,这是真的吗?

Answers:


28

一个马尔可夫决策过程的确有从一个状态到另一个,主要用于做规划决策

理论

只需快速重复一下理论,MDP是:

MDP=S,A,T,R,γ

其中是状态,是动作,是转移概率(即在给定动作下从一个状态变为另一状态的概率),奖励(给定某个状态,并且可能操作),而是折扣因子,用于降低未来奖励的重要性。SATPr(s|s,a)Rγ

因此,要使用它,您需要预先定义:

  1. 状态:例如,这些可以引用机器人技术中的网格图,也可以参考门打开门关闭
  2. 动作:一组固定的动作,例如机器人朝北,朝南,朝东等,或打开和关闭门。
  3. 转移概率:给定动作从一种状态转变为另一种状态的概率。例如,如果动作打开,则打开门的概率是多少。在理想情况下,后者可能是1.0,但如果是机器人,则可能无法正确处理门把手。在移动机器人的情况下,另一个例子是向北的动作,在大多数情况下会将其带到其北部的网格单元中,但是在某些情况下,它可能移动得太多并到达了下一个单元。
  4. 奖励:用于指导计划。在网格示例的情况下,我们可能要转到某个特定的单元格,如果距离越近,奖励将越高。以开门为例,开着的门可能会得到很高的回报。

一旦定义了MDP,就可以通过执行值迭代策略迭代来学习策略,该策略可以计算每个州的预期奖励。然后,该策略为每个状态提供最佳的操作(给定MDP模型)。

总之,当您要计划一个有效的动作序列(其中动作不一定总是100%有效)时,MDP很有用。

你的问题

可以用来预测事物吗?

我将其称为计划,而不是像回归那样进行预测。

如果是这样,什么类型的东西?

参见示例

它可以在无限量的数据中找到模式吗?

MDP用于进行强化学习,以找到您需要的无监督学习模式。不,您不能处理无限量的数据。实际上,查找策略的复杂度随州的数量呈指数增长。|S|

该算法可以为我做些什么。

参见示例

MDP的应用示例

并且还有更多的模型。一个更有趣的模型是部分可观察的马尔可夫决策过程,其中状态不是完全可见的,而是使用观察来了解当前状态,但这不在此问题的范围内。

附加信息

如果未来状态的条件概率分布仅取决于当前状态,而不取决于先前状态(即,不取决于先前状态的列表),则随机过程是Markovian(或具有Markov属性)。


2
这可能是我在交叉验证中见过的最清晰的答案。
隐藏的马尔可夫模型

您是否有机会修复链接?其中一些似乎已损坏或过时。
ComputerScientist

因此,具有任何处理statesactionstransition probabilitiesrewards定义将被称为马尔可夫?
Suhail Gupta
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.