我看了很多教程视频,它们看起来一样。例如:https : //www.youtube.com/watch?v=ip4iSMRW5X4
他们解释好的状态,动作和概率。该人很好地解释了这一点,但我似乎无法掌握它在现实生活中的用途。到目前为止,我还没有遇到任何列表。我看到的最常见的是国际象棋。
可以用来预测事物吗?如果是这样,什么类型的东西?是否可以在无限量的数据中找到模式?该算法可以为我做些什么。
奖励:感觉MDP就是要从一种状态过渡到另一种状态,这是真的吗?
我看了很多教程视频,它们看起来一样。例如:https : //www.youtube.com/watch?v=ip4iSMRW5X4
他们解释好的状态,动作和概率。该人很好地解释了这一点,但我似乎无法掌握它在现实生活中的用途。到目前为止,我还没有遇到任何列表。我看到的最常见的是国际象棋。
可以用来预测事物吗?如果是这样,什么类型的东西?是否可以在无限量的数据中找到模式?该算法可以为我做些什么。
奖励:感觉MDP就是要从一种状态过渡到另一种状态,这是真的吗?
Answers:
一个马尔可夫决策过程的确有从一个状态到另一个,主要用于做规划和决策。
只需快速重复一下理论,MDP是:
其中是状态,是动作,是转移概率(即在给定动作下从一个状态变为另一状态的概率),奖励(给定某个状态,并且可能操作),而是折扣因子,用于降低未来奖励的重要性。
因此,要使用它,您需要预先定义:
一旦定义了MDP,就可以通过执行值迭代或策略迭代来学习策略,该策略可以计算每个州的预期奖励。然后,该策略为每个状态提供最佳的操作(给定MDP模型)。
总之,当您要计划一个有效的动作序列(其中动作不一定总是100%有效)时,MDP很有用。
可以用来预测事物吗?
我将其称为计划,而不是像回归那样进行预测。
如果是这样,什么类型的东西?
参见示例。
它可以在无限量的数据中找到模式吗?
MDP用于进行强化学习,以找到您需要的无监督学习模式。不,您不能处理无限量的数据。实际上,查找策略的复杂度随州的数量呈指数增长。
该算法可以为我做些什么。
参见示例。
并且还有更多的模型。一个更有趣的模型是部分可观察的马尔可夫决策过程,其中状态不是完全可见的,而是使用观察来了解当前状态,但这不在此问题的范围内。
如果未来状态的条件概率分布仅取决于当前状态,而不取决于先前状态(即,不取决于先前状态的列表),则随机过程是Markovian(或具有Markov属性)。
states
,actions
,transition probabilities
和rewards
定义将被称为马尔可夫?