监督学习是强化学习的子集吗?


Answers:


24

的确,任何监督学习问题都可以看作是等效的强化学习问题:让状态对应于输入数据。让动作对应于输出的预测。将奖励定义为用于监督学习的损失函数的负值。最大化期望的回报。相反,强化学习问题通常不能被视为监督学习问题。因此,从这个角度来看,监督学习问题是强化学习问题的一部分。

但是,尝试使用通用强化学习算法解决有监督的学习问题将毫无意义。所有这些都是丢弃的结构,该结构会使问题更易于解决。强化学习中出现了与监督学习无关的各种问题。而且,监督学习可以受益于一般强化学习环境中不适用的方法。因此,尽管各领域之间存在一些通用的基本原理和共享技术,但通常不会将监督学习视为强化学习的一种。

参考文献

Barto and Dietterich(2004)。强化学习及其与监督学习的关系。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.