我们可以按以下方式分解问题:
<x0,y0,x1,y1>(x0−y0)2+(x1−y1)2−−−−−−−−−−−−−−−−−−√
<x0,y0,x1,y1>
当然,没有理由在两个单独的神经网络中执行此操作,因此我们可以将两个端到端模型结合起来,以图像作为输入,距离作为输出。
但是,此模型需要在标记的数据上进行训练,因此您需要自己生成数据或标记图像。
但是,如果您希望它学习以一种较少监督的方式来学习缩小距离的概念,则需要使用强化学习。在这种情况下,您必须设置一个使代理人兴奋的环境以缩短距离。如果行动减少了距离,这就像获得奖励一样简单。
另一种方法是使用未来奖励来激励代理商。也就是说,它的奖励不仅来自下一个即时状态的结果,而且还来自下一个可能状态的贡献,以及下一个可能状态的贡献,依此类推。这是Deep Q-Learning背后的思想,我在此笔记本中实现了一个简单的示例(与您所描述的非常相似)。
因此,现在的问题是:这种实现是否除了随机移动直到走上成功之路之外还做了其他事情?
在您的示例中,您谈论的是当代理商到达目标时对其进行奖励。但是按照我的描述,它通过接近目标(通过Q函数或直接从环境中)而获得了回报。它可以通过学习距离的抽象概念来实现(可以在受监管的版本中进行说明)。
当人们了解到这一点时,这是出于相同的确切原因:通过获得未来的回报感,人类朝着这个方向前进已经获得了回报。
我想说,只要有足够的培训和数据,强化学习就可以轻松地学习这个概念。至于董事会中存在的其他奖励(例如,“最小化董事会的熵并尝试获得奖励”),则需要考虑您要问的是什么。您希望代理人将距离最小化还是将报酬最大化?因为,一般来说,两者不能兼而有之。如果您正在两者之间寻求某种平衡,那么实际上您只是在重新定义奖励以考虑距离。