什么会激励机器？

12

当前，在AI开发领域内，主要重点似乎在模式识别和机器学习上。学习是基于反馈回路调整内部变量。

马斯洛的需求等级是亚伯拉罕·马斯洛（Abraham Maslow）提出的心理学理论，声称个人的最基本需求必须在他们被激发达到更高层次的需求之前得到满足。

是什么可能促使机器行动呢？机器是否应该具有某种类似于DNA的结构来描述其需求层次（类似于Maslow的理论）？机器的基本需求是什么？

philosophy strong-ai rewards

— 亚历山大·迈德（Aleksei Maiide）
source

1

有趣的问题，欢迎来到AI！（我对这个问题有一些想法，与博弈论有关，其他贡献者也谈到了与算法有关的面向目标的学习。）

— 周公克

1

简单地说就是效用函数。这个答案可能会有所帮助

— Ugnes'17

5

当前实现激励的方法是某种人工奖励。例如，Deepmind的DQN受游戏得分的驱动。分数越高，效果越好。人工智能学会调整自己的动作，以获取最高积分，从而获得最高回报。这称为强化学习。可以说，奖励激励 AI适应其行为。

从一个更专业的术语来看，AI希望最大化效用，这取决于实现的效用功能。在DQN的情况下，这将使游戏中的得分最大化。

人类的大脑以相似的方式运行，尽管稍微复杂一些，而且通常不那么简单。作为人类，我们通常试图调整自己的行动以产生高输出的多巴胺和5-羟色胺。这类似于强化学习期间用于控制AI的奖励。人脑了解哪些动作产生最多的那些物质，并找到使输出最大化的策略。当然，这是此复杂过程的简化，但是您可以理解。

当谈论动力时，请不要将其与意识或情绪混为一谈。根本不需要那些。如果您想讨论人工智能中的意识和素质，那是完全不同的球类游戏。

为了好奇，孩子并不好奇。进行探索时，它得到了积极的加强，因为孩子大脑的效用功能通过释放有益的神经递质来奖励探索。因此机制是相同的。将其应用于AI意味着定义一种奖励新体验的效用函数。没有某种强化的奖励，就没有内在的动力。

— 德门托
source

关于编辑，我认为“奖励新经验的效用函数”的一个很好的例子是肯斯坦利提出的新颖搜索适应度函数，该函数将用于他的整洁算法中。

— nickw

5

实际上，这是一个有趣的问题。

杰夫·霍金斯（Jeff Hawkins）和桑德拉·布雷克斯利（Sandra Blakeslee）撰写的《论智力》一书中有一个关于“好奇心可以从哪里起源”的相当现实的想法。

它基于以下语句：

心灵为存在的世界创造了自己的模型。
它总是对所有事情进行预测（实际上，Jeff Hawkins指出这是智能的主要特征）。
如果对某事的预测没有遵循世界的适当行为，那么这件事在脑海中将变得非常有趣（模型是错误的，应予以纠正），因此需要更多关注。

例如，当您看着左眼时，您的大脑会预测这是一张人脸，而右眼应该是第二只眼。您向右看，看到..鼻子！真是惊喜！现在，它吸引了您的全部注意力，并且您有动力对这种不适合您的模型的奇怪事物进行更多观察。

因此，我想说AI可能会根据其模型做出某些确定的决定，或者在它对世界所做的预测为真时随机地表现。但是一旦打破了某些预测，人工智能就会动机对其模型进行纠错。

在一个简单的例子中，一台机器完全以随机性开始，只需要对其输出进行所有操作即可。当它没有模型或随机模型时，当它检测到某种顺序或重复的模式时，就会变得“感兴趣”并将其添加到模型中。一段时间后，模型变得更加复杂，做出了更复杂的预测并检测到模型中的更高级别的错误。慢慢地，它知道该怎么做才能观察到它有趣的事物，而不仅仅是记住所有事情。

— 伊万·博古什（Ivan Bogush）
source

感谢您的贡献！我得出的结论基本相同……现在正在考虑一种实现方法：）

— Aleksei Maide

这个答案很重要。预测模型上的错误校正将极大地激励智能AI以好奇的方式学习和行动。

— 塞斯·辛巴

3

在强化学习课程的第一讲中，我问了理查德·萨顿教授一个类似的问题。似乎有多种激励机器的方法。实际上，在我看来，机器动力就像是一个专门的研究领域。

通常，机器受我们称为目标函数或成本函数或损失函数的激励。这些是同一概念的不同名称。有时，它们用

L (a)

$L(a)$

$\min_a L(a)$ $\max_a L(a)$ $L$

— 拉沙德
source

1

我花了一些时间在游戏方面考虑这一点。

奖励函数的问题在于它们通常涉及加权节点，这很有用，但最终在实质上没有意义。

以下是两个有意义的奖励：

计算资源

考虑一个AI竞争不是争分夺秒，而是争夺处理器时间和内存的游戏。

该算法在游戏中执行得越好，它可以访问的内存和处理就越多。这具有实际效果-自动机可用的资源越多，其功能越强大。（即，就时间和空间而言，做出决定的合理性较少。）因此，该算法将被“激励”以胜出此类竞赛。

能源

任何具有足够“自我意识”的自动机（在此特别指的是它需要能量进行处理的知识）都将被激励进行自我优化，以消除不必要的位翻转（不必要的能量消耗）。

这样的算法也将被激励以确保其电源，以便其能够继续起作用。

— DukeZhou
source