图灵测试或其任何变体是否是可靠的人工智能测试?


35

图灵测试是人工智能的第一个测试,现在有点过时。该总图灵测试的目标是成为一个更现代的测试,需要一个更复杂的系统。我们可以使用哪些技术来识别人工智能(弱AI)和人工智能(强AI)?


6
肯定需要有很多参与者的统计方法。我遇到了一些不会通过图灵测试的人。
SF。

1
这取决于您将智能定义为什么。
baranskistad

Answers:


16

图灵测验的修辞点在于,将“人性”的“测验”置于可观察到的结果中,而不是内部因素中。如果你将表现相同的,你会与人工智能交互一个人,怎么会,你知道它们之间的区别?

但这并不意味着它是可靠的,因为智能具有许多不同的组成部分,并且有多种智能任务。从某些方面来看,图灵测试是关于人们对行为的反应,这根本不可靠-请记住,许多人认为ELIZA(一个非常简单的聊天机器人)是优秀的倾听者,并且很快就深深地融入了情感。它让我想到宜家广告商扔掉一盏灯,这种情感依恋来自观众(和音乐),而不是灯。

针对特定的经济活动进行图灵测试实际上更加有趣-例如,如果可以编写替代Uber驱动程序的AI,那么与有人可以创建对话型聊天机器人相比,这意味着更清楚。


10

图灵测试的问题在于它测试了机器模仿人类的能力。不一定每种形式的AI都必须像人类。这使得图灵测试不那么可靠。但是,它仍然是有用的,因为它是实际测试。同样值得注意的是,有一项通过或最接近通过图灵测试的奖项,即勒布纳奖

智能体的智能体定义表明,如果智能体根据过去的经验和知识采取行动以最大化绩效评估的预期值,则该智能体是智能的。(摘自Wikipedia)。该定义被更频繁地使用,并且不依赖于类似于人类的能力。但是,很难对此进行测试。


7

经典的图灵测试确实有局限性。因为我在这里还没有看到它,所以我建议您阅读《中国房间》,这是图灵测验确实未能确定真正的“意识”的最常被引用的原因之一。但是,我还要指出的是,在提出图灵测验的原始论文中,图灵本人明确承认自己该测验不是检测意识的测验

我建议考虑以下问题:“机器可以思考吗?” 这应该从术语“机器”和“思考”的含义的定义开始。定义的框架可能会尽可能地反映这些词的正常使用,但是这种态度很危险,如果要通过检查“机器”和“思考”两个词的含义来找到它们的含义,很难得出这样的结论:“机器可以思考吗?”这个问题的含义和答案。可以在统计调查(例如盖洛普民意调查)中寻求。但这是荒谬的。我不会尝试这样的定义,而是将其替换为另一个与此问题密切相关的问题,并用相对明确的词来表达。

问题的新形式可以用我们称为“模仿游戏”的游戏来描述。

这款模仿游戏是我们如今所知道的测试(也是本尼迪克特·坎伯巴奇(Benedict Cumberbatch)和凯拉·奈特利(Keira Knightley)主演的近期故事片名称的灵感)。


1
好答案。我也同意从“模仿游戏”到“图灵测试”的转变导致了对后果的一些深刻误解。(Pornbots一直通过图灵测试;)
DukeZhou

5

野外有许多关于人工智能的定义。所有这些定义都是一个(或多个)领域的一部分。有四个主要领域,下面的图片将对此有所启发。

在此处输入图片说明



图灵测试围绕基数的左侧旋转,该基数主要与人类的思维或行为方式有关。但是,我们知道这还不是全部。就一般意义上的AI而言,图灵测试没有太多提供。
如Wikipedia所述,创建Turing Test是为了测试表现出与人类同等或难以区分的行为的机器。人工智能远远超出了人类的能力或行为方式。许多人类行为被认为是不明智的,有时甚至是不人道的。
中文室争论主要针对“意识v / s意识模拟”的重要内容。。约翰·塞尔(John Searle)认为,机器(或人)可以遵循大量预定义的规则(算法)来完成任务,而无需思考或拥有思维。弱的AI擅长模拟理解能力,但并不能真正理解它们在做什么。他们没有表现出“自我意识”,也没有形成关于自己的代表。“我想要那个我想要的v / s”是两件不同的事情。

正如“心智论”所指出的那样,一个好的AI不仅应该代表它所从事的世界,而且还应该代表世界上的其他主体和实体。自我意识和心理理论这两个概念在弱者AI和强者AI之间划了一条界限。

当涉及图灵测试时,它会基于许多原因而失败,因此总图灵测试也会失败,这会在测试中增加另一层。大多数研究人员认为,图灵测试只是对主要目标的干扰,这阻碍了他们取得丰硕的成果。考虑到这一点,假设您问一个困难的算术问题以便区分人机。如果机器要假装它是人的话,那它就会撒谎。这不是我们想要的。进行图灵测试将设置可以创建的AI的上限。使AI像人一样行动和举止也不是一个好主意。人类并非总是善于做出正确的决定。这就是为什么我们在历史书中读到战争的原因。我们做出的决定经常带有偏见,有自私的起源,等等。我们不会

我认为没有一项测试可以测试AI。这是因为AI具有许多定义,许多类型。在寻找诸如“我想要那个我想知道的那个v / s”,“我是谁,我到底在做什么(从机器的角度来看)”这样的问题的答案时,可以标记一个AI是弱是强。我上面提到的其他一些问题。


3

这取决于如何给出测试。例如,当人们声称机器几年前成功通过了图灵测试时,该标准相当薄弱。它只需要愚弄30%的人5分钟。那不是一个测试。从这个角度来看,您可能不会使用此标准检测到精神分裂症,自闭症,学习障碍或痴呆症。

尽管进行了大肆宣传,但仍可以使用相当简单的问题在100%的时间内检测到当前的AI。


好点子。“给出足够多的问题……” (当然,在有限数量的问题上,对 Voight-Kampff进行测试似乎非常有效;)
周四(DukeZhou)

2

图灵测试或其任何变体是否是可靠的人工智能测试?

近视

是的,如果有人根据艾伦·图灵(Alan Turing)的模仿游戏或其变体之一来定义“人工智能”一词。同时,由于人们在AI出现之前就对该词进行了解释,因此该方法可能既有效又非常有限,无法作为对智力的定义。

成熟的情报

因此,有许多替代方法可以通过人工或其他方式来测量智能。

  • 成为国际象棋大师
  • 编写成功的国际象棋程序
  • 获得高度国际认可的奖项
  • 制定赢得战争或和平的战略
  • 克服数以千计的因商业或政治原因而导致的淘汰,成为总统
  • 撰写出色的文章,论文,电影剧本,演讲,演讲,书籍或诗歌,从而产生重大的人类范式转变
  • 在Mensa测试中显示天才水平结果
  • 成为世界上最富有的人之一

正常智力的正常测量

但是,这些都是对某种特殊智能的衡量,主要是因为这些领域的领导者已经可靠地将智能应用于多个领域,从而在多个现实生活场景中取得了巨大的成功。可靠性是拥有智力的人的属性,而不是智力本身的考验。

这些是更平凡的,但也许更有效和可靠的智力测度。

  • 通过对家人成员的亲朋好友进行认真的访谈,可以养育出健康可亲的孩子
  • 重复成功地对许多不同类型的疾病进行补救,这些疾病曾经被识别为某种有形和可衡量的方式被破坏,并且由于运用了智力理解,分析和补救措施而被发现可以进行纠正
  • 对话中的参与者可以衡量对话智能,将自己的成功归因于对话者提出​​的想法和例子

真正想要的最终目标是什么?

图灵测试的主要特征也许是它是人造的。如果人工智能是我们从AI软件中获得的,那么这就是我们将得到的。但是,很可能我们想要更多或更少的东西。

我们希望更多,因为最好有一些计算机可以成为我们的朋友,导师和无薪雇员,这些雇员具有出色的能力,可以使我们在收入,影响力,知名度或传统方面取得个人成功。

我们希望少一些,因为我们希望某些计算机执行特定领域的任务并保持完全服从的工具,也许具有个性和热情,例如我们给人名的船或某些其他复杂设备,但又没有深远的功能的不可预测性智慧。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.