图灵测试的特殊要求


9

图灵测试的具体要求是什么?

  • 评估人员必须满足哪些要求才能有资格进行测试?
  • 对话中必须总是有两个参与者(一个人和一台计算机),还是可以有更多参与者?
  • 是否允许或鼓励进行安慰剂测试(实际上不涉及计算机)?
  • 可以有多个评估者吗?如果是这样,为了使机器通过测试,是否需要在所有评估者之间达成一致的决定?

Answers:


9

“图灵测试”通常是指艾伦·图灵在1951年同名论文中提出的模仿游戏的更新版本。早期的版本有一个人(男性或女性)和一台计算机,法官必须决定哪一个是谁,以及如果是人类,他们是什么性别。如果正确率低于50%,则计算机被视为“智能”计算机。

当前普遍接受的版本仅需要一名参赛者和一名法官来决定是人还是机器。因此,是的,如果我们将人类视为安慰剂,有时这将是安慰剂。

您的第一个和第四个问题是相关的-没有严格的准则。如果计算机可以欺骗更多的法官,那么它当然会被认为是更好的AI。

多伦多大学在本文中有关于Turing的有效性部分,其中包括与Jason Hutchens关于为何Turing测试可能不相关(人类也可能不通过)的评论的链接以及Loebner奖Loebner奖是Turing的正式实例。测试。


2

我确实可以看到两个问题。一个是“如图灵本人所说,原始图灵测试的具体要求是什么?” 另一个是“现代图灵测试的具体要求是什么?” 自图灵时代以来,事情发展了很多,我认为我们有理由考虑扩展/修改他的测试以反映我们当前的理解,这是合理的。

第一个问题的答案很容易查找,因此我认为有趣的是第二个问题。确定智力的测试应该是什么样的?考虑到这一点,我认为《任择议定书》提出的所有四个问题的答案都是“取决于”。我认为关于如何构建完美的图灵测试没有普遍共识,因此,给定的实验人员真的可以自由地设置自己想要的东西。

当然,所有这些都是基于这样的假设,即图灵测试或类似图灵测试的测试实际上是有价值的。这不一定是给定的。考虑到某种程度上,我们在谈论的是设计一种具有卓越欺骗能力的AI!也就是说,假设允许提问者简单地问“您是人类”,那么我们就必须假设,如果AI要通过测试,就应该撒谎。因此,一个人可能会正确地问,设计一种真正善于说谎的系统,是一种有价值的AI方法吗?


0

如果您想了解相对论,请阅读Einstein 1,2,而不是由一位认为自己掌握了相对论的教授撰写的关于相对论的书。如果您想了解Alan Turing在人际对话中对智力的测试,请阅读Turing。3 解释可能比一文不值更糟。他们经常会产生误导。如果原则看起来太过粗略,请重新阅读,直到理解为止。

对于图灵在人类对话中进行的智力测验,要完全理解它,在写图灵时假定了以下背景,如果您阅读他的1950年文章,该背景将变得显而易见。

  • 图灵的不完全性定理如何响应库尔特·哥德尔的第二个不完全性定理
  • 受控测试的策略
  • (a)听力和口语与(b)聆听和机智的响应之间的区别-今天这尤其相关,因为聊天机器人可以(a)进行,并且距(b)可能相隔5至500年。为了获得(c)深刻的理解和启发,人工智能研究人员必须超越对人类思维的建模,并应对对哥德尔,爱因斯坦和图灵等人的思维建模的挑战。这种情况是否会发生尚未揭晓。

模仿游戏的特殊要求,是艾伦·图灵在其思想实验的描述上方的副标题,是有记录的。

具体要求[摘自实际文章]

[模仿游戏]由三个人(男人(A),女人(B)和审讯员(C))玩,他们可能是两性。审讯员与另外两个人呆在一个房间里。对于询问者来说,游戏的目的是确定其他两个中的哪个是男人,哪个是女人。他通过标签X和Y认识它们,并在游戏结束时说“ X是A而Y是B”或“ X是B而Y是A”。审问员被允许向A和B提问,因此:

C:X请告诉我他或她的头发的长度吗?

现在假设X实际上是A,那么A必须回答。试图使C做出错误的识别是游戏中A的对象。因此,他的答案可能是:

“我的头发是带状的,最长的一束长约九英寸。”

为了使语音音调不会对询问器有所帮助,应该写出答案,或者最好是打字。理想的安排是让电传打印机在两个房间之间进行通信。可替代地,问题和答案可以由中介重复。第三位玩家(B)的游戏目标是帮助审问者。

对她来说最好的策略可能是给出真实的答案。她可以添加诸如“我是女人,不听他的话!”之类的内容。她的回答,但无济于事,因为男人可以发表类似的言论。

现在我们问一个问题:“当机器在游戏中加入A的部分时,会发生什么?” 像这样在男女之间进行游戏时,询问者是否会经常错误地做出决定?这些问题取代了我们原来的“机器可以思考吗?”

对爱因斯坦的相对论和图灵的检验都有成千上万的批评,但都没有增加多少价值。用自己的话语研究伟大贡献者的思想,随之而来的所有垃圾都会因为缺乏伟大而引起人们的兴趣。

此主题中的次要问题

评估人员必须满足哪些要求才能有资格进行测试?

询问者(C)不是评估者。评估将是一种客观的尝试,但是,图灵的思想实验的前提是审问者提供她或他的主观判断。从统计的角度来看,应从与(A)和(B)共享口语的世界人口中随机选择询问器。

对话中必须总是有两个参与者(一个人和一台计算机),还是可以有更多参与者?

必须有两个完全适合Alan Turing所描述的方案。(有关更多详细信息,请参见下文。)

是否允许或鼓励进行安慰剂测试(实际上不涉及计算机)?

一个人可以测试各种各样的东西,但是研究人员可以做到,但这超出了图灵的思想实验范围。4

可以有多个评估者吗?如果是这样,为了使机器通过测试,是否需要在所有评估者之间达成一致的决定?

向赞助实际模仿游戏的人提供最多信息的是双盲完全随机测试,其中随机抽取了那些男性,女性或软件样本中的(A),(B)和(C)可以用一种通用语言进行交流的被测类型的系统,并且可以从样本中随机选择进行多次测试。

如果一个人坚持图灵最初关于“计算机可以思考吗?”这个问题的初衷,那么除测试所指定的以外,一致,评估,额外的复杂性和沟通只会使原因受挫。

其他情报观点

图灵与RenéDescartes一样,后者指出机器永远不会通过控制程度较低的图灵模仿游戏,他们通过对话的视角看到了情报。其他人则考虑了对话以外的其他类型的对话和其他上下文。我在另一个问题中解决了这个问题:

没有身体,大脑可以聪明吗?

参考和脚注

[1] 相对性:阿尔伯特·爱因斯坦的特殊理论和一般理论,1916年

[2] 相对论,爱因斯坦(Albert Einstein)和弗朗西斯·戴维斯(Francis A. Davis),1923年

[3] AM Turing(1950年),《计算机械与情报》。心理49:433-460。 https://www.csee.umbc.edu/courses/471/papers/turing.pdf

[4] Turing在1950年发表的文章中并不建议他的思想实验应体现并用于未来AI系统的商业验证。但是,艾伦·图灵(Alan Turing)在职业生涯的某个特定时刻就开始关注实用计算。那是纳粹分子在法国的统治下,正在空中粉碎他的家园,并借助恩尼格玛密码术从下方沉没了很大一部分英国海军。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.