“ Eugene Goostman”真的通过了图灵测试吗？

18

据说，“ Eugene Goostman”是一种计算机程序，用于模拟一个13岁的男孩，成功说服了33％的法官是人类，并因此通过了图灵测试。

这个计算机程序，又名聊天机器人，假装是一个13岁的乌克兰男孩，而英语是第二语言，这确实是非常不同的。

对我来说，尤金听起来完全像一个平庸的聊天机器人：重复，无意义，而且杂乱无章。我不知道它是如何说服法官的（这似乎不专业）。

很多人都批评尤金，例如史蒂文·哈纳德教授，他说“这是胡说八道”，“我们还没有通过图灵测试。我们甚至还没有接近。”

意见不一，但我真的想知道它是否正式通过了测试？

也有人说：

从未颁发过的两个一次性奖品。25K是为第一个聊天机器人提供的，该聊天机器人无法将法官与真实的人区分开，并且可以说服法官认为该人是计算机程序。100,000美元是对第一个聊天机器人的奖励，该聊天机器人在图灵测试中（包括解密和理解文本，视觉和听觉输入），无法与真实的人区分开。一旦实现，年度竞赛将结束。

这是否意味着Eugene赢得了$ 25,000？

— 乔治·乔卢布
source

2

法官们必须了解自己的处境，这一点非常重要。

— 托尔比约恩Ravn的安徒生

3

2/3的法官认为这个“机器人”不是人。对我来说，这种互动的人为性质比大多数法官都明显。我认为这显然是失败的。（即使“ Eugene”“赢了”-伪造的人如何收集真钱？BitCoin？：-）

— Bob Jarvis-恢复莫妮卡

您可以提供示例对话吗？我每天与乌克兰人互动，他们说英语的方式很容易辨认。

— Stephan Bijzitter 2015年

18

没有“官方图灵测试”，因此没有“正式通过测试”的概念。图灵描述了一种可用于评估人工智能的方法。尤金·古斯特曼（Eugene Goostman）赢得比赛的组织者以特定方式实施了该方法，并且该计划满足了组织者选择的标准。从这个意义上说，它通过了测试。

由于没有“官方图灵测试”，所以说尤金·古斯特曼通过了图灵测试甚至通过了图灵风格的测试可能更合适。这是不可能的，媒体会挑上这样的细微之处，尤其是考虑到图灵的名气和“的理念的公共良心图灵测试”。

— 大卫·里奇比
source

3

除此之外，尤金·古斯特曼（Eugene Goostman）将在图灵的原始模仿游戏中成为垃圾；-)

— 史蒂夫·杰索普

9

我认为您所指的奖项是Loebner奖。根据Wikipedia页面（请参阅先前的链接），2014年获胜者是Bruce Wilcox的“ Rose”。该程序没有赢得一次性奖金之一，但确实获得了4,000美元的奖金。“尤金·古斯特曼（Eugene Goostman）”参加了2005年和2008年的比赛，两次均获得亚军。

这场比赛'Eugene Goostman'的胜利是由考文垂大学的Kevin Warwick组织的，以纪念Alan Turing逝世60周年。我没有任何奖金。

查看雷·库兹韦尔（Ray Kurzweil）对比赛和有关计划的看法。摘抄：

Warwick教授声称测试是“不受限制的”。但是，让聊天机器人声称自己是13岁的孩子，并且英语不是母语的孩子实际上是一种限制。此外，据报道，互动仅限于五分钟。在如此短的时间内，极有可能欺骗天真的法官。

我与聊天机器人Eugene Goostman聊天，没有留下深刻的印象。尤金（Eugene）不会跟踪谈话，会一遍一遍地重复自己的话，并且经常以典型的聊天机器人为例。

我还发现这是一个不错的评论：有线-那台计算机实际上在图灵测试中得到了F

— 埃里克·休斯
source

1

我也很喜欢Wired，特别是“在1991年的竞赛中，一个名为PC Therapist的机器人能够从十分之八的评委中选出五位来相信它是人类。” 关于“特殊的”> 30％的愚蠢阈值，他说：“因此，图灵测试之父并未将其用作智力的阈值，他只是在说出自己对计算机的未来预测为五十年的预测。 ”

— Fizz

10

总结：Eugene机器人通过模拟人类的愚蠢，并不是通过模拟人类的智力，而是通过了该测试。

— duskwuff 2015年

2

添加一个Wikipedia链接以更深入地了解“原始” 图灵测试。有许多测试称为“图灵测试”。维基百科提到“至少3个主要版本”。Eugeene通过的测试不是这3个。Eugeene通过的测试不是Alan Turing设计的，但这是一个受Turin测试启发的测试，受Alan Turing的启发，Eugeene确实通过了测试。

该部分至少提到了图灵测试的3个主要版本：

索尔·特雷格（Saul Traiger）辩称，图灵测试至少有三个主要版本，其中两个在“计算机和智能计算”中提供，另一个被他称为“标准解释”。尽管有一些争论是关于“标准解释”是图灵描述的，还是基于对他的论文的误读，但这三个版本不被认为是等同的，它们的优缺点是截然不同的。

版本1

图灵的原始游戏描述了一个简单的派对游戏，涉及三名玩家。玩家A是男人，玩家B是女人，而玩家C（扮演询问者的角色）是两性。在模仿游戏中，玩家C无法看到玩家A或玩家B，并且只能通过书面笔记与他们交流。通过询问玩家A和玩家B的问题，玩家C试图确定两者中的哪个是男人，哪个是女人。玩家A的角色是欺骗询问者做出错误的决定，而玩家B则试图协助询问者做出正确的决定。

版本2

第二版后来出现在图灵的1950年论文中。类似于原始模仿游戏测试，玩家A的角色由计算机执行。但是，玩家B的角色是男人而不是女人。在此版本中，播放器A（计算机）和播放器B都试图欺骗询问器做出错误的决定。

版本3

普遍的理解是，图灵测试的目的不是专门确定计算机是否能够欺骗询问者以为它是人，而是计算机是否可以模仿人。尽管对于图灵是否打算使用这种解释存在一些争议-斯特雷特（Serrrett）认为它是第二种版本，因此将其与另一种版本混为一谈，而其他人（例如Traiger）则没有这样做-但是，这导致了可以被视为“标准解释。” 在此版本中，玩家A是计算机，而玩家B是两性。询问器的作用不是确定哪个是男性，哪个是女性，而是哪个是计算机，哪个是人。标准解释的根本问题是询问器无法区分哪个响应者是人，哪个响应者是机器。关于持续时间存在一些问题，但是标准解释通常认为此限制是合理的。

相比之下，Eugeene通过的测试让人类法官与聊天机器人聊天了5分钟，然后他们不得不决定它是否是机器人。

— 彼得-罗伯特·哈维（Unban Robert Harvey）
source

0

是的，它赢得了“ a”图灵测试，该测试尽可能地遵循了艾伦·图灵的原始描述。
然而，这不是25000美元的奖金版本，即洛布纳奖，其规格与艾伦·图灵的描述不同。
更重要的是，艾伦·图灵（Alan Turing）从来没有一开始就意味着要进行真正的测试，因此，如果您确实想知道这一点，那么结果就不是智能的证明。

— 唐·帕特里克
source