Lovelace Test 2.0是否已在学术环境中成功使用?


18

最初的Lovelace测试(于2001年发布)的启发,2014年10月,Mark Riedl博士发布了一种测试AI智能的方法,称为“ Lovelace Test 2.0”。马克认为原始的Lovelace测试无法通过,因此建议使用较弱的实用版本。

Lovelace Test 2.0做出这样的假设:要使AI变得智能,它就必须表现出创造力。从论文本身来看:

Lovelace 2.0测试如下:人工试剂a受到以下挑战:

  • 必须创建类型为t的工件o;

  • o必须符合一组约束C,其中ci∈C是可以用自然语言表达的任何准则;

  • 选择了t和C的人类评估者h确信o是t的有效实例并且满足C;和

  • 裁判员确定t和C的组合对于普通人而言并非不切实际。

由于人工评估者可能会提出一些非常简单的约束来击败AI,因此期望人工评估者不断为AI提出越来越复杂的约束,直到AI失效为止。Lovelace测试2.0的重点是比较不同AI的创造力,而不是像图灵测试那样在“智能”和“非智能”之间提供明确的分界线。

但是,我很好奇这个测试是否实际上已在学术环境中使用,或者目前仅被视为一项思想实验。Lovelace测试似乎很容易在学术环境中应用(您只需要开发一些可测量的约束即可用于测试人工代理),但是它也可能过于主观(人类可以就某些约束的优缺点以及是否对某些约束持不同意见)。由AI产生的创意人工产物实际上达到了最终结果)。

Answers:


5

没有。

TL; DR:Lovelace测试2.0非常含糊,使其不适合评估智力。计算创造力的研究人员通常也忽略了这一点,他们已经有自己的测试来评估创造力。

更长的答案:根据Google学术搜索,“ Lovelace Test 2.0”论文有10篇参考文献。所有这些参考文献的存在只是为了指出Lovelace Test 2.0的存在。实际上,我咨询过的至少两篇文章(一种用于识别类似人的自觉行为的新颖方法以及FraMoTEC:用于评估自适应控制系统的模块化任务-环境构建框架)提出了自己的测试。

撰写FraMoTEC论文的一位作者也撰写了有关FraMoTEC的论文,并间接批评了Lovelace Test 2.0和其他类似的测试:

Piaget-MacGyver Room问题[Bringsjord和Licato,2012],Lovelace Test 2.0 [Riedl,2014]和Toy Box问题[Johnston,2010]都带有非常模糊地定义的警告-这些评估方法可能会出现对智能进行合理的评估,但是很难比较参与各自域特定评估的两个不同的代理(或控制器),这是为代理量身定制以通过特定评估时经常发生的情况。

Lovelace Test 2.0的另一个主要问题是,存在大量其他测试来“衡量” AI的创造力。评估评估:评估计算创造力研究的进展,该书由Anna Jordanous于2011年出版(比Lovelace测试2.0的发明 3年),分析了有关AI创造力的研究论文,并写道:

在18篇应用创造力评估方法来评估其系统创造力的论文中,没有一种方法成为整个社区的标准。Colton的创意三脚架框架(Colton 2008)使用最频繁(6次使用),其中有4篇论文使用了Ritchie的经验标准(Ritchie 2007年)。

剩下十个篇论文使用了各种创造力评估方法。

“评估评估”的目的是使评估创造力的过程标准化,以避免由于众多创造力测试的泛滥而导致领域停滞的可能性。安娜·乔丹尼斯(Anna Jordanous)仍然对评估创造力测试保持兴趣,发表了诸如“逐步退步:为计算创造力的元评估设定标准”关于计算创造力的四个PPP观点等文章

“评估评估”确实提供了一些解释,以解释评估创造力的系统的扩散:

评估标准不容易定义。评估创造力非常困难,甚至很难描述我们如何评估创造力,无论是人类创造力还是计算创造力。实际上,就连创造力的定义都是有问题的(Plucker,Beghetto和Dow 2004)。很难确定“创造力”意味着什么,因此没有基准或可用来衡量的事实。

已经存在如此多的创造力测试(在某种程度上,乔丹尼斯(Jordanous)可以在学习这些知识的过程中从事学术职业)的事实意味着,任何新的测试(例如Lovelace Test 2.0)都很难被发现(被引用的更少) )。当您可以使用很多其他测试时,为什么还要使用Lovelace Test 2.0之类的东西呢?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.