没有。
TL; DR:Lovelace测试2.0非常含糊,使其不适合评估智力。计算创造力的研究人员通常也忽略了这一点,他们已经有自己的测试来评估创造力。
更长的答案:根据Google学术搜索,“ Lovelace Test 2.0”论文有10篇参考文献。所有这些参考文献的存在只是为了指出Lovelace Test 2.0的存在。实际上,我咨询过的至少两篇文章(一种用于识别类似人的自觉行为的新颖方法以及FraMoTEC:用于评估自适应控制系统的模块化任务-环境构建框架)提出了自己的测试。
撰写FraMoTEC论文的一位作者也撰写了有关FraMoTEC的论文,并间接批评了Lovelace Test 2.0和其他类似的测试:
Piaget-MacGyver Room问题[Bringsjord和Licato,2012],Lovelace Test 2.0 [Riedl,2014]和Toy Box问题[Johnston,2010]都带有非常模糊地定义的警告-这些评估方法可能会出现对智能进行合理的评估,但是很难比较参与各自域特定评估的两个不同的代理(或控制器),这是为代理量身定制以通过特定评估时经常发生的情况。
Lovelace Test 2.0的另一个主要问题是,存在大量其他测试来“衡量” AI的创造力。评估评估:评估计算创造力研究的进展,该书由Anna Jordanous于2011年出版(比Lovelace测试2.0的发明早 3年),分析了有关AI创造力的研究论文,并写道:
在18篇应用创造力评估方法来评估其系统创造力的论文中,没有一种方法成为整个社区的标准。Colton的创意三脚架框架(Colton 2008)使用最频繁(6次使用),其中有4篇论文使用了Ritchie的经验标准(Ritchie 2007年)。
剩下十个篇论文使用了各种创造力评估方法。
“评估评估”的目的是使评估创造力的过程标准化,以避免由于众多创造力测试的泛滥而导致领域停滞的可能性。安娜·乔丹尼斯(Anna Jordanous)仍然对评估创造力测试保持兴趣,发表了诸如“逐步退步:为计算创造力的元评估设定标准”和关于计算创造力的四个PPP观点等文章。
“评估评估”确实提供了一些解释,以解释评估创造力的系统的扩散:
评估标准不容易定义。评估创造力非常困难,甚至很难描述我们如何评估创造力,无论是人类创造力还是计算创造力。实际上,就连创造力的定义都是有问题的(Plucker,Beghetto和Dow 2004)。很难确定“创造力”意味着什么,因此没有基准或可用来衡量的事实。
已经存在如此多的创造力测试(在某种程度上,乔丹尼斯(Jordanous)可以在学习这些知识的过程中从事学术职业)的事实意味着,任何新的测试(例如Lovelace Test 2.0)都很难被发现(被引用的更少) )。当您可以使用很多其他测试时,为什么还要使用Lovelace Test 2.0之类的东西呢?