Lovelace Test 2.0是否已在学术环境中成功使用？

受最初的Lovelace测试（于2001年发布）的启发，2014年10月，Mark Riedl博士发布了一种测试AI智能的方法，称为“ Lovelace Test 2.0”。马克认为原始的Lovelace测试无法通过，因此建议使用较弱的实用版本。

Lovelace Test 2.0做出这样的假设：要使AI变得智能，它就必须表现出创造力。从论文本身来看：

Lovelace 2.0测试如下：人工试剂a受到以下挑战：

必须创建类型为t的工件o；

o必须符合一组约束C，其中ci∈C是可以用自然语言表达的任何准则；

选择了t和C的人类评估者h确信o是t的有效实例并且满足C；和

裁判员确定t和C的组合对于普通人而言并非不切实际。

由于人工评估者可能会提出一些非常简单的约束来击败AI，因此期望人工评估者不断为AI提出越来越复杂的约束，直到AI失效为止。Lovelace测试2.0的重点是比较不同AI的创造力，而不是像图灵测试那样在“智能”和“非智能”之间提供明确的分界线。

但是，我很好奇这个测试是否实际上已在学术环境中使用，或者目前仅被视为一项思想实验。Lovelace测试似乎很容易在学术环境中应用（您只需要开发一些可测量的约束即可用于测试人工代理），但是它也可能过于主观（人类可以就某些约束的优缺点以及是否对某些约束持不同意见）。由AI产生的创意人工产物实际上达到了最终结果）。

history intelligence-testing

— 向左SE开10_6_19
source

没有。

TL; DR：Lovelace测试2.0非常含糊，使其不适合评估智力。计算创造力的研究人员通常也忽略了这一点，他们已经有自己的测试来评估创造力。

更长的答案：根据Google学术搜索，“ Lovelace Test 2.0”论文有10篇参考文献。所有这些参考文献的存在只是为了指出Lovelace Test 2.0的存在。实际上，我咨询过的至少两篇文章（一种用于识别类似人的自觉行为的新颖方法以及FraMoTEC：用于评估自适应控制系统的模块化任务-环境构建框架）提出了自己的测试。

撰写FraMoTEC论文的一位作者也撰写了有关FraMoTEC的论文，并间接批评了Lovelace Test 2.0和其他类似的测试：

Piaget-MacGyver Room问题[Bringsjord和Licato，2012]，Lovelace Test 2.0 [Riedl，2014]和Toy Box问题[Johnston，2010]都带有非常模糊地定义的警告-这些评估方法可能会出现对智能进行合理的评估，但是很难比较参与各自域特定评估的两个不同的代理（或控制器），这是为代理量身定制以通过特定评估时经常发生的情况。

Lovelace Test 2.0的另一个主要问题是，存在大量其他测试来“衡量” AI的创造力。评估评估：评估计算创造力研究的进展，该书由Anna Jordanous于2011年出版（比Lovelace测试2.0的发明早 3年），分析了有关AI创造力的研究论文，并写道：

在18篇应用创造力评估方法来评估其系统创造力的论文中，没有一种方法成为整个社区的标准。Colton的创意三脚架框架（Colton 2008）使用最频繁（6次使用），其中有4篇论文使用了Ritchie的经验标准（Ritchie 2007年）。

剩下十个篇论文使用了各种创造力评估方法。

“评估评估”的目的是使评估创造力的过程标准化，以避免由于众多创造力测试的泛滥而导致领域停滞的可能性。安娜·乔丹尼斯（Anna Jordanous）仍然对评估创造力测试保持兴趣，发表了诸如“逐步退步：为计算创造力的元评估设定标准”和关于计算创造力的四个PPP观点等文章。

“评估评估”确实提供了一些解释，以解释评估创造力的系统的扩散：

评估标准不容易定义。评估创造力非常困难，甚至很难描述我们如何评估创造力，无论是人类创造力还是计算创造力。实际上，就连创造力的定义都是有问题的（Plucker，Beghetto和Dow 2004）。很难确定“创造力”意味着什么，因此没有基准或可用来衡量的事实。

已经存在如此多的创造力测试（在某种程度上，乔丹尼斯（Jordanous）可以在学习这些知识的过程中从事学术职业）的事实意味着，任何新的测试（例如Lovelace Test 2.0）都很难被发现（被引用的更少））。当您可以使用很多其他测试时，为什么还要使用Lovelace Test 2.0之类的东西呢？

— 向左SE开10_6_19
source