Lovelace Test 2.0是否已在学术环境中成功使用?
受最初的Lovelace测试(于2001年发布)的启发,2014年10月,Mark Riedl博士发布了一种测试AI智能的方法,称为“ Lovelace Test 2.0”。马克认为原始的Lovelace测试无法通过,因此建议使用较弱的实用版本。 Lovelace Test 2.0做出这样的假设:要使AI变得智能,它就必须表现出创造力。从论文本身来看: Lovelace 2.0测试如下:人工试剂a受到以下挑战: 必须创建类型为t的工件o; o必须符合一组约束C,其中ci∈C是可以用自然语言表达的任何准则; 选择了t和C的人类评估者h确信o是t的有效实例并且满足C;和 裁判员确定t和C的组合对于普通人而言并非不切实际。 由于人工评估者可能会提出一些非常简单的约束来击败AI,因此期望人工评估者不断为AI提出越来越复杂的约束,直到AI失效为止。Lovelace测试2.0的重点是比较不同AI的创造力,而不是像图灵测试那样在“智能”和“非智能”之间提供明确的分界线。 但是,我很好奇这个测试是否实际上已在学术环境中使用,或者目前仅被视为一项思想实验。Lovelace测试似乎很容易在学术环境中应用(您只需要开发一些可测量的约束即可用于测试人工代理),但是它也可能过于主观(人类可以就某些约束的优缺点以及是否对某些约束持不同意见)。由AI产生的创意人工产物实际上达到了最终结果)。