1.赫伯·克拉克(Herb Clark)(1973;紧随科尔曼(Coleman),1964年)描述了心理学和语言学的一个著名例子:“语言作为固定效应的谬论:对心理学研究中语言统计的批评。”
克拉克(Clark)是一位心理学家,讨论心理实验,其中一些研究对象对一组刺激材料做出反应,这些刺激材料通常是从某些语料库中提取的各种单词。他指出,在这些情况下使用的基于重复测量方差分析的标准统计程序(被克拉克称为)将参与者视为随机因素,但(可能会隐含地)将刺激材料(或“语言”)视为固定。这导致在解释关于实验条件因子的假设检验的结果时出现问题:自然地,我们想假设一个阳性结果告诉我们有关我们抽取参与者样本的总体以及我们所依据的理论总体的一些信息。语言材料。但是F1F1通过将参与者视为随机参与者并将其固定为刺激,只会告诉我们条件因素对其他完全相同的参与者做出响应的相似参与者的影响。在更恰当地将参与者和刺激都视为随机的情况下进行分析可能会导致类型1的错误率大大超过标称水平(通常为.05),其程度取决于诸如数字的数量和变异性刺激和实验设计。在这些情况下,至少在经典ANOVA框架下,更适当的分析是使用基于均方线性组合比的准统计量。F1αF
克拉克(Clark)的论文当时在心理语言学上引起了轰动,但未能在更广泛的心理学文献中大放异彩。(甚至在心理语言学领域,克拉克的建议多年来也有些扭曲,正如Raaijmakers,Schrijnemakers和Gremmen所记录的那样,(1999年)。)但在最近几年,这个问题有所复苏,这在很大程度上是由于统计的进步在混合效果模型中,经典混合模型ANOVA可以看作是特例。这些近期的论文包括Baayen,Davidson和Bates(2008),Murayama,Sakaki,Yan和Smith(2014),以及(hem)Judd,Westfall和Kenny(2012)。我确定有些事情我会忘记。
2.不完全是。有一些方法可以确定某个因素是否更好地作为随机效应包括在模型中(参见例如Pinheiro&Bates,2000,第83-87页;但是请参见Barr,Levy,Scheepers和Tily, 2013)。当然,还有经典的模型比较技术,用于确定因素是否更好地作为固定效应包括在内(即检验)。但是我认为,确定一个因素是更好地视为固定因素还是随机因素通常最好留给一个概念性问题,要通过考虑研究的设计和从中得出的结论的性质来回答。F
我的一位研究生统计讲师之一,加里·麦克莱兰(Gary McClelland)喜欢说,统计推断的基本问题可能是:“与什么相比?” 继加里之后,我认为我们可以将我上面提到的概念性问题构架为:我想将我的实际观察结果与之比较的假设实验结果的参考类别是什么?停留在心理语言学的语境中,考虑一个实验设计,在该设计中,我们有一个主题样本响应被分类为两个条件之一的单词样本(该特殊设计由Clark,1973年详细讨论)。两种可能性:
- 这组实验中,对于每个实验,我们从生成模型中抽取一个新的主题样本,一个新的单词样本以及一个新的错误样本。在此模型下,主题和单词都是随机效应。
- 这组实验中,对于每个实验,我们绘制一个新的Subject样本和一个错误的新样本,但我们始终使用相同的Words集合。在此模型下,主题是随机效果,而单词是固定效果。
为了使这一点更加具体,下面是(上)来自模型1下4个模拟实验的4组假设结果的一些图;(下图)来自模型2下4个模拟实验的4组假设结果。每个实验都以两种方式查看结果:(左图)按主题分组,按条件划分主题方法并为每个主题捆绑在一起;(右图)按单词分组,并用方框图概括每个单词的响应分布。所有实验都涉及10个对象,对10个单词做出响应,并且在所有实验中,相关人群中没有条件差异的“零假设”成立。
主题和单词都随机:4个模拟实验
请注意,在每个实验中,主题和单词的响应配置文件完全不同。对于主题,我们有时会得到较低的总体响应者,有时是较高的响应者,有时会倾向于显示较大的条件差异,有时会倾向于显示较小的条件差异。同样,对于单词,我们有时会得到倾向于引起低响应的单词,有时也会得到倾向于引起高响应的单词。
主题随机,单词固定:4个模拟实验
请注意,在这4个模拟实验中,主题每次看起来都不同,但是单词的响应配置文件看起来基本相同,这与我们在此模型下为每个实验重用同一组单词的假设相一致。
我们认为模型1(主题和单词都是随机的)还是模型2(主题是随机,单词固定)的选择为我们实际观察到的实验结果提供了适当的参考类别,可以对我们对条件操纵是否进行评估产生重大影响“工作。” 我们希望模型1下的数据比模型2下的机会变化更多,因为存在更多的“活动部件”。因此,如果我们希望得出的结论与机会可变性相对较高的模型1的假设更加一致,但是我们在机会可变性相对较低的模型2的假设下分析数据,则我们的类型1错误条件差异的测试速率将被夸大到一定程度(可能很大)。有关更多信息,请参见下面的参考。
参考文献
Baayen,RH,Davidson,DJ和Bates,DM(2008)。主题和项目具有交叉随机效应的混合效应建模。记忆与语言杂志,59(4),390-412。PDF格式
Barr,DJ,Levy,R.,Scheepers,C.,&Tily,HJ(2013)。验证性假设检验的随机效应结构:保持最大。记忆与语言杂志,68(3),255-278。PDF格式
克拉克(HH)(1973)。语言固定效应谬论:心理学研究中对语言统计的批评。语言学习与言语行为杂志,12(4),335-359。PDF格式
EB,科尔曼(1964)。推广到语言人群。心理报告,14(1),219-226。
Judd,CM,Westfall,J.,&Kenny,DA(2012)。将刺激视为社会心理学中的一个随机因素:这是一个普遍而又被广泛忽略的问题的新的综合解决方案。人格与社会心理学杂志,103(1),54. PDF
Murayama,K.,Sakaki,M.,Yan,VX,&Smith,GM(2014)。传统的参与者分析中的I型错误通货膨胀对元内存准确性的影响:广义混合效应模型的观点。实验心理学杂志:学习,记忆和认知。PDF格式
Pinheiro,JC和Bates,DM(2000)。S和S-PLUS中的混合效果模型。施普林格。
Raaijmakers,JG,Schrijnemakers,J。和Gremmen,F。(1999)。如何处理“固定不变的语言谬论”:常见的误解和替代解决方案。记忆与语言杂志,41(3),416-426。PDF格式