实验设计中可能存在的混淆


12

问题概述

警告:这个问题需要很多设置。请多多包涵。

我和我的一位同事正在进行实验设计。设计必须解决许多约束,我将在下面列出。我已经开发出一种可以满足约束条件的设计,并且可以对我们的利益产生无偏的估计。但是,我的同事认为设计中存在混淆。我们在没有解决问题的情况下就这一点进行了辩论,因此,在此我想提出一些外部意见。

我将在下面描述研究的目标,我们的制约因素,潜在的困惑以及为什么我相信这个“​​困惑”不是问题。在阅读每一部分时,请记住我的总体问题:

我描述的设计中是否有混淆?

[此实验的细节已修改,但提出我的问题所需的基本要素保持不变]

实验目标

我们希望确定白人男性撰写的论文是否比白人女性,黑人男性或黑人女性撰写的论文论文作者身份变量)更受好评。我们还希望确定我们发现的任何偏差在高质量或低质量的赠款(质量变量)中是否显示更多。最后,我们希望包括有关12个不同主题(主题变量)的论文。但是,只有前两个变量具有实质意义。尽管主题必须随文章的不同而不同,但是我们对评估在主题之间的不同方式没有实质性的兴趣。

约束条件

  1. 我们可以收集的参与者数量和论文数量都有限制。结果是,作者身份不能完全在参与者之间操纵,也不能完全在论文之间操纵(即,每篇单独的论文必须分配给多个条件)。
  2. 尽管每篇文章都可以有白人,白人,黑人和黑人女性,但是每篇文章只能是高质量和低质量之一,并且只能涉及一个主题。或者,以不同的方式施加此约束,论文中的质量和主题都无法操纵,因为它们是给定论文的固有特征。
  3. 由于疲劳,给定参与者可以评估的论文数量有限。
  4. 给定人员阅读的所有文章都必须与单个主题有关。换句话说,不能将论文完全随机地分配给参与者,因为我们需要确保每个参与者仅阅读相似主题的论文。
  5. 每个参与者只能查看一个据称由非白人男性作者撰写的论文,因为我们不希望参与者对实验的目的产生怀疑,因为他们的论文太多是由黑人或女性作者撰写的。

拟议的设计

我提出的设计首先将每篇文章分成4种不同的作者版本(白人男性,白人女性等)。然后,使用来自相似主题的四篇论文来定义一个“集合”,每篇论文都由两篇高质量和两篇低质量的论文组成。每个参与者从给定的集合中收到三篇论文,如下图所示。然后,每个参与者对他或她分配的三篇论文中的每篇论文都提供一个单独的评分。

实验设计

潜在的困惑

我的同事认为上述设计存在混淆。他说,问题在于,当高质量的论文被指派由非白人男性作家撰写时,它总是与一篇高质量的论文和一部劣质的论文配对(关于论文1,请参见参与者1-3在图中)。另一方面,当同一篇论文被指派由白人男性作家撰写时,它与一部高质量的论文和一部低质量的论文配对三遍(对于论文1,参与者4-6)和两篇低质量的论文三对。次(论文1,参与者7-9)。

低质量的论文也存在类似的问题。当低质量的论文有非白人男性作者时,通常会以低质量的论文和高质量的论文来见(关于论文3,请参见参与者7-9)。但是,当同一篇文章中有一位白人男性作者时,可以看到一篇高质量的论文和一篇低质量的论文三遍(对于论文3,参与者10-12),而两次高质量的论文则是三遍(对于论文3,参与者1-3)。

上述模式可能存在问题的原因是,如果我们假设存在“对比效果”。具体而言,如果将高质量的论文与两份低质量的论文搭配在一起比在一篇低质量的论文和一份高质量的论文(合理的假设)上配对的平均评价更好,那么白人男性论文可能会获得比白人女性,黑人男性和黑人女性散文是作者身份以外的原因。

低质量论文的对比效果可能会或可能不会平衡高质量论文的对比效果;也就是说,对低质量论文和两篇高质量论文进行配对的情况可能会,也可能不会,特别是不利。无论如何,我的同事认为,任何形式的对比效果都可能使该设计成为问题,以便确定白人男性撰写的论文是否比其他作者的论文更受好评。

为什么我相信潜在的困惑不是问题

对我来说重要的是,即使存在对比效应,我们是否能够估计白人男性论文与其他论文的评价程度(即我们是否可以估计我们感兴趣的效果)。因此,我进行了一次模拟,在其中模拟了50个包含对比效果并适合测试我们感兴趣的效果的数据集。

具体模型是一种混合效果模型,具有随机的文章截距(每篇论文由多个参与者评估)和参与者(每个参与者评估多篇论文)。文章级别还包含种族,性别及其相互作用的随机斜率(这两个变量都在文章中操纵),参与者级别也包含质量的随机斜率(质量在参与者内部操纵)。兴趣的影响是种族,性别,种族与性别之间的相互作用以及这些变量和质量中的每一个之间的高级交互作用的影响。此模拟的目的是确定在数据中引入对比效果是否会造成种族,性别,种族与性别之间的相互作用,以及这些变量和质量之间的高级交互作用。有关更多详细信息,请参见下面的代码块。

根据模拟,对比效果的存在不会使我们感兴趣的任何效果的估计值产生偏差。此外,可以在与设计中其他效果相同的统计模型中估算对比效果的大小;对我来说,这已经表明我的同事所确定的“对比效果”并不是一个困惑。但是,我的同事仍然持怀疑态度。

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

再一次,我的总体问题是,我描述的设计是否存在混淆?如果没有混淆,我将对为什么没有潜在的“对比效果”混淆的描述感兴趣,以便我可以向我的同事解释。


2
只需评论一下:论文将如何评价?我要问,因为如果要使用多个评估者,那么您必须记住不同评估者的评估不是很一致,因此您还应该记住评估者之间的差异。
蒂姆

每个参与者对他或她分配的三篇论文中的每篇都给出一个评分。
Patrick S. Forscher,2015年

我已在问题正文中添加了有关评分程序的详细信息。
Patrick S. Forscher,2015年

对于我们中不熟悉lmer()的人,您能否简要解释一下分析和“利益效应”?
安东尼

没问题,@ Anthony。我已将这些详细信息添加到问题中。
Patrick S. Forscher'1

Answers:


1

我会担心一个相关的困惑-“每个参与者只能查看一个由非白人男性作者撰写的论文,因为我们不想让参与者对实验的目的感到怀疑,因为他们的论文太多了由黑人或女性作家撰写。”

这意味着无论结果如何,您都将无法确定是白人男性作者身份与其他作者身份之间的差异,还是仅仅是“多数作者身份”与“少数民族作者身份”之间的差异。

如果所示的设计也反映了展示顺序(我认为没有,但是最好检查一下),那么这似乎是另一个问题。


该图不反映展示顺序。
Patrick S. Forscher

1
我以“多数”和“少数”作者身份来假设,是指给定种族/性别组合(即2/3白人男性,1/3其他)的论文所占的比例?的确,对于每位参与者,白人男性论文所占的论文比例要高于其他论文。但是,白人男性占我们要研究的论文作者的比例更大。我们已经决定,这种“混淆”(实际上可能是问题的一部分)比造成人为制造的情况要容易得多,在这种情况下,白人男性和少数族裔撰写的论文正好占一半。
Patrick S. Forscher

1

如果每个参与者仅对两篇论文进行评分(一位白人男性,另一位白人男性),设计会不会更简单?是的,让参与者对两篇文章进行评分,但让他们相信这堆文章大部分都是男性论文。他们只是碰巧碰到了那两个。卡魔术师称此为“强迫”。如果这需要太多的参与者,请测试少于12个主题。十二个很多。


1

有了这个样本量,您如何得出结论?如果您重复此实验多次,那么在16次试验中,同时获得白人男性和黑人男性的四个标记都会给白人男性更好的标记。


这是本研究的非常小的版本。完整的研究有432人评估论文。
Patrick S. Forscher'9
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.