该 -test VS的 -试验比较2组患感冒的几率


12

我刚刚读了一篇颇受人尊敬的(受欢迎的)科学杂志(德国PM,02/2013,第36页),其中讲述了一个有趣的实验(不幸的是,没有资料来源)。它引起了我的注意,因为直觉上我怀疑结果的重要性,但是所提供的信息足以重现统计检验。

研究人员想知道,在寒冷的天气中变冷是否会增加患感冒的几率。因此,他们将180名学生随机分为两组。一组不得不将脚放进冷水中20分钟。另一个人穿鞋。我认为这是一种有趣的操作,但另一方面,我不是医生,也许医生认为很有趣。除了道德问题。

无论如何,经过5天的治疗,治疗组中的13名学生患了感冒,但只有5名学生保持着鞋凉。因此,该实验的优势比为2.87。

鉴于样本量很小,我开始怀疑这种差异是否可能很大。所以我进行了两次测试。

首先,使用正态逼近对比例相等进行简单测试。该测试的,。我的猜测是,这就是研究人员测试过的。这确实很重要。但是,由于正态近似,如果没有记错的话,此z检验仅在大样本中有效。此外,患病率还很小,我想知道这是否不会影响效果置信区间的覆盖率。p = 0.0468z=1.988p=0.0468

因此,我的第二次尝试是对卡塔尔独立性进行卡方检验,包括蒙特卡罗模拟和标准皮尔逊卡方。在这里,我发现p值都约为。p=.082

现在,所有这些都不会让您对结果感到放心。我想知道是否有更多选择来测试此数据,以及您对这两项测试的想法是什么(特别是第一个重要测试的假设)


我相信您已经对Pearson的卡方统计量进行了连续性校正,该统计量说明了p值的差异。
Scortchi-恢复莫妮卡

Answers:


13

我将使用置换检验,而不是使用法线逼近法或卡方检验。排列测试是精确且功能最强大的,取决于数据。

在这种情况下,我们无法计算出组的所有排列,但是我们可以生成许多数据的随机排列并获得非常精确的值:

group <- c(rep("A",90),rep("B",90))
n_a <- rep(0,100000)
for (i in 1:length(n_a)) {
   temp <- sample(group, size=18)
   n_a[i] <- sum(temp == "A")
}
> mean(n_a >= 13)
[1] 0.03904

表示p值为0.039。

但是,这是一个很大的问题,我猜想违反了感冒对象是独立事件的假设。这些人是学生,大概是在同一所学校。想象他们两个共享一个班级,一个宿舍,一些其他活动或一个自助餐厅(在有多个自助餐厅的学校中);事件“#1感冒”和“#2感冒”不是独立的。我可以想象一个学生会说“让我们报名参加这个实验!” 给他/她的室友或朋友;我可以想象学生是从教授教授的课程中招募来的;我可以想像很多方式都违反了独立性的假设。也许我没有读过的论文针对其中一些问题,但是很难看到它如何解决所有这些问题,


感谢@jbowman-我知道您还进行了一项单面测试。我认为这比我使用的双面测试更有意义。如果法线逼近是单边完成的,则p值为以上0.023。我喜欢关于独立的诗意。当学生将脚伸入水中时,可能还没有被孤立,所以这也是传播感冒的一种方式。
tomka 2014年

(+1)但值得注意的是,您无需进行模拟:检验统计量的分布遵循零假设(以边际总数为条件)下的超几何分布。这是费舍尔的精确检验。
Scortchi-恢复莫妮卡

11

@jbowman给了您一个不错的选择。我想我可能会提供一些有关您关于 -test和测试是否适当的明确问题的信息。 χ 2zχ2

z -test:

关于使用检验的适当性有两个问题,都与假定的采样分布是否正确有关。首先,检验使用正态分布而不是分布,这意味着标准偏差是已知的,没有采样误差。其次,采样分布是连续的,但数据是离散的。由于只有某些数据组合才有可能,因此只有某些最终实现的测试统计值才有可能,这可能与理论采样分布不太匹配。(我在这里在其他测试的背景下讨论了这个问题:比较和对比,p值,显着性水平和I类错误。) zzt

让我们在不同的上下文中考虑第一个问题。如果您有两组具有正态分布数据的数据,并且想要查看均值是否相等,则需要计算均值和标准差。现在我们知道这些均值会受到抽样误差的影响,这就是为什么我们需要进行测试而不是仅仅说这两个样本均值不相同的原因。但是,我们对标准偏差的估计也必须受到抽样误差的影响,我们必须以某种方式考虑这一事实。当我们这样做时,事实证明检验统计量(一种按比例划分的均值差)分布为。如果我们改用正态分布(即tz-test),这意味着我们假设我们对标准偏差的估算没有错误-完美无缺。那么为什么要在您的情况下使用 -test?原因是您的数据是二项式的(即已知“试验”总数中的“成功”数),而不是正常的。在二项分布中,标准差是平均值的函数,因此一旦您估算了平均值,就不必担心其他不确定性了。因此,正态分布可以用作检验统计量抽样分布的模型。 z

尽管使用正态分布来了解测试统计信息的长期行为在技术上是正确的,但仍然出现了另一个问题。问题在于正态分布是连续的,但是由于您的数据是离散的,因此可能无法在数据集中找到理论分布中的所有值。(再次,我在上面的链接的答案中详细讨论了这个问题。)幸运的是,您的越大,数据的可能结果与理论正态采样分布之间的匹配越好。就您而言,无论真正的基础概率是多少,每个组中可以有多达全部成功或只有一个成功。这意味着可能的组合数为N91×91=1,729,这有很多可能性。使用一个很小的数据集,您确实会遇到我在链接的答案中讨论的一些问题,但是当,您不必担心太多。我相信检验对研究人员是一个有效的选择。 N=180z

χ2 -test:

但是 -test呢?我认为这也是一个有效的选择,但这不是我的首选。(让我顺便说一句,上面讨论的第二个问题-离散数据和连续参考分布之间的不匹配-应用于 -test和应用于 -test一样多,因此存在这里没有优势。)χ2χ2zχ2-test是它不假设相对于行总计,列总计没有任何特殊之处;都将它们视为可能是其他可能的值。但是,这不能准确反映实验设置。共有180人,每个小组分配了90人。在重复的相同研究中唯一真正不同的是每个组中感冒的人数。该 -测试错误地将感冒的数量和人的各组,虽然他们可能会有所不同的数量,但 -测试做出正确的假设。这就是 -test在此处具有更大功能的原因。 χ2zz

值得一提的是,@ jbowman建议的置换测试也可以很好地解决您的设计问题,并且不会遭受离散连续不匹配问题的困扰。因此,这是最佳选择。但是我认为您可能想了解更多有关和测试在您的情况下进行比较的信息。 zχ2


谢谢@gung,非常感谢您的努力。它使事情变得更清楚。
tomka 2014年

@gung我很困惑-卡方和z的比例是否相同?stats.stackexchange.com/questions/173415/...
泽维尔Bourret Sicotte

@ XavierBourretSicotte,z检验通常在幕后实施为卡方检验,例如R就是这样做。我仍然经常喜欢使用z检验,因为信息的显示方式与以下理解一致:一个变量是协变量,另一个是响应。
gung-恢复莫妮卡

1
(+1)@XavierBourretSicotte:对于两个比例之间的差异,有两个常用的z检验:一个是分数检验,相当于Pearson卡方检验(其中分母的方差是在最适合的情况下计算的)空值); 另一个是Wald检验(其中分母的方差是根据两个比例之差的最大似然估计来计算的)。
Scortchi-恢复莫妮卡

@Scortchi感谢您澄清这一点!这是我第一次对这种差异进行如此明确的解释-您能否链接到解释两种方法的地方?用相应的公式求方差?
Xavier Bourret Sicotte,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.