列联表:要执行什么测试以及何时执行?


17

我希望看到有关古老的chi-sq与Fisher的确切测试辩论的讨论的扩展,从而扩大了范围。列联表中有许多用于交互的测试,足以使我旋转。我希望对我应该使用哪种测试以及何时使用进行解释,当然也可以解释为什么一个测试比另一个测试更受欢迎。

我目前的问题是经典的情况,但是至少在不确定的情况下,欢迎提供有关更高维度的答案,以及在R中实现各种解决方案的技巧。n×m

下面列出了我知道的所有测试;我希望通过公开我的错误可以纠正它们。

  • χ2。旧的备用。这里有三个主要选项:

    • R对2x2表内置的校正:“从所有差中减去一半。” 我应该一直这样做吗?|OE|
    • “ ”测试,不确定如何在R中执行此操作。χ 2N1χ2
    • 蒙特卡洛模拟。这总是最好的吗?为什么我这样做时R不给我df?
  • 费舍尔的精确检验

    • 传统上建议何时应将任何单元格小于4,但显然有些人对此建议提出异议。
    • (通常是错误的)边际固定的假设真的是这个测试的最大问题吗?
  • 巴纳德的精确测试

    • 另一个确切的测试,只是我从未听说过。
  • 泊松回归

    • 关于glms总是让我感到困惑的一件事就是如何进行这种重要性测试,因此在此方面的帮助将不胜感激。最好进行嵌套模型比较吗?对于特定预测变量的Wald检验呢?
    • 我真的应该一直在进行泊松回归吗?这是什么和之间的实际差别测试?χ2

Answers:


13

这是一个好问题,但很大。我认为我无法提供完整的答案,但我会提供一些思考的机会。

首先,在最重要的要点下,您所指的校正称为连续性的Yates校正。的问题是,我们计算一个离散的推论统计:
(它是离散的,因为在列联表中仅表示有限数量的实例,该统计量可以具有有限数量的可能实现值。)尽管有这个事实,但仍将其与连续参考分布进行比较(,该χ2分布与自由度[R-1ç-1)。这必然导致某种程度的不匹配。如果数据集特别小,并且如果某些单元格的期望值小于5,则p值可能会太小。叶兹的校正为此进行了调整。

χ2=(OE)2E

χ2 (r1)(c1)

具有讽刺意味的是,相同的潜在问题(离散连续不匹配)可能导致p值过高。具体而言,通常将p值定义为获取极端或更大数据的概率比观察到的数据。对于连续数据,可以理解的是获得任何精确值的可能性都非常小,因此我们确实拥有更极端的数据可能性。但是,对于离散数据,获得与您一样的数据的可能性很小。仅计算获得比您的数据更极端的数据的概率会导致标称p值过低(导致I型错误增加),但包括获得与您的数据相同的概率会导致标称p值过高(这会导致II型错误增加)。这些事实促使人们想到了中间p值。在这种方法下,p值是数据比您的极端值加上一半的概率 数据的概率与您的相同。

如您所指出的,测试列联表数据有很多可能性。在这里,将对各种方法的优缺点进行最全面的讨论。该论文专门针对2x2表,但是您仍然可以通过阅读它来了解有关列联表数据的各种选择。

我也认为值得认真考虑模型。卡方检验等较早的测试快速,简便并且为许多人所理解,但并不能像建立适当模型那样全面地了解您的数据。如果可以将列联表的行[columns]视为响应变量,将列[rows]作为解释性变量/预测变量,则可以很容易地采用建模方法。例如,如果只有两行,则可以建立一个逻辑回归模型。如果有几列,则可以使用参考单元编码(虚拟编码)来构建ANOVA类型的模型。另一方面,如果您有两行以上,则多项式逻辑回归可以以相同的方式使用。如果您的行具有内在顺序,则序数逻辑回归将产生优于多项式的性能。对数线性模型(泊松回归)可能不太重要,除非我认为列联表的维度大于二维。

要对这些主题进行全面处理,最好的资料是Agresti的书:要么是他的全面论文(更严格),要么是入门书(更轻松,但仍然很全面并且非常好),或者也可能是他的序贯书

更新: 仅出于可能测试列表的完整性考虑,我想到可以添加似然比测试(通常称为“G2-test

G2=Oln(OE)


1
那是对潜在问题的很好的解释,谢谢!过去也有人告诉我,Agresti的文本是很好的资源,因此我将对其进行检查。
JVMcDonnell 2012年

4

从我的角度来看,我将尽力解决您的一些问题。首先,Fisher-Irwin测试只是Fisher精确测试的另一个名称。除了有时计算量很大以外,我通常更喜欢使用Fisher检验。如果此测试有任何问题,则以边际总计为条件。该测试的优点在于,在零假设下,与观察表具有相同边际总数的列联表具有超几何分布。有人认为,他们认为将考虑限制在具有相同边际总数的表上的理由不明确。

皮尔逊卡方检验非常常用于测试列联表中的关联。像许多其他测试一样,它是近似的,因此显着性水平并不总是准确的。Cochran表明,在小样本中,当某些细胞非常稀疏时(例如,某些细胞中少于5个案例),近似度将很差。

还有许多其他近似测试。通常,当使用SAS应用Fisher检验时,我会从所有这些检验中获得结果,并且它们通常给出几乎相同的结果。但是费舍尔检验总是以边际总数为精确条件。

关于泊松回归,这是将分类变量与单元格总数相关联的模型。像任何模型一样,它取决于一组假设。最重要的是,细胞计数遵循泊松分布,这意味着平均计数数等于其方差。对于细胞计数分布,通常情况并非如此。在过度分散(方差大于平均值)的情况下,负二项式模型可能更合适。


“ Fisher-Irwin测试只是Fisher精确测试的另一个名称”……啊哈,这使此评论对我来说不太混乱,谢谢!
JVMcDonnell

3
您的回答并没有真正减少我对何时进行这些操作的困惑。我想我希望听到的一件事是,通过蒙特卡洛模拟或校正等方法可以解决chi ^ 2的问题在多大程度上可以解决?或可以被glms取代的程度。所以我只想稍微打开一下,看看是否还能咬一口。但是,如果过一会儿没人管,我会接受您的回答。
JVMcDonnell'5

对于费舍尔和卡方,我想我告诉过您何时可以使用卡方。如果您接受费舍尔的想法,即应该始终以边际总数为条件,那么费舍尔检验始终适用。但是,如果您不接受这一点,那么我想您将不得不选择一个无条件的测试。至于其他可用的测试,我对它们的属性一无所知,因此无法真正建议您何时使用它们。形式经验我看到了一些很重要的案例,因为结果通常是非常一致的。
Michael R. Chernick

费舍尔认为“您应该始终以边际总数为条件”确实是真的吗?该假设仅在边际总数固定时有效。在女士品尝茶的例子中,女士知道5个是牛奶优先的,5个是牛奶最后的。但是,在实验中更常见的是没有强制执行边际的力量。考虑将两个硬币各自翻转10次的情况。当5个头绕硬币滚动时,不会开始留尾巴以保留边际。在这种情况下,有文献证明,费舍尔是高度保守的。这就是为什么我对替代品感兴趣的原因。
JVMcDonnell

是。据我了解,Fisher相信选择使用来自给定数据的信息的引用分布。因此,他认为无论您观察到的数据是多么原始的总数,都应该只与遵循数据约束(即给定的边际总数)的零假设下发生的数据进行比较。与费舍尔有其他想法一样,这也是有争议的。
Michael R. Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.