卡方的置信区间


10

我正在尝试找到一种解决方案,以比较两个“拟合优度卡方”检验。更准确地说,我想比较两个独立实验的结果。在这些实验中,作者使用拟合优度卡方比较随机猜测(预期频率)与观测频率。两次实验的参与者人数相同,实验步骤相同,只是刺激改变了。这两个实验结果表明存在显着的卡方(实验1:X 2(18)= 45; p <.0005;实验2:X 2(18)= 79; p <.0001)。

现在,我要做的就是测试这两个结果之间是否存在差异。我认为解决方案可能是使用置信区间,但是我不知道如何仅根据这些结果来计算这些置信区间。或者也许是一个比较效果大小的测试(科恩的w)?

有人有解决办法吗?

非常感谢!

FD


1
嗨,弗洛里安。为什么不对卡方之间的差异使用置换检验?
Tal Galili 2012年

嗨,谢谢您的回答!仅仅是因为我并不真正了解排列测试。是否可以仅使用两个卡方值进行置换(我没有原始数据,只有结果)?再次感谢:)
Florian

Answers:


8

您所拥有的非常有限的信息无疑是一个严格的限制!但是,事情并非完全没有希望。

下导致渐近相同的假设分布用于同一姓名的拟合优度测试的检验统计量,备择假设下的检验统计量具有渐近,一个非中心χ 2分布。如果我们假设两个刺激是)显著,和b)具有相同的效果,相关的检验统计量将具有相同的渐近非中心χ 2分布。我们可以用它来构造一个测试-基本上,通过估计noncentrality参数λ和看到测试统计是否远在非中心的尾部χ 218 λχ2χ2χ2λχ218岁λ^分配。(但这并不是说此测试将具有很大的功能。)

我们可以通过给定两个测试统计量的平均值并减去自由度(一种矩估计方法),给出44的估计值或最大似然来估计非中心性参数:

x <- c(45, 79)
n <- 18

ll <- function(ncp, n, x) sum(dchisq(x, n, ncp, log=TRUE))
foo <- optimize(ll, c(30,60), n=n, x=x, maximum=TRUE)
> foo$maximum
[1] 43.67619

我们的两个估计值之间具有良好的一致性,考虑到两个数据点和18个自由度,这实际上不足为奇。现在计算一个p值:

> pchisq(x, n, foo$maximum)
[1] 0.1190264 0.8798421

因此我们的p值为0.12,不足以拒绝两个刺激相同的零假设。

当非中心性参数相同时,此测试实际上是否具有(大约)5%的拒绝率?它有力量吗?我们将尝试通过构建如下的幂曲线来回答这些问题。首先,我们确定平均值λχ2λ-δλ+δδ=1个215δ 并查看我们的测试在90%和95%的置信度水平上拒绝的频率。

nreject05 <- nreject10 <- rep(0,16)
delta <- 0:15
lambda <- foo$maximum
for (d in delta)
{
  for (i in 1:10000)
  {
    x <- rchisq(2, n, ncp=c(lambda+d,lambda-d))
    lhat <- optimize(ll, c(5,95), n=n, x=x, maximum=TRUE)$maximum
    pval <- pchisq(min(x), n, lhat)
    nreject05[d+1] <- nreject05[d+1] + (pval < 0.05)
    nreject10[d+1] <- nreject10[d+1] + (pval < 0.10)
  }
}
preject05 <- nreject05 / 10000
preject10 <- nreject10 / 10000

plot(preject05~delta, type='l', lty=1, lwd=2,
     ylim = c(0, 0.4),
     xlab = "1/2 difference between NCPs",
     ylab = "Simulated rejection rates",
     main = "")
lines(preject10~delta, type='l', lty=2, lwd=2)
legend("topleft",legend=c(expression(paste(alpha, " = 0.05")),
                          expression(paste(alpha, " = 0.10"))),
       lty=c(1,2), lwd=2)

给出以下内容:

在此处输入图片说明

查看真实的零假设点(x轴值= 0),我们发现该测试是保守的,因为它似乎并没有像水平所表明的那样拒绝,但绝不是如此。正如我们预期的那样,它没有很多功能,但是总比没有好。考虑到您所掌握的信息非常有限,我想知道是否存在更好的测试。


我是这方面的新手,请问您如何从jbowman答案中运行脚本(如果是脚本)。就我而言,尝试从90%CI中获得OR。如果您能向我解释,我非常感谢,我使用PASW17

你好ash6。实际上,它是R软件的脚本(有关更多信息:r-project.org),而不是PASW17的语法。因此,该脚本可以直接在R控制台中运行。该脚本不会计算置信区间,但会为您提供与两个实验之间的差异测试相对应的p值(此处精确地为> pchisq(x,n,foo $ maximum ==> [1] p-value = 0.1190264)) (这里有两个刺激之间,在备择假设的情况下),在这里,我们不能拒绝零假设,这两个实验给出了相同的结果。
弗洛里安

3

您可以得到可解释为相关性的克拉默V,将其转换为费舍尔Z,然后其置信区间就很简单(SE = 1 / sqrt(n-3):Z±se * 1.96)。获得CI的末端后,可以将它们转换回r。

您是否考虑过将所有计数放入具有更大实验范围的列联表中?


我坚信,不可能使用皮尔逊善于拟合卡方(1变量)的Phi。这就是为什么我谈论科恩的w,但是公式确实很相似(phi =X²/ n和w = sqrt(X²/ n))!但是,如果可以通过此测试计算phi并将r应用于z变换,您是否同意给我们引用报价?我们希望在一篇文章中使用此测试,并且很少有评论者对统计数据非常挑剔。这将对我们有很大的帮助!关于您的问题:我们没有公开文章中仅有X²值,df和p的原始数据。非常感谢你的帮助!
Florian

抱歉...是要放下Cramer的V,而不是phi。Cramer的V可以像phi一样使用。
约翰

不,我没有被引用。如果影响很大,则此衡量指标是否有偏差都无关紧要。如果您没有太大的影响,请确保您不会因为任何测试的“重要性”而大失所望。
约翰·
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.