关于费舍尔的确切测试：如果这位女士不知道第一个牛奶杯的数量，那么哪个测试合适？

在RA Fisher 著名的女士品尝茶实验中，该女士被告知有多少杯牛奶优先/茶优先的杯子（每8杯中有4杯）。这符合费舍尔精确检验的固定边际总假设。

我当时想和我的朋友一起做这个测试，但是这种想法震惊了我。如果女士能真正分辨出牛奶优先和茶优先杯子之间的区别，那么她应该能够算出牛奶优先/茶优先杯子的边际总量以及哪个是哪个。

因此，问题就来了：如果RA Fisher不告知女士牛奶第一杯和茶第一杯的总数，可以使用哪种测试？

— 阿尔比
source

有人会争辩说，即使第二个边距不是由设计确定的，它也几乎没有关于女士的辨别能力的信息（即，大约是辅助性的），因此应加以限制。精确的无条件测试（我认为是Barnard首次提出）更加复杂，因为您必须在烦人参数的所有可能值上计算最大p值。

— Scortchi-恢复莫妮卡

实际上，Barnard的测试有一个Wikipedia页面。

— Scortchi-恢复莫妮卡

@Scortchi还有什么要说的？我不会在其中添加任何内容（我也不会设法如此清晰，简洁地说出来）。在您的两条评论中，我认为您在那里有一个很好的答案。

— Glen_b-恢复莫妮卡2015年

在Yates，F.（1984）“ 2×2列联表的显着性检验”中，有一些值得探讨的讨论（包括论文和讨论者），《皇家统计学会杂志》。系列A（一般），卷 147，第3号，第426-463页。

— Glen_b-恢复莫妮卡

仅平均而言，超过4杯加牛奶的茶和4杯不含牛奶的茶，我们可以说她的概率为

猜对了；与正确的猜测总数相比，二项分布的分布更集中在4左右。但是如果她猜“牛奶”为

\frac{1}{2}

$\frac{1}{2}$

概率，那么她会正确猜出

\frac{1}{2}

$\frac{1}{2}$

茶中有牛奶和无茶中有牛奶的概率为

，并且她的正确猜测总数的分布确实遵循二项式分布。因此，有一个令人讨厌的参数需要考虑，...

\frac{1}{2}

$\frac{1}{2}$

— Scortchi-恢复莫妮卡

Answers:

有人会争辩说，即使第二个边距不是由设计确定的，它也几乎没有关于女士的辨别能力的信息（即，大约是辅助性的），因此应加以限制。精确的无条件检验（由Barnard首次提出）更加复杂，因为您必须计算扰动参数所有可能值的最大p值，即零假设下的常见伯努利概率。最近，有人提出了在扰动参数的置信区间内最大化p值的方法：参见Berger（1996），“从置信区间p值得到的更强大的检验”，《美国统计学家》，50，4 ; 使用此想法可以构建具有正确大小的精确测试。

Fisher的精确检验在Edgington的意义上也是作为随机检验出现的：对实验处理方法的随机分配允许将检验统计量在这些分配的排列上的分布用于检验原假设。在这种方法中，女士的决定被认为是固定的（当然，牛奶优先杯和茶优先杯的边际总量当然会通过排列保留）。

— Scortchi-恢复莫妮卡
source

可以Barnard::barnardw.test()在这里使用吗？在实践中可以期望在计算复杂度上有什么不同？

— krlmlr 2015年

我对该软件包不熟悉，但是您链接到的帮助页面完全引用了我所谈论的测试。另请参阅Exact。至于计算复杂度，我不知道-这将取决于所使用的最大化算法。

— Scortchi-恢复莫妮卡

今天，我阅读了RA Fisher的“实验设计”的第一章，其中一段使我意识到了我的问题的根本缺陷。

就是说，即使那位女士真的能分辨出牛奶第一杯和茶第一杯的区别，我也无法 “通过任何有限的实验”证明她具有这种能力。因此，作为一名实验者，我应该从一个假设开始，即她没有能力（零假设），然后尝试不赞成这种能力。原始的实验设计（fisher精确测试）是一个足够，有效且合理的步骤。

这是RA Fisher的“实验设计”摘录：

可能会说，如果一个实验可以证明受试者在两种不同类型的物体之间没有感觉歧视的假设，那么它就必须能够证明相反的假设，即她可以做出这样的区分。但是，最后一个假设（无论多么合理或真实）都不能作为通过实验进行检验的原假设，因为它是不精确的。如果断言该对象在她的判断中永远不会错，那么我们再次拥有一个确切的假设，并且很容易看出，这个假设可以通过一次失败来证明，但是永远不能通过任何有限的实验来证明。。

— 阿尔比
source

在原假设下，当讨厌的参数未知时，使用Barnard检验。

但是，在女士品尝测试中，您可能会认为可以在零假设下将讨厌的参数设置为0.5（不知情的女士有50％的概率正确猜出杯子）。

然后，在原假设下，正确猜测的数量变为二项式分布：猜测8个杯子，每个杯子的概率为50％。

在其他情况下，对于原假设来说，您可能没有这种琐碎的50％概率。没有固定的边距，您可能不知道该概率应该是多少。在这种情况下，您需要巴纳德的测试。

即使您对女士品尝茶测试进行巴纳德测试，无论如何（如果结果都是正确的猜测），它将变为50％（因为p值最高的讨厌参数是0.5）并且将导致平凡的二项式测试（它实际上是两个二项式检验的组合（一个用于四个牛奶第一杯，另一个用于四个茶第一杯）。

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

下面是如何得出更复杂的结果（如果不是所有的猜测都是正确的，例如2对4），那么对什么是什么以及什么不是极端的计数会变得更加困难

（同样要注意的是，巴纳德（Barnard）的测试使用的是4-2结果的情况下，令人讨厌的参数p = 0.686，您可能会认为这是不正确的，对于50％回答``茶水优先''的概率的p值为0.08203125。当您考虑其他区域时，这会变得更小，而不是基于Wald统计的区域，尽管定义区域并不容易（）

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)

— 天性
source