Bonferroni调整有什么问题?


23

我阅读了以下论文:Perneger(1998)Bonferroni调整有什么问题

作者总结说,Bonferroni调整充其量仅在生物医学研究中有有限的应用,并且在评估有关特定假设的证据时不应使用:

总结要点:

  • 根据研究数据进行的检验数量的统计显着性调整(Bonferroni方法)会产生比其解决的问题更多的问题
  • Bonferroni方法与一般的零假设(所有零假设同时为真)有关,这对于研究人员来说很少有兴趣或使用。
  • 主要缺点是对结果的解释取决于执行的其他测试的数量
  • II型错误的可能性也增加了,因此真正重要的差异被认为是不重要的
  • 简单描述已执行过哪些重要检验以及为什么进行检验,通常是处理多重比较的最佳方法

我有以下数据集,但我想进行多次测试校正,但在这种情况下我无法决定最佳方法。

在此处输入图片说明

我想知道是否必须对所有包含均值列表的数据集进行这种校正,在这种情况下,最佳的校正方法是什么?


“平均值A”,“平均值B”到底是什么?

3
如果不对多个比较进行校正,则可能会产生无法再现的结果。最近,包括医学和心理学在内的许多领域都发现确实发生了这种情况:基于未校正的p值,他们“知道”的很多东西事实并非如此。看起来似乎没有愤世嫉俗的意思,但选择似乎很明确:需要满足p值标准才能发表的研究人员不会纠正;想要知识的怀疑者会。
ub

@whuber,但是当有许多不同的方法可以校正p值时,它仍然可以被认为是可重复的吗?在他的回答中,马蒂诺(Martino)甚至给出了指导方针,供您选择保守程度较低或功能更强大的方法。
Nakx

@Nakx可重复性仅与统计程序紧密相关:它是指当研究是由其他人独立完成时是否获得可比较的结果(并且大概是在进行此类尝试时将事先明确提出一个明确的假设,然后适用于该假设的统计程序)。如果原始程序无法产生正确的p值,则当多次用于许多独立研究时,平均而言,它会比其用户预期或期望的结果产生更多不可重复的决定。
ub

Answers:


23

除了其他人提到的保守主义之外,邦费罗尼修正案还出了什么问题,所有多重修正都出了问题。它们不遵循基本的统计原理,并且是任意的;在常人世界中,没有多重性问题的独特解决方案。其次,多重性调整是基于这样一种基本哲学,即一种陈述的准确性取决于接受哪​​些其他假设。这等效于贝叶斯设置,其中在考虑其他参数时,感兴趣参数的先验分布会越来越保守。这似乎并不连贯。可以说这种方法来自研究人员,他们被假阳性实验的历史“烧死”了,现在他们想弥补自己的错误行为。

为了进一步扩展,请考虑以下情况。肿瘤学研究者从事研究某类化学疗法功效的职业。她之前进行的所有20项随机试验均未显示统计学上的疗效。现在她正在同班中测试一种新的化学疗法。P = 0.04时,生存获益显着P=0.04。一位同事指出,还研究了第二个终点(肿瘤缩小),并且需要对生存结果进行多重调整,以使生存获益微不足道。同事如何强调第二个终点指标,却又不介意调整之前的20种寻找有效药物的失败尝试呢?如果您不是贝叶斯主义者,您将如何考虑有关20项先前研究的先验知识?如果没有第二个端点该怎么办。同事会否忽略了所有先前的知识,认为已经证明了生存益处?


2
关于“可重复”的提法不清楚。如果只有一个测试,不需要进行多重调整,那么重复的结果的机会就不高。P=0.04
Frank Harrell 2014年

2
要回答@MJA,我认为有两种首选方法:(1)是贝叶斯方法或(2)对假设进行优先级排序,并在上下文中按优先级顺序报告结果。
弗兰克·哈雷尔

3
没有原则性的规定,也没有任何确切的规定。Bonferroni不等式仅是错误概率的上限。为什么要在5个参数上平均花费?为什么不将椭圆形区域变成矩形区域作为接受区域呢?为什么不使用Scheffe或Tukey的方法?为什么不使用简单的复合方差分析类型的测试?你没有达到预期的α通过使用的平等。αα
弗兰克·哈雷尔

2
您正在混淆两个错误率。在空值下,Bonferroni完全维护每个家庭的预期错误数。它为每个家庭“至少一个”错误的概率(取决于相关性)给出了一个上限。鉴于没有特殊原因以不同的方式对测试进行优先级排序,因此在5个测试上平均花费alpha是完全合乎逻辑的。在另一种情况下,有原则上的理由可以这样做。您似乎暗示使用数学上合理的方法是“无原则的”,这仅仅是因为在给定其他上下文,目标和假设的情况下存在替代方法。
Bonferroni

2
@FrankHarrell您的其他问题仅用于说明我的观点。即使没有多重性,测试统计量,测试程序等也常常有很多选择。在您似乎暗示的意义上,这并不会使方法论“任意”。如果有人对综合测试感兴趣,那么一定要进行一次。如果只对单变量测试感兴趣,则一定要进行单变量测试。您是否在认真建议选择针对您感兴趣的问题而不是其他问题的测试是“任意的”?
Bonferroni

12

他总结说,Bonferroni调整最多只能在生物医学研究中应用有限,在评估有关特定假设的证据时不应使用。

Bonferroni校正是最简单,最保守的多重比较技术之一。它也是最古老的之一,并且随着时间的推移已得到很大改进。可以说,几乎在所有情况下,Bonferroni调整的应用都受到限制。几乎肯定有更好的方法。也就是说,您将需要校正多个比较,但是您可以选择一种不那么保守且功能更强大的方法。

保守程度较低

多重比较方法可以防止在一系列测试中至少获得一个假阳性。如果您在水平上执行一项测试,则您有5%的机会获得假阳性。换句话说,您错误地拒绝了原假设。如果您在α = 0.05的水平上执行10次测试,那么这将增加至1 1 0.05 10 =〜40%的机会得到假阳性αα=0.051(10.05)10

随着Bonferroni方法您使用的在刻度的最低端(即α b = α / ñ)来保护您的家人ñ测试的α水平。换句话说,这是最保守的。现在,你可以增加α b上面由邦费罗尼下限设定(即让你的测试不太保守的),同时又能保护你的测试家人在α水平。有很多方法可以做到这一点,例如Holm-Bonferroni方法或更好的False Discovery Rateαbαb=α/nnααbα

更加强大

所引用的论文中提出的一个好处是,II型错误的可能性也增加了,因此,真正重要的差异被认为是不重要的。

这个非常重要。一项功能强大的测试可以发现重大结果(如果存在)。通过使用Bonferroni校正,您将得到一个功能较弱的测试。由于Bonferroni很保守,因此功率可能会大大降低。再次,一种替代方法,例如错误发现率,将增加测试的功效。换句话说,不仅可以防止误报,还可以提高发现真正重要结果的能力。

所以是的,当您进行多个比较时,应该应用一些校正技术。是的,应该避免使用Bonferroni,而应使用一种不太保守且功能更强大的方法


有多种选择-例如Holm Bonferroni简单易懂。为什么不试一试。假设您的应用是在基因表达或蛋白质表达中,您正在实验中测试成千上万个变量,然后通常使用FDR。
马丁诺2014年

您在十项测试中计算出40%假阳性几率的方法是基于您的测试是独立事件,但对于真实数据,这种情况不太可能发生。我认为至少值得一提。
银鱼

我还担心这个答案似乎将保留家庭错误率的方法与错误发现率的方法混为一谈。讨论这两个问题并不是一个坏主意,但是由于它们做了不同的工作,所以我认为不应将它们等同呈现出来
Silverfish,2016年

但是,如果我了解得很好,FDR(错误发现率)不能保证将I类错误控制在预定水平上吗?(另请参阅我对这个问题的回答)

但是,报告文章中的所有原始p值是否更加透明和有用,以便读者可以自己判断其有效性或选择他们想使用的多种调整方法中的哪一种?
Nakx

5

托马斯·佩内格(Thomas Perneger)不是统计学家,他的论文充满了错误。所以我不会太在意它。实际上,它已经受到其他人的严厉批评。例如,Aickin说Perneger的论文“几乎完全由错误组成”:Aickin,“存在用于调整多重测试的其他方法”,BMJ。1999年1月9日;318(7176):127。

同样,即使没有多重调整,原始问题中的p值也不会小于0.05。因此,使用什么调整(如果有)可能无关紧要。


4
感谢您的链接!我添加了更完整的参考。这仍然是一个评论,而不是一个答案;我敢肯定,您有兴趣添加一些东西,或者至少是Aicken所说的简短摘要。与此无关:说Perneger没有统计学专业知识(按照任何合理的标准)似乎并不正确,不友好或没有用-您会考虑删除该声明吗?
Scortchi-恢复莫妮卡

@Scortchi我已将“没有统计学专业知识”更改为“不是统计学家”。顺便说一句,我不同意将专家意见与非专家意见区分开是没有用的。
Bonferroni

2
据我所知,Perneger没有统计学学位,也从未在统计杂志上发表过论文。问题中引用的论文是BMJ中的一篇评论文章,因其完全错误而被人们呼吁。那么,Perneger所谓的“超出任何合理标准”的专业知识是什么?“和ami可亲”不应该妨碍真理。
Bonferroni

3
所知,他是一家大学医院的教授,拥有生物统计学硕士学位和流行病学博士学位,并在医学统计学领域演讲,并在医学期刊上发表了对临床试验和观察性研究的分析。如果您从“没有统计专业知识”中得出结论,我认为您的标准要比您合理预期的读者假设要高。(这是我应该说的,而不是该标准不合理。)总之,感谢您对其进行编辑!
Scortchi-恢复莫妮卡

5

也许最好解释一下Bonferroni之类的多项测试更正中的“原因”。如果这很清楚,那么您将能够判断自己是否应该应用它们。

在假设检验中,人们试图找到有关真实世界的某些已知或假定事实的证据。这类似于数学中的“通过矛盾证明”,即如果要证明例如参数为非零,则人们将假定相反的事实成立,即,人们将H 0μ = 0假定为对。在这种假设下,人们试图找到一些不可能的东西。在统计中,事情很少是不可能的,但它们是非常不可能的。 μH0:μ=0

H1:μ0H0:μ=0α

H0H0

H0H0H1

虚假证据在科学上是一件坏事,因为我们相信已经获得了有关世界的真实知识,但实际上我们可能对样本不走运。因此,应控制此类错误。因此,应该对这种证据的概率设置一个上限,或者应该控制I型错误。这是通过预先确定可接受的显着性水平来完成的。

5%H05%H0H1H1

H0:μ1=0&μ2=0H1:μ10|μ20α=0.05

H0(1):μ1=0H0(1):μ10H1(2):μ2=0H1(2):μ20α=0.05

H0(1)H0(1)

1(10.05)2=0.0975α

重要的事实是,这两个测试是基于一个和样本样本进行的!

注意,我们假设了独立性。如果不能假设独立性,那么可以使用Bonferroni inequality $证明I型错误最多可以膨胀0.1。

请注意,Bonferroni是保守的,并且Holm的逐步过程与Bonferroni的假设相同,但是Holm的过程具有更大的功能。

当变量是离散变量时,最好使用基于最小p值的测试统计信息,并且如果您准备在进行大量测试时放弃I类错误控制,则错误发现率过程可能会更强大。

编辑:

如果例如(请参见@Frank Harrell的答案中的示例)

H0(1):μ1=0H1(1):μ10

H0(2):μ1=0H1(2):μ20

H0(12):μ1=0&μ2=0H1(12):μ10|μ20 (i.e. the test that at least one of them has an effect) can be carried out by testing (on the same sample)

H0(1) versus H1(1) at the 2.5% level and also H0(2) versus H1(2) at the 2.5% level.


2
I think this question benefits from an answer like this but I suggest tightening the wording of "So if we fix our significance level at 5% then we are saying that we are ready to accept to find false evidence (because of bad luck with the sample) with a chance of 5%"... That is only the probability of error if the null is actually true, and that's worth saying. (Is "false evidence" a common term? I'm more used to seeing "false positive".)
Silverfish

@Silverfish; I re-phresed it a bit, do you think it is better like this ?

1
I think that's better - "statistically proven" would probably benefit from rephrasing too, I know this is how many people interpret p<0.05 or whatever but of course it isn't really a proof!
Silverfish

@Silverfish: I fully agree that is not a ''proof'' but I used the term for didactial reasons, because I started by the analogy to proof by contradiction. I will add such a clarification at the begining

Your Edit is confusing. "The effect of chemotherapy" in Frank's example is measured via two measures: survival rate and tumor shrinkage. Both can be influenced by chemo. The hypothesis is obviously that chemo works. But "works" can be quantified in two different ways. That's the vagueness aspect I've been talking about in your new thread.
amoeba says Reinstate Monica

4

A nice discussion of Bonferroni correction and effect size http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Also, Dunn-Sidak correction and Fisher's combined probabilities approach are worth considering as alternatives. Regardless of the approach, it is worth reporting both adjusted and raw p-values plus effect size, so that the reader can have the freedom of interpreting them.


The advice to present both raw and adjusted p-values has always seemed sensible to me but is it generally considered the norm, or even acceptable?
Silverfish

3

For one, it's extremely conservative. The Holm-Bonferroni method accomplishes what the Bonferonni method accomplishes (controlling the Family Wise Error Rate) while also being uniformly more powerful.


Is that mean that I need to use this method to correct my results or I should accept the results depending on my hypothesis.
goro

I dont know what you mean by "I should accept the results depending on my hypothesis" but yes you should apply some sort of multiple testing correction because otherwise you are highly inflating type 1 error.
TrynnaDoStat

What I meant by "I should accept the results depending on my hypothesis" is that I ran my analysis in three different ways including GLM and permutation methods. all the methods gave me significant results and those results support my hypothesis that I should have significant difference between the groups. When I used Bonferroni for multiple correction All my results was not significant. Thats why I am confused.Is this method not optimal for my analysis so I can use different one or can I trust my results depending on the results from the other methods without to use Bonferroni?
goro

1
Okay, I understand what you are saying. If you tested the same hypothesis 3 different ways I would not apply a multiple testing correction. The reason being that these three test results are presumably highly dependent on each other.
TrynnaDoStat

3

One should look at the "False Discovery Rate" methods as a less conservative alternative to Bonferroni. See

John D. Storey, "THE POSITIVE FALSE DISCOVERY RATE: A BAYESIAN INTERPRETATION AND THE q-VALUE," The Annals of Statistics 2003, Vol. 31, No. 6, 2013–2035.


3
These control different things though. FDR ensures that up no more 5% (or whatever your alpha is) of your calls are false positives, which is different from preserving the familywise error rate (which is what Bonferroni does).
Matt Krause

@Matt Krause: And if I understand well, the FDR (false discovery rates) do not guarantee type I error control at a predetermined level ? (see also my answer to this question)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.