Benjamini和Hochberg开发了第一种(我认为仍是使用最广泛的方法)来控制错误发现率(FDR)。
我想从一堆P值开始,每个P值用于不同的比较,并确定哪些值足够低以至于被称为“发现”,从而将FDR控制为指定值(例如10%)。常用方法的一个假设是,这组比较是独立的或具有“正相关性”,但在分析一组P值的上下文中,我无法确切弄清楚该短语的含义。
Benjamini和Hochberg开发了第一种(我认为仍是使用最广泛的方法)来控制错误发现率(FDR)。
我想从一堆P值开始,每个P值用于不同的比较,并确定哪些值足够低以至于被称为“发现”,从而将FDR控制为指定值(例如10%)。常用方法的一个假设是,这组比较是独立的或具有“正相关性”,但在分析一组P值的上下文中,我无法确切弄清楚该短语的含义。
Answers:
从您的问题,尤其是您的评论到其他答案,在我看来,您主要是对这里的“大局面”感到困惑:即,在这种情况下, “积极依赖”到底指的是什么-与之相反是PRDS条件的技术含义。因此,我将讨论大局。
想象一下,您正在检验零假设,并假设所有假设都是正确的。N p个值中的每一个都是随机变量。重复实验一遍一遍将产生一个目前存在的p -值每一次,所以可以谈论的分布p -值(空下)。众所周知,对于任何测试,空值下的p值分布都必须是均匀的。因此,在多重检验的情况下,p值的所有N个边际分布将是均匀的。
如果所有数据和所有检验彼此独立,则p值的N维联合分布也将是均匀的。这是正确的,例如,在测试一堆独立的事物的经典“软心豆粒糖”情况下:
但是,不必一定是这样。原则上,任何一对都可以正相关或负相关,或以某些更复杂的方式相关。考虑测试四组之间均值的所有成对差异;这是Ñ = 4 ⋅ 3 / 2 = 6的测试。六个p值中的每个值都是均匀分布的。但是它们全都是正相关的:如果(在给定的尝试中)A组偶然的平均值特别低,则A-vs-B比较可能会产生较低的p值(这将是假阳性)。但是在这种情况下,A-vs-C以及A-vs-D也会产生低p值。因此,显然是非独立的,而且它们之间是正相关的。
非正式地,这就是“积极依赖”。
这似乎是多重测试中的常见情况。另一个示例是测试相互关联的几个变量的差异。在其中一个中获得显着差异会增加在另一个中获得显着差异的机会。
提出一个自然的例子是很棘手的,其中将“负相关”。@ user43849在上面的评论中指出,对于单面测试,这很容易:
想象一下,我正在针对单尾选择(A> 0和B> 0)测试A是否为0,B是否为0。进一步假设B取决于A。例如,假设我想知道某个人口中女性比男性多,以及卵巢是否比睾丸多。清楚地知道第一个问题的p值会改变我们对第二个问题的p值的期望。两个p值都沿相同方向变化,这就是PRD。但是,如果我改为检验人口2的卵巢比卵巢多的第二个假设,那么我们对第二个p值的期望会随着第一个p值的增加而降低。这不是PRD。
但是到目前为止,我还无法提出一个自然的示例,其中包含点空值。
现在,保证Benjamini-Hochberg过程有效性的“正相关性”的精确数学表述非常棘手。正如其他答案中提到的那样,主要参考文献是Benjamini&Yekutieli 2001;他们表明PRDS属性(“对子集的每个元素的正回归依赖”)需要Benjamini-Hochberg过程。它是PRD(“正回归依赖项”)属性的一种宽松形式,意味着PRD暗示PRDS,因此也需要Benjamini-Hochberg过程。
有关PRD / PRDS的定义,请参见@ user43849的答案(+1)和Benjamini&Yekutieli的论文。这些定义是技术性的,我对它们没有很好的直观理解。实际上,B&Y还提到了其他几个相关概念:二阶多变量总阳性(MTP2)和正相关。根据B&Y的说法,它们之间的关系如下(图中的是我的):
好问题!让我们退后一步,了解Bonferroni所做的事情,以及Benjamini和Hochberg为什么有必要开发替代方案。
正如本杰米尼(Benjamini)和霍奇伯格(Hochberg)一样,我们现在遇到的问题是,并非所有测试都是完全独立的。因此,Bonferroni校正虽然健壮且灵活,但却是一种过度校正。考虑遗传学中两个基因连锁的情况,这种情况称为连锁不平衡。也就是说,当一个基因具有突变时,另一个基因更可能被表达。这些显然不是独立的测试,尽管在bonferroni校正中假定它们是。在这里,我们开始看到,将P值除以M会创建一个人为地降低阈值,这是因为假定的独立测试确实会相互影响,因此,人为地创建了一个M值,对于我们的实际情况而言,M值过大不独立。
本杰米尼(Benjamini)和霍赫伯格(Hochberg)建议的方法,以及叶库捷利(Yekuteli)(以及许多其他人)所推荐的方法比邦费罗尼(Bonferroni)更宽松,实际上,邦费罗尼校正仅用于目前最大的研究中。这是因为,在FDR中,我们假设测试部分相互依赖,因此M太大而又不切实际,并且摆脱了我们实际上关心的结果。因此,在1000个非独立测试的情况下,真实 M不会为1000,而是由于依赖性而较小。因此,当我们将0.05除以1000时,阈值过于严格,因此避免了一些可能令人感兴趣的测试。
我不确定您是否关心依赖控制的机制,尽管如果您愿意,我已将Yekutieli论文链接起来供您参考。我还将附加一些其他信息,以供您参考和好奇。
希望这对您有所帮助,如果我歪曲了任何话,请告诉我。
~~~
参考文献
关于积极依赖的Yekutieli论文-http: //www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf
(请参阅1.3-问题。)
解释Bonferroni和其他有趣的事物-Nature Genetics评论。大规模遗传研究中的统计功效和显着性检验-Pak C Sham和Shaun M Purcell
(请参阅方框3。)
http://en.wikipedia.org/wiki/Familywise_error_rate
编辑:
在我之前的回答中,我没有直接定义正依赖性,这就是要问的。在Yekutieli的论文中,2.2
标题为“正向依赖性”的部分,我建议这样做,因为它非常详细。但是,我相信我们可以使其更加简洁。
总而言之,正相关性的属性实际上是我们的整个测试统计数据集对我们的一组真实的无效测试统计数据的正回归相关性的属性,我们将FDR控制为0.05;因此,随着P值从下到上(逐步执行过程),它们作为空集的一部分的可能性增加。
我以前在有关协方差矩阵的评论中的答案是不正确的,只是有点模糊。我希望这会有所帮助。
我发现此预印本有助于理解含义。应该说,我提供的答案不是作为该主题的专家,而是作为一种理解,以供社区进行审查和验证。
感谢变形虫对PRD和PRDS之间的区别的非常有益的观察,请参阅评论
这是一个非PRDS系统的假定示例(下面的R代码)。逻辑是,当样本a和b非常相似时,它们的乘积很有可能是非典型的。我怀疑这种影响(而不是(a*b), (c*d)
比较中null值下p值的不均匀性)推动了p值的负相关,但我不确定。如果我们对第二个比较(而不是Wilcoxon)进行t检验,则会出现相同的效果,但是p值的分布仍然不均匀,可能是由于违反了正态性假设。
ab <- rep(NA, 100000) # We'll repeat the comparison many times to assess the relationships among p-values.
abcd <- rep(NA, 100000)
for(i in 1:100000){
a <- rnorm(10) # Draw 4 samples from identical populations.
b <- rnorm(10)
c <- rnorm(10)
d <- rnorm(10)
ab[i] <- t.test(a,b)$p.value # We perform 2 comparisons and extract p-values
abcd[i] <- wilcox.test((a*b),(c*d))$p.value
}
summary(lm(abcd ~ ab)) # The p-values are negatively correlated
ks.test(ab, punif) # The p-values are uniform for the first test
ks.test(abcd, punif) # but non-uniform for the second test.
hist(abcd)
在这种情况下,正相关性意味着测试集是正相关的。这样的想法是,如果您具有P值的测试集中的变量呈正相关,则每个变量都不独立。
例如,如果您回想一下Bonferroni p值校正,则可以通过将显着性阈值设置为0.1 / 100 = 0.001,来保证在100次统计独立的测试中1型错误率小于10%。但是,如果那100个测试中的每一个以某种方式相关联,该怎么办?那么您实际上并没有执行100个单独的测试。
在FDR中,该想法与Bonferroni校正略有不同。这个想法是要保证您声明为重要的事物中只有一定百分比(例如10%)被错误地声明为重要。如果数据集中具有相关标记(正相关性),则根据执行的测试总数来选择FDR值(但统计上独立的测试的实际数量较小)。这样,可以更安全地得出以下结论:错误发现率错误地声明了P值集中的测试的10%或更少。
请参见本书章节,以讨论正向依赖性。