Answers:
我认为这是一个非常好的问题;太多的人将Benjamini-Hochberg过程(缩写为BH;可能是控制FDR的最流行过程)用作黑匣子。实际上,它对统计数据有一个基本假设,并且很好地隐藏在p值的定义中!
对于定义明确的p值它认为在零假设下是均匀分布的()。有时甚至可能是,即随机小于均一,但这只会使过程更加保守(因此仍然有效)。因此,通过计算t值,使用t检验或您选择的任何检验,您将在原假设下提供有关分布的信息。
但是请注意,我一直在谈论零假设。所以你所提到的有关真阳性的基准利率的知识是没有必要,你只需要误报基准利率的知识!为什么是这样?
令表示所有被拒绝的(正)假设的数目,而表示假阳性,然后:
因此,要估算FDR,您需要一种估算,。现在我们来看一下拒绝所有p值决策规则。为了在符号中明确指出这一点,我还将为该过程的相应数量/随机变量写。
由于只是对拒绝总数的期望,因此您可以通过观察到的拒绝数来无偏估计它,因此 ,即简单地通过计算您的p值是多少。
现在呢?好吧,假设您的总假设中的是零假设,那么通过 p值的均匀性(或子均匀性),您会得到:
但是我们仍然不知道,但是我们知道,所以保守的上限就是。因此,由于我们只需要误报数量的上限,我们知道它们的分布就足够了!这正是BH程序所要做的。
因此,虽然Aarong Zeng提出“ BH程序是一种在给定级别q上控制FDR的方法。这与估计FDR无关”不是错误的,但它也极有误导性!BH过程实际上确实为每个给定阈值估计FDR 。然后,它选择最大阈值,以使估计的FDR低于。实际上,假设的“调整后的p值” 本质上只是在阈值(直至等渗)下的FDR估计。我认为标准的BH算法稍微掩盖了这个事实,但是很容易证明这两种方法的等效性(在多重测试文献中也称为“等效性定理”)。
最后要说的是,确实存在诸如Storey的过程之类的方法,这些方法甚至可以从数据中估计。这可以使功率增加一点点。同样,原则上您是对的,也可以对替代方案(您的真实正基准利率)下的分布进行建模,以获得更强大的程序。但是到目前为止,多重测试的研究主要集中在保持对I型错误的控制上,而不是使功率最大化。一个困难还将是,在许多情况下,您的每个真实选择都将具有不同的选择分布(例如,对于不同假设的不同功效),而在null下,所有p值都具有相同的分布。这使得对真实阳性率的建模更加困难。
正如@air所建议的那样,Benjamini-Hochberg(BH)过程可确保FDR控制。它并非旨在对其进行估计。因此,它仅需要检验统计量之间的弱依赖假设。[1,2]
旨在估算FDR的方法[例如3,4,5]确实需要对生成过程进行一些假设才能对其进行估算。他们通常假设测试统计信息是独立的。他们还将假设检验统计信息的零分布。因此,可以将这种零分布与独立性假设的偏离归因于效果,并可以估算FDR。
请注意,这些想法再次出现在半监督的新颖性检测文献中。[6]。
[1] Benjamini,Y.和Y. Hochberg。“控制错误发现率:一种实用且强大的多重测试方法。” 皇家统计会B系列57(1995):289-289。
[2] Benjamini,Y.和D. Yekutieli。“依赖关系下多重测试中错误发现率的控制。” 统计年鉴29,没有。4(2001):1165-88。
[3]楼层,京东“一种错误发现率的直接方法。” 皇家统计学会杂志B系列64,没有。3(2002):479–98。doi:10.1111 / 1467-9868.00346。
[4] B. Efron,“微阵列,经验贝叶斯和两组模型”。统计科学23,没有。1(2008):1-22。
[5] Jin,Jiashun和T. Tony Cai。“在大规模多重比较中估算零效应和非零效应的比例。” 《美国统计协会杂志》 102号。478(2007年6月1日):495-506。doi:10.1198 / 016214507000000167。
[6] Claesen,Marc,Jesse Davis,Frank De Smet和Bart De Moor。“仅使用正数和未标记的数据评估二进制分类器。” 的arXiv:1504.06837 [CS,统计],4月26日,2015年http://arxiv.org/abs/1504.06837。
当真正的基础模型未知时,我们无法计算FDR,但可以通过置换测试估算FDR值。基本上,置换测试过程只是通过更改结果变量向量及其置换来多次进行假设检验。也可以根据样本的排列来完成,但不如前者常见。
本文在此回顾了FDR估计的标准置换程序,并提出了一种新的FDR估计器。它应该能够解决您的问题。