没有基本利率模型的情况下，FDR程序如何估算错误发现率？

9

有人可以解释FDR程序如何在没有模型/真实正基准率的假设的情况下估算FDR吗？

false-discovery-rate

— 用户4733
source

5

我认为这是一个非常好的问题；太多的人将Benjamini-Hochberg过程（缩写为BH；可能是控制FDR的最流行过程）用作黑匣子。实际上，它对统计数据有一个基本假设，并且很好地隐藏在p值的定义中！

对于定义明确的p值它认为在零假设下是均匀分布的（）。有时甚至可能是，即随机小于均一，但这只会使过程更加保守（因此仍然有效）。因此，通过计算t值，使用t检验或您选择的任何检验，您将在原假设下提供有关分布的信息。 $P$ $P$ $P\sim U[0,1]$ $\Pr[P\leq t] \leq t$ $P$

但是请注意，我一直在谈论零假设。所以你所提到的有关真阳性的基准利率的知识是没有必要，你只需要误报基准利率的知识！为什么是这样？

令表示所有被拒绝的（正）假设的数目，而表示假阳性，然后： $R$ $V$

FDR = E [\frac{V}{max (R, 1)}] \approx \frac{E [V]}{E [R]}

$\text{FDR} = \mathbb E\left[\frac{V}{\max(R,1)}\right] \approx \frac{\mathbb E[V]}{\mathbb E[R]}$

因此，要估算FDR，您需要一种估算，。现在我们来看一下拒绝所有p值决策规则。为了在符号中明确指出这一点，我还将为该过程的相应数量/随机变量写。 $\mathbb E[R]$ $\mathbb E[V]$ $\leq t$ $FDR(t),R(t),V(t)$

由于只是对拒绝总数的期望，因此您可以通过观察到的拒绝数来无偏估计它，因此，即简单地通过计算您的p值是多少。 $\mathbb E[R(t)]$ $\mathbb E[R(t)] \approx R(t)$ $\leq t$

现在呢？好吧，假设您的总假设中的是零假设，那么通过 p值的均匀性（或子均匀性），您会得到： $\mathbb E[V]$ $m_0$ $m$

E [V (t)] = \sum_{i null} Pr [P_{i} \leq t] \leq m_{0} t

$\mathbb E[V(t)] = \sum_{i \text{ null}} \Pr[P_i \leq t] \leq m_0 t$

但是我们仍然不知道，但是我们知道，所以保守的上限就是。因此，由于我们只需要误报数量的上限，我们知道它们的分布就足够了！这正是BH程序所要做的。 $m_0$ $m_0 \leq m$ $\mathbb E[V(t)] \leq m t$

因此，虽然Aarong Zeng提出“ BH程序是一种在给定级别q上控制FDR的方法。这与估计FDR无关”不是错误的，但它也极有误导性！BH过程实际上确实为每个给定阈值估计FDR 。然后，它选择最大阈值，以使估计的FDR低于。实际上，假设的“调整后的p值” 本质上只是在阈值（直至等渗）下的FDR估计。我认为标准的BH算法稍微掩盖了这个事实，但是很容易证明这两种方法的等效性（在多重测试文献中也称为“等效性定理”）。 $t$ $\alpha$ $i$ $t=p_i$

最后要说的是，确实存在诸如Storey的过程之类的方法，这些方法甚至可以从数据中估计。这可以使功率增加一点点。同样，原则上您是对的，也可以对替代方案（您的真实正基准利率）下的分布进行建模，以获得更强大的程序。但是到目前为止，多重测试的研究主要集中在保持对I型错误的控制上，而不是使功率最大化。一个困难还将是，在许多情况下，您的每个真实选择都将具有不同的选择分布（例如，对于不同假设的不同功效），而在null下，所有p值都具有相同的分布。这使得对真实阳性率的建模更加困难。 $m_0$

— 空气
source

3

+1大概是“ BH”是指Benjamini-Hochberg。（写出首字母缩写词始终是一个好主意，以免引起人们的误解。）欢迎来到我们的网站！

— ub

1

谢谢！同样是的，您是对的，我编辑了帖子以反映这一点。

— 播出

4

正如@air所建议的那样，Benjamini-Hochberg（BH）过程可确保FDR控制。它并非旨在对其进行估计。因此，它仅需要检验统计量之间的弱依赖假设。[1,2]

旨在估算FDR的方法[例如3,4,5]确实需要对生成过程进行一些假设才能对其进行估算。他们通常假设测试统计信息是独立的。他们还将假设检验统计信息的零分布。因此，可以将这种零分布与独立性假设的偏离归因于效果，并可以估算FDR。

请注意，这些想法再次出现在半监督的新颖性检测文献中。[6]。

[1] Benjamini，Y.和Y. Hochberg。“控制错误发现率：一种实用且强大的多重测试方法。” 皇家统计会B系列57（1995）：289-289。

[2] Benjamini，Y.和D. Yekutieli。“依赖关系下多重测试中错误发现率的控制。” 统计年鉴29，没有。4（2001）：1165-88。

[3]楼层，京东“一种错误发现率的直接方法。” 皇家统计学会杂志B系列64，没有。3（2002）：479–98。doi：10.1111 / 1467-9868.00346。

[4] B. Efron，“微阵列，经验贝叶斯和两组模型”。统计科学23，没有。1（2008）：1-22。

[5] Jin，Jiashun和T. Tony Cai。“在大规模多重比较中估算零效应和非零效应的比例。” 《美国统计协会杂志》 102号。478（2007年6月1日）：495-506。doi：10.1198 / 016214507000000167。

[6] Claesen，Marc，Jesse Davis，Frank De Smet和Bart De Moor。“仅使用正数和未标记的数据评估二进制分类器。” 的arXiv：1504.06837 [CS，统计]，4月26日，2015年http://arxiv.org/abs/1504.06837。

— 约翰·罗斯
source

1

尽管我从该段中得出的主要观点是+1，但BH程序实际上确实建议了一种估计FDR的方法（尽管有些保守），并且实际上确实估计了它可以达到最终拒绝阈值。参考文献[1]中将其算法定义为升压程序使这一点难以理解，但最终，FDR的估算正是BH程序的作用！（Efron通常会指出这一点，但也请参见参考文献[3]中的第4节“两种方法之间的联系”。）

— 播出

2

没错，按照[3，2.5]，可以看到BH过程是使用的FDR的保守估计。

p_{0} = 1

$p_0=1$

— 约翰罗斯

0

当真正的基础模型未知时，我们无法计算FDR，但可以通过置换测试估算FDR值。基本上，置换测试过程只是通过更改结果变量向量及其置换来多次进行假设检验。也可以根据样本的排列来完成，但不如前者常见。

本文在此回顾了FDR估计的标准置换程序，并提出了一种新的FDR估计器。它应该能够解决您的问题。

— 曾
source

3

像BH这样最常见的过程不使用置换测试。它有什么用？此外，置换测试通常会提供零值以下的分布，FDR估计是否不要求同时使用零值和替代值以及两者的潜在相对比例模型？

— user4733 2014年

首先，BH过程是一种将FDR控制在给定水平。这与估计FDR无关。其次，在所有假设均无效的情况下进行置换检验。我不确定“需要空值和替代值以及它们各自的潜在相对比例的模型”是什么意思。但是，当您设置假设时，您已经有了空对和替代对。这有意义吗？

q

$q$

— 曾A