FPR(误报率​​)与FDR(误发现率)


20

以下引文来自Storey&Tibshirani(2003)的著名研究论文《统计意义对于全基因组研究》

例如,假阳性率为5%意味着研究中平均5%的真正无效特征将被称为显着。FDR(错误发现率)为5%意味着在所有被称为重要功能的特征中,其中平均5%确实是无效的。

有人可以使用简单的数字或视觉示例来解释这意味着什么吗?我很难理解它的含义。我仅在FDR或FPR上找到了各种帖子,但没有找到进行具体比较的地方。

如果这方面的专家可以举例说明一个人比另一个人好,或者两者都好或坏的情况,那将特别好。


3
我注意到您授予@mkt的答案是赏金,Naseer。如果该答案为您解决了您的问题,您还可以通过点击赏金指示器下方其左侧的复选标记来接受它。
gung-恢复莫妮卡

Answers:


29

我将以几种不同的方式来解释这些,因为它有助于我理解它。

让我们举一个具体的例子。您正在对一群人​​进行疾病检查。现在让我们定义一些术语。对于以下每个方面,我指的是经过测试的个人:

真阳性(TP):有疾病,被确定为患有疾病

假阳性(FP):没有疾病,被确定为患有疾病

真阴性(TN):没有疾病,被确定为没有疾病

假阴性(FN):患有疾病,被确定为没有疾病

在视觉上,通常使用混淆矩阵来显示:

在此处输入图片说明

假阳性率(FPR)是没有疾病,但被鉴定为患有疾病(所有FPS),谁的人数由一共有多少人没有病谁分(包括所有FPS和TN中) 。

FP[R=FPFP+Ťñ

错误发现率(FDR)是没有疾病,但被鉴定为患有疾病(所有FPS)谁的人数,由谁被确定为患有疾病的人的总数除以(包括所有FPS和茶多酚)。

Fd[R=FPFP+ŤP


因此,区别在于分母,即您将误报的数量与什么进行比较?

FPR告诉大家谁没有将被认定为患有疾病的病谁的人的比例。

FDR告诉你所有鉴定为没有病谁疾病的人的比例。

因此,两者都是有用的,不同的失败度量。根据情况和TP,FP,TN和FN的比例,您可能会更关心彼此。


现在让我们对此进行一些说明。您已经测量了100位患者的疾病,并得到以下结果:

真实正数(TP):12

误报(FPs):4

真底片(TN):76

假阴性(FNs):8

为了显示使用混淆矩阵:

在此处输入图片说明

然后,

FP[R=FPFP+Ťñ=44+76=480=0.05=5

Fd[R=FPFP+ŤP=44+12=416=0.25=25

换一种说法,

FPR告诉您,没有疾病的人中有5%被确定患有疾病。FDR告诉您25%的被确定患有该疾病的人实际上没有该疾病。


根据@amoeba的评论进行编辑(也是上面示例中的数字):

为什么区别如此重要?在您链接的论文中,Storey和Tibhshirani指出,在全基因组研究中,人们非常关注FPR(或I型错误率),这正导致人们做出错误的推论。这是因为一旦通过固定FPR 找到重要结果,您确实确实需要考虑多少个重要结果是不正确的。在上面的示例中,“重大结果”的25%是错误的!ñ

[旁注:Wikipedia指出,尽管FPR在数学上等同于I类错误率,但从概念上讲它是不同的,因为一个FPR 通常先验设置,而另一个通常用于事后评估测试的性能。这很重要,但在这里我将不讨论。


为了更加完整:

显然,FPR和FDR并不是您可以使用混淆矩阵中的四个数量来计算的唯一相关指标。在不同的上下文中可能有用许多可能指标中,您可能会遇到的两个相对常见的指标是:

真实阳性率(TPR),也称为敏感性,是指被确定患有该疾病的人所占的比例。

ŤP[R=ŤPŤP+Fñ

真阴性率(TNR),也称为特异性,是指没有患病的人中被确定没有患病的人口比例。

Ťñ[R=ŤñŤñ+FP


3
+1。调整数值示例以使FPR = 5%可能是有意义的,因为如果使用p <0.05作为标准(假设测试的大小正确),这就是您将要得到的。如果p <0.01,则为1%。指出这种联系可能对某些读者有帮助。
变形虫说恢复莫妮卡

1
@amoeba谢谢,这是一个好主意。我稍后会尝试做。
mkt-恢复莫妮卡

2

您应该检查https://en.wikipedia.org/wiki/Confusion_matrix中的表。请注意,FPR是垂直放置的,而FDR是水平放置的。

  • 如果您的原假设是真实的但您拒绝了它,FP就会发生
  • 如果您预测重要的事情,但您不应该这样做,FD就会发生

我知道这一点,但是我对比较特别感兴趣,例如您是否可以通过一些数字和可视化来解释该概念,以支持您的数字,这将非常有趣。
李慕
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.