以下引文来自Storey&Tibshirani(2003)的著名研究论文《统计意义对于全基因组研究》:
例如,假阳性率为5%意味着研究中平均5%的真正无效特征将被称为显着。FDR(错误发现率)为5%意味着在所有被称为重要功能的特征中,其中平均5%确实是无效的。
有人可以使用简单的数字或视觉示例来解释这意味着什么吗?我很难理解它的含义。我仅在FDR或FPR上找到了各种帖子,但没有找到进行具体比较的地方。
如果这方面的专家可以举例说明一个人比另一个人好,或者两者都好或坏的情况,那将特别好。
以下引文来自Storey&Tibshirani(2003)的著名研究论文《统计意义对于全基因组研究》:
例如,假阳性率为5%意味着研究中平均5%的真正无效特征将被称为显着。FDR(错误发现率)为5%意味着在所有被称为重要功能的特征中,其中平均5%确实是无效的。
有人可以使用简单的数字或视觉示例来解释这意味着什么吗?我很难理解它的含义。我仅在FDR或FPR上找到了各种帖子,但没有找到进行具体比较的地方。
如果这方面的专家可以举例说明一个人比另一个人好,或者两者都好或坏的情况,那将特别好。
Answers:
我将以几种不同的方式来解释这些,因为它有助于我理解它。
让我们举一个具体的例子。您正在对一群人进行疾病检查。现在让我们定义一些术语。对于以下每个方面,我指的是经过测试的个人:
真阳性(TP):有疾病,被确定为患有疾病
假阳性(FP):没有疾病,被确定为患有疾病
真阴性(TN):没有疾病,被确定为没有疾病
假阴性(FN):患有疾病,被确定为没有疾病
在视觉上,通常使用混淆矩阵来显示:
该假阳性率(FPR)是没有疾病,但被鉴定为患有疾病(所有FPS),谁的人数由一共有多少人没有病谁分(包括所有FPS和TN中) 。
该错误发现率(FDR)是没有疾病,但被鉴定为患有疾病(所有FPS)谁的人数,由谁被确定为患有疾病的人的总数除以(包括所有FPS和茶多酚)。
因此,区别在于分母,即您将误报的数量与什么进行比较?
该FPR告诉大家谁没有将被认定为患有疾病的病谁的人的比例。
该FDR告诉你所有鉴定为没有病谁疾病的人的比例。
因此,两者都是有用的,不同的失败度量。根据情况和TP,FP,TN和FN的比例,您可能会更关心彼此。
现在让我们对此进行一些说明。您已经测量了100位患者的疾病,并得到以下结果:
真实正数(TP):12
误报(FPs):4
真底片(TN):76
假阴性(FNs):8
为了显示使用混淆矩阵:
然后,
换一种说法,
FPR告诉您,没有疾病的人中有5%被确定患有疾病。FDR告诉您25%的被确定患有该疾病的人实际上没有该疾病。
根据@amoeba的评论进行编辑(也是上面示例中的数字):
为什么区别如此重要?在您链接的论文中,Storey和Tibhshirani指出,在全基因组研究中,人们非常关注FPR(或I型错误率),这正导致人们做出错误的推论。这是因为一旦通过固定FPR 找到重要结果,您确实确实需要考虑多少个重要结果是不正确的。在上面的示例中,“重大结果”的25%是错误的!
[旁注:Wikipedia指出,尽管FPR在数学上等同于I类错误率,但从概念上讲它是不同的,因为一个FPR 通常先验设置,而另一个通常用于事后评估测试的性能。这很重要,但在这里我将不讨论。
为了更加完整:
显然,FPR和FDR并不是您可以使用混淆矩阵中的四个数量来计算的唯一相关指标。在不同的上下文中可能有用的许多可能指标中,您可能会遇到的两个相对常见的指标是:
真实阳性率(TPR),也称为敏感性,是指被确定患有该疾病的人所占的比例。
真阴性率(TNR),也称为特异性,是指没有患病的人中被确定没有患病的人口比例。
您应该检查https://en.wikipedia.org/wiki/Confusion_matrix中的表。请注意,FPR是垂直放置的,而FDR是水平放置的。