为什么大多数已发表的医学影像著作都试图减少误报?


Answers:


29

TL; DR:疾病很少见,因此,假阳性的绝对数量比假阴性的绝对数量要多得多。

假设我们的系统的假阳性和假阴性率相同,为1%(相当好!),并且我们今年正在检测新癌症的存在:439.2 / 100,000人口,即人口的0.5%。[ 来源 ]

  • 没有癌症,没有发现:99.5%x 99%= 98.5%(98.505%)
  • 无癌症,检出率:99.5%x 1%= 1.0%(0.995%)
  • 癌症,检出率:0.5%x 99%= 0.5%(0.495%)
  • 癌症,未检测到:0.5%x 1%= 0.005%

因此,我们可以看到存在一个问题:对于每个患有癌症的人,两个没有癌症的人都会通过侵入性手术,化学疗法或放射疗法结局。

对于每一个未能发现当前癌症的人,有200人获得了他们不需要且负担不起的积极有害治疗。


1
在许多筛查应用中,发病率(每100000人口中没有新诊断出的疾病)的发病率甚至更低:0.5%是总癌症发生率,而筛查程序则针对特定类型的癌症。
cbeleites支持莫妮卡

6
@cbeleites,举一个具体的例子,胰腺腺癌几乎总是致命的,因为它在进入晚期之前是无症状的。如果您要对美国整个人口进行假阳性率为1%/ 1假阴性率为1的筛查测试,您会发现大约300万例,其中实际只有46,000例患有癌症,预测值仅为1.5%。
标记

2
对于医学成像(例如fMRI),单个图像包含许多“体素”(每个体素的激活都被视为假设)的事实可能使问题更加复杂-例如参见Zen和“多重比较的艺术” -我想这可能是什么OP是指
steeldriver

16

你知道那个哭狼的男孩的故事吧?

这是相同的想法。在某个分类器多次发出错误警报(哭狼)后,医务人员将其关闭或忽略。

“哦,又是一次!不行!”

至少与我合作过的生物工程团队一样,重点在于降低FPR,特别是因为目标是制造一种可以提醒医生注意潜在病状的工具,他们告诉我们,他们将忽略哭泣的产品。太多了。

对于一种有助于医师的产品,尽管有合理的论据认为在农场失踪狼比哭泣狼更糟糕,但我们必须诉诸于他们的心理。

编辑:减少误报也有一个合理的论点。如果您的计算机在偶尔获得真正的肯定(并捕捉到大多数真正的肯定)的同时不断哭泣,那实际上是在说某人可能生病了。他们在医院。医生知道病人可能生病了。


7

简介:问题可能*不是一个假阴性是否比一个假阳性差,而是*更像是是否可以接受500个假阳性降低到一个假阴性。

*取决于应用


让我进一步谈谈@Dragon的答案:

  • 筛查意味着我们正在看似健康的人群中寻找疾病。正如@Dragon所解释的,对于这些,我们需要极低的FPR(或高灵敏度),否则我们将得到比真实肯定更多的错误肯定。即,阳性预测值(在所有诊断为阳性的疾病中真正患病的#个)将低得无法接受。

  • 灵敏度(TPR)和特异性(TNR)对于诊断系统而言很容易测量:采取一些真正的(未)患病案例并测量正确检测出的案例的比例。

  • 从医生和患者的角度来看,OTOH的预测值都更重要。它们是敏感性和特异性的“逆向”,可以告诉您所有积极(消极)预测中正确的分数。换句话说,在测试说“疾病”之后,患者实际上确实患有该疾病的概率是多少。

  • 正如@Dragon向您展示的那样,发病率(或患病率,取决于我们正在谈论的测试)在这里起着至关重要的作用。在所有筛查/早期癌症诊断应用中,发病率都很低。
    为了说明这一点,绝经后妇女的卵巢癌筛查在普通人群中的患病率为0.04%,在有家族史和/或已知抑癌基因BRCA1和2突变的高危妇女中,这一比例为0.5%[Buchen,L.巨蟹座:缺少标记。自然,2011,471,428-432]

  • 因此,问题通常不在于一个假阴性是否比一个假阳性差,而是即使99%的特异性(1%FPR)和95%的敏感性(数字来自上面的链接)也意味着每个假阴性大约500个假阳性。 。

  • 另外,请记住,早期癌症诊断本身并不是治疗癌症的灵丹妙药。例如,对于乳腺癌X线筛查,只有3-13%的真正阳性患者实际上会从筛查中受益
    因此,我们还需要关注每个受益患者的假阳性数。例如,对于乳腺X线摄影,再加上这些数字,可以粗略估计,每个受益于真实阳性的人(39-49岁年龄组)的假阳性范围在400-1800之间。

  • 每个假阴性都有数百个假阳性(每位患者也可能从筛查中受益数百个甚至数千个假阳性),这种情况并不像“一种漏诊的癌症比一种假阳性的癌症诊断更糟糕”那样清晰:确实会产生影响,范围从心理和心理躯体(担心自己患有癌症并不健康)到后续诊断(例如活检)的物理风险(这是一种小型手术,因此都具有这种影响)风险)。
    即使一个误报的影响很小,但如果必须考虑数百个误报,则相应的风险可能会大大增加。

    建议阅读:Gerd Gigerenzer:精明的风险:如何制定良好的决策(2014年)。

  • 尽管如此,使诊断测试有用所需的PPV和NPV仍高度取决于应用程序。
    正如所解释的,在筛查早期癌症的过程中,通常将重点放在PPV上,即确保您不会因误报而造成太多伤害:发现相当一部分(即使不是全部)的早期癌症患者已经是一个进步。未经筛选的现状。
    OTOH,献血中的HIV测试首先关注NPV(即确保血液中不含HIV)。尽管如此,在第二(和第三)步骤中,在担心具有(假)阳性HIV测试结果的人之前,可以通过应用进一步的测试来减少假阳性。

  • 最后但并非最不重要的一点是,在医学测试应用中,在筛查并非特别高风险的人群(例如某些鉴别诊断)时,其发生率或流行率并不像通常那样极端。


1
这有点密集;可以使用重新格式化使其更易于阅读。看起来是个不错的答案,但没有太多时间就很难深入研究。
鲍勃

3

从个人角度看,而不是数据科学经验,误报比假阴性对患者的生活质量有更大的影响(至少在医学图像处理的大多数应用中。这里我们不讨论实验室结果) 。

让我们看一个具体的例子:肿瘤筛查

假阴性意味着早期肿瘤有更多时间生长并发展为恶性肿瘤。总体而言,该过程需要很长时间,并且随后进行的每次筛查都有较高的机会进行检测,但是实际上,患者的长期健康受到了影响。

另外,总是有人参与诊断。当前技术阶段的医学图像处理旨在为医学界人士提供帮助而不是替代品。通常是指指出微妙的病变或组织变化,以至于人们可能忽略它们。医生没有机会忽视晚期肿瘤。他们不需要为此进行图像处理。

就医疗程序而言,如果在下次筛查之前肿瘤没有变得无法手术,则切除早期肿瘤或生长时间稍长的肿瘤之间没有太大区别。去除的组织数量更多,但操作的种类通常相同。(这假设患者定期进行健康检查。)

误报有许多含义,但并非都与疾病直接相关:

  • 附加程序。成像过程产生阳性结果后,将进行更多测试,以抽取血液或组织(活检)。客观地说,患者的身体受到损坏,可以验证成像结果。
  • 恐惧。实验室测试需要时间。受感染的人通常会在不确定的天气中生活几天甚至几周,或者病变实际上不是癌症。许多经历过这种假阳性的人将这一事件描述为“外伤”,并且长期遭受与健康相关的焦虑。
  • 时间投入。如果通过实验室测试或类似方法验证成像结果需要进行几次检查,则患者和医生必须花时间进行检查。即使只进行一项测试,也要涉及到一些人,包括护士,医生和实验室技术人员。在医生长期劳累的时期,应尽可能避免这种情况。
  • 不必要的药物治疗。在最坏的情况下,患者会接受甚至没有的疾病治疗,并且身体的药物副作用会使其承受不必要的压力。
  • 失去作用。如果某个程序产生过多的假阳性结果(如其他答案所述),医务人员将忽略真实的阳性结果。

该风险效益评估表明,假阴性患者比假阳性患者对患者的风险更低。因此,减少误报的优先级通常更高。


1

临床医生的时间很宝贵

在医学领域内,临床医生通常有各种各样的疾病要尝试检测和诊断,这是一个耗时的过程。呈现假阳性(即使发生率较低)的工具用处不大,因为无法信任该诊断,这意味着每次进行该诊断时都需要对其进行检查。将其视为软件的WebMD-一切都是癌症的征兆!

呈现假阴性但始终呈现真实阳性的工具则更加有用,因为临床医生无需浪费时间进行双重检查或再次猜测诊断。如果通过特定诊断将某人标记为患病,请完成工作。如果不是这样,那些未突出显示为患病的人将仍然会接受其他测试。

最好有一个工具可以准确地识别疾病的单个特征,而不是可能会弄混多个特征的工具。


0

误报率(FPR)也称为误报率(FAR);较大的误报率会导致医学图像检测系统的性能下降。误报是指您应该收到否定结果的测试,您会收到肯定的结果。例如,实际上该人没有怀孕,则妊娠试验为阳性。


4
这没有回答问题。OP并没有问假阳性意味着什么,而是为什么认为它比假阴性更重要。
Llewellyn

0

很有可能,这个线程上的每个人都已经知道这是贝叶斯分析核心的问题。仅出于未来朝圣者的利益,他们可能会认为误报在某种程度上只是放射学中的问题,我希望此评论可以提供更一般的观点。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.