ROC和multiROC分析:如何计算最佳切割点?


14

我试图了解如何计算ROC曲线的最佳切点(灵敏度和特异性最大化的值)。我正在使用aSAH包中的数据集pROC

outcome变量可以由两个独立变量解释:s100bndka。使用该Epi包的语法,我创建了两个模型:

library(pROC)
library(Epi)
ROC(form=outcome~s100b, data=aSAH)
ROC(form=outcome~ndka, data=aSAH)

以下两个图形说明了输出:

在此处输入图片说明 在此处输入图片说明

在第一个图表(s100b)中,该函数表示最佳切点位于对应于的值lr.eta=0.304。在第二张图(ndka)中,最佳切点位于的对应值上lr.eta=0.335(的含义lr.eta)。我的第一个问题是:

  • 什么是相应s100bndka的值lr.eta值表示(是什么方面的最佳临界点s100bndka)?

第二个问题:

现在,假设我创建一个同时考虑了两个变量的模型:

ROC(form=outcome~ndka+s100b, data=aSAH)

获得的图形为:

在此处输入图片说明

我想知道ndkaAND 的值是什么,s100b通过该函数可以最大程度地提高敏感性和特异性。换句话说:是什么样的价值观ndkas100b我们已SE = 68.3%和SP = 76.4%(从图表中获取的值)?

我想第二个问题与multiROC分析有关,但是该Epi软件包的文档并未解释如何为模型中使用的两个变量计算最佳切点。

我的问题与reasearchGate的问题非常相似,简而言之:

确定代表灵敏度和特异性之间更好权衡的临界值很简单。但是,对于多变量ROC曲线分析,我注意到大多数研究人员都将注意力集中在确定AUC上几个指标(变量)线性组合的整体准确性的算法上。[...]

但是,这些方法并未提及如何确定与多个指标相关联的临界值组合,以提供最佳的诊断准确性。

Shultz在他的论文中提出了一种可能的解决方案,但是从本文中,我无法理解如何为多元ROC曲线计算最佳切点。

也许Epi包装中的解决方案不是理想的,所以任何其他有用的链接将不胜感激。

Answers:


9

为了详细说明弗兰克·哈雷尔(Frank Harrell)的答案,该Epi软件包所做的工作是拟合逻辑回归,并使用以下形式的结果预测制作ROC曲线:

outcome=11+e(β0+β1s100b+β2ndka)

β0β1β2

0.312=11+e(2.379+5.334s100b+0.031ndka)
1.588214=5.334s100b+0.031ndka
s100b=1.5882140.031ndka5.334

满足此等式的任何一对(s100b,ndka)值均为“最佳”。不幸的是,这些货币对有无穷无尽。例如,(0.29,1),(0,51.2)等。更糟糕的是,它们大多数没有任何意义。货币对(-580,10000)是什么意思?没有!

换句话说,您不能在输入端建立截止点,而必须在输出端建立截止点,这就是模型的重点。


8

Y^


我了解您所解释的问题。顺便说一句,我想知道是否有一种方法可以并行计算两个(或多个)测试的临界点,以提高识别特定状态(疾病/结果/等)的敏感度和规范。 )。提前致谢。
2013年

1
由于x1的“最佳”切割点将取决于x2的连续值,而x2的“最佳”切割点将取决于x1的连续值,因此无法执行此操作并保留足够的信息以使其不等于灾害。
Frank Harrell 2013年

因此,没有办法找到两个或多个测试的临界点,以最大化灵敏度和特异性?当然,这不是multiROC分析的方法。再次感谢。
Tommaso

2
寻求输入的截断根本不适当。最佳决策完全不使用截断值,或者在决策时间之前根据需要通过截断预测的概率来做出。需要公用事业(损失/成本)来解决预测风险的最佳临界值。
弗兰克·哈雷尔

1
ROC曲线与达到该目标没有任何关系。为此,您需要将SCr与结果联系起来,或者只是计算获得比正常人群更高的SCr的概率。
弗兰克·哈雷尔

3

lr.etaηROC

您的第一句话应该说(如图所示),您正在寻找最大程度提高灵敏度和特异性之和的地方。但是为什么这个“最优”呢?假阳性结果是否与假阴性结果具有相同的含义?看这里


没错,我可以从拟合模型(对于一个独立变量)中计算出临界点,或者使用包中的coords函数来计算pROC(如我稍后发现的)。就我而言,最佳的临界点是Sens和Spec的最佳组合。我读了链接的答案,但是(至少到目前为止)我不关心假阳性和假阴性结果,因为(如果我理解得很好)我正在分析一组收集的数据以进行研究。
2013年

什么你关心呢?您如何处理不需要考虑后果的临界值?那么,“最佳”或“最佳” 什么呢?
Scortchi-恢复莫妮卡

Tommaso将“最佳”定义为“灵敏度和特异性最大化的值”(引用问题的第一句话),隐含了max(灵敏度+特异性)。是否有意义(当我阅读他不在乎时,我倾向于认为它不在乎)是另一个问题。
Calimo

1
这种方法与决策不符。
Frank Harrell

1
lr.etaE[Yi|Xi]=11+e(β0+β1×s100b)

0

您可以找到真实阳性率(tpr)与真实阴性率(tnr)相交的阈值,这是假阳性和假阴性总和最小的点。


单句答案通常被认为是我们格式的缩写。您能否扩展答案以简短说明您如何知道最低数量是多少?
Glen_b-恢复莫妮卡2015年

1
面对最佳决策,这样的策略是可行的。
Frank Harrell
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.