调整ROC曲线分析中的协变量


20

这个问题是关于在存在相关量表的情况下,在多维筛查问卷中估算截止分数以预测二值终点的问题。

有人问我在设计可用于酗酒筛查的测量量表(人格特质)每个维度的临界值时,控制相关子分数的兴趣。也就是说,在这种特殊情况下,此人对调整外部协变量(预测变量)不感兴趣-这导致在经协变量调整的ROC曲线下产生(局部)面积(例如(1-2)),但实际上对其他分数没有影响来自同一份调查表,因为它们彼此相关(例如“冲动”与“寻求感觉”)。它构成了一个GLM,在左侧包含感兴趣的得分(我们寻求分值)和从同一份问卷中计算出的另一个得分,而在右侧则可能显示饮酒状态。

为了阐明(按@robin请求),假设我们有分数,例如(例如,焦虑,冲动,神经质,寻求感觉),并且我们想找到一个值(即“阳性案例”),否则为“负数”)。在设计此类临界值时,我们通常会针对其他风险因素(例如性别或年龄)进行调整(使用ROC曲线分析)。现在,由于已知SS与IMP相关联,因此如何在性别,年龄和寻求感觉(SS)上调整冲动(IMP)呢?换句话说,如果去除了年龄,性别和焦虑水平的影响,我们将获得IMP的临界值。x j t j x j > t jĴ=4XĴŤĴXĴ>ŤĴ

除了说分界必须尽可能简单之外,我的回应是

关于协变量,我建议评估有无调整后的AUC,以查看预测性能是否提高。在这里,您的协变量仅仅是从同一度量工具定义的其他子评分,而我从未遇到过这种情况(通常,我会根据已知的风险因素进行调整,例如年龄或性别)。[...]此外,由于您对预后问题(即问卷的筛查功效)感兴趣,因此您可能还对估计阳性预测值(PPV,测试结果呈阳性并被正确分类的患者的概率)感兴趣您可以根据调查表上的子分数将主题分类为“阳性”或“阴性”。请注意,

您是否对这种特殊情况有更全面的了解,并在可能的情况下链接到相关论文?

参考文献

  1. Janes,H和Pepe,MS(2008)。在诊断,筛选或预后标志物研究中调整协变量:新环境中的旧观念美国流行病学杂志 168(1):89-97。
  2. Janes,H和Pepe,MS(2008)。ROC分析中的调节协变量华盛顿大学生物统计学工作论文系列,论文322。

我不是专家,但是我发现“在测量尺度的各个维度上设计截止分数时控制相关子分数”的说法有些深奥。您能再给我一个解释的路线吗(否则我很难理解这个问题)?
罗宾吉拉德

@robin是的,基本上我的意思是:我们有分数(例如焦虑,冲动,神经质,寻求感觉),我们想找到一个值(即,如果 “阳性病例” ,“阴性病例” “否则”)。在设计此类临界值时,我们通常会针对其他风险因素(例如性别或年龄)进行调整(使用ROC曲线分析)。现在,由于已知SS与IMP相关联,因此如何在性别,年龄寻求感觉(SS)上调整冲动(IMP)呢?换句话说,如果去除了年龄,性别和焦虑水平的影响,我们将获得IMP的临界值。t j x j > t jĴ=4ŤĴXĴ>ŤĴ
chl 2010年

如果最终目标是预测二进制值,则给定调查问题的[相关]答案,这听起来很像是标准二进制分类问题。这样考虑是否合适?还是想出“临界值”(我对此一无所知)非常重要?
DavidR 2011年

@DavidR好吧,这个想法是要确定一个临界值(读取,“处于高于某个特定值的危险中的对象”),从统计学的角度来看,这带有很多警告,但是大多数临床医生习惯或喜欢工作这条路。(很抱歉,您之前没有注意到您的评论!)
chl

Answers:


7

您设想分析的方式实际上不是我建议您开始考虑的方式。首先,很容易表明,如果必须使用截止值,则截止值不会应用于单个特征,而是会应用于总体预测概率。单个协变量的最佳临界值取决于其他协变量的所有水平。它不能恒定。其次,ROC曲线在满足针对单个主题做出最佳决策的目标方面不起作用。

为了处理相关尺度,有许多数据缩减技术可以提供帮助。其中之一是形式上的冗余分析,其中依次从所有其他预测变量中非线性预测每个预测变量。这是在redunR Hmisc包中的函数中实现的。变量聚类,主成分分析和因子分析是其他可能性。但我认为,分析的主要部分应该是建立一个良好的概率模型(例如,二进制逻辑模型)。


1
+1是关于个人决策与团队决策的重要区别。我应该期待您的回复,给您的回复在这里或在你的另一响应medstats邮件列表。我还发现了您关于基于诊断风险模型的诊断实用程序直接度量的演讲,在这方面特别有启发。
chl

现在可以在此处找到有关基于诊断风险模型的诊断实用程序直接措施的讨论kc.vanderbilt.edu/quant/Seminar/HarrellPresentMay12.pdf
Epifunky

3

Janes Pepe文章关于协变量调整后的ROC曲线的观点是,可以更灵活地解释估计的ROC曲线值。这是对目标人群中特定群体之间的ROC曲线进行分层的一种方法。估计的真实阳性分数(TPF;当量灵敏度)和真实阴性分数(TNF;当量特异性)被解释为“在相同[调整后的变量中,如果疾病状态为Y / N,则正确筛查结果的可能性列表]”。乍一看,这似乎是您要尝试通过在面板中添加更多标记来改进诊断测试。

要更好地理解这些方法,最好的背景是阅读Cox比例风险模型并查看Pepe的书“分类和……的医学检验的统计评估”。您会注意到筛选可靠性测度与生存曲线具有许多相似的特性,将拟合得分视为生存时间。就像Cox模型允许对生存曲线进行分层一样,他们建议提供分层的可靠性度量。

在二进制混合效应模型的背景下,对我们如此重要的原因可能是合理的:假设您有兴趣预测成为甲基苯丙胺成瘾者的风险。SES对此具有明显的主导作用,因此评估诊断测试似乎是愚蠢的,该诊断测试可能基于个人行为而没有分层。这是因为,即使有钱人出现躁狂和抑郁症状,他们也可能永远不会尝试使用冰毒。但是,一个穷人会表现出更大的患上此类心理症状的风险(和更高的风险评分)。粗略的风险分析将显示您的预测模型的性能很差,因为两组的相同差异并不可靠。但是,如果您分层(富人与穷人),

协变量调整的重点是,由于不同阶层之间的风险模型中较低的患病率和相互作用,因此考虑不同的群​​体是同质的。


(+1)这是一个有趣的回应,非常感谢。在撰写本文时,我主要关心的是临界值在某种程度上是“相互依赖的”。但是,我将检查Pepe的书(与此同时在此处找到一些讲义)。
chl

使用相同的数据来开发和评估医学测试存在一些问题,但是修复很容易。您应该考虑某种交叉验证,或者将数据分为“训练”和“验证”子集。这通常是开发诊断/预测/风险预测模型的有效方法。
2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.