3
在不采用信号检测理论衍生指标的情况下分析信号检测数据是否有效?
信号检测实验通常向观察者(或诊断系统)呈现信号或非信号,并且要求观察者报告他们是否认为所呈现的物品是信号还是非信号。此类实验产生的数据填充2x2矩阵: 信号检测理论表示这样的数据,即表示“信号/非信号”决策基于信号连续性的场景,在这种情况下,信号试验通常比非信号试验具有更高的价值,观察者只需选择一个标准值,高于该值他们将报告“信号”: 在上图中,绿色和红色分布分别代表“信号”分布和“非信号”分布,而灰线则代表给定观察者选择的标准。在灰线的右侧,绿色曲线下方的区域表示命中,红色曲线下方的区域表示误报警。在灰线的左侧,绿色曲线下方的区域表示未命中,红色曲线下方的区域表示正确的拒绝。 可以想象,根据此模型,落入上面2x2表的每个单元格中的响应比例由以下方式确定: 从绿色和红色分布中采样的试验的相对比例(基本比率) 观察者选择的标准 分布之间的分离 每个分布的方差 分布之间的方差相等有任何偏离(上面描述了方差相等) 每个分布的形状(以上均为高斯分布) 通常,只能通过让观察者在多个不同的标准级别上做出决策来评估#5和#6的影响,因此我们暂时将其忽略。另外,#3和#4仅相对于彼此有意义(例如,相对于分布的可变性而言,间隔有多大?),通过“可区分性”(也称为d')的度量来概括。因此,信号检测理论禁止根据信号检测数据评估两个属性:标准和可辨别性。 但是,我经常注意到,研究报告(尤其是医学领域的报告)未能应用信号检测框架,而是尝试分析诸如“正预测值”,“负预测值”,“灵敏度”和“特异性”之类的量。 ”,它们都代表与上面2x2表不同的边际值(有关详细信息,请参见此处)。 这些边际属性提供什么效用?我倾向于完全无视它们,因为它们混淆了标准和可辨别性的理论上独立的影响,但我可能只是缺乏想象力来考虑它们的好处。