Answers:
我想到了几种可能性。
通常,查看总体命中率并不是一个好主意,因为如果不同类别的性能不同,则取决于测试集的组成。因此,至少应指定(并证明)测试数据中类的相对频率,以便得出有意义的值。
其次,就像@Shorack已经说过的那样,指定错误的类型有多重要。通常,分类器需要满足某些性能标准才能有用(而总体准确性很少是适当的衡量标准)。诸如敏感性,特异性,阳性和阴性预测值之类的度量考虑了不同类别和不同类型的错误分类。您可以说这些度量标准回答了有关分类器的不同问题:
这些问题通常允许制定分类器必须有用的规范。
从分类器的实际应用的角度来看,预测值通常更重要:它们取决于预测,这就是您应用分类器时的情况(患者通常对了解分类器的可能性不感兴趣。测试是为了识别患病病例,而是确定的诊断是正确的可能性)。但是,为了正确地计算它们,您需要知道分类器所使用的总体中不同类别的相对频率(似乎您拥有此信息-因此没有什么可以阻止您查看此信息)。
您还可以查看正面或负面的预测为您提供的信息增益。这由正负似然比LR⁺和LR⁻来衡量。简而言之,他们告诉您预测在多大程度上改变了所讨论课程的几率。(有关详细说明,请参见此处的回答)
对于您的琐碎分类器,事情看起来像这样:我将使用“ 0”类作为所讨论的类,因此“正”表示类“ 0”。在100个案例中,有100个被预测为阳性(属于0类)。他们中有97人确实有3人没有。0级的敏感度为100%(所有97个确实属于0级的病例均被识别),特异性为0(其他所有病例均未被识别)。正预测值(假设相对频率为97:3代表)为97%,由于未发生负预测,因此无法计算负预测值。
现在,LR⁺和LR⁻是乘积乘以正数类别(“ 0”)的几率的因子。具有1只LR⁺意味着积极的预测没有给你任何信息:它不会改变的可能性。因此,这里有一个措施可以清楚地表达一个事实,即琐碎的分类器不会添加任何信息。
完全不同的思维方向:您提到要评估不同的分类器。这听起来有点像分类器比较或选择。我上面讨论的方法的警告是,如果您在“硬”类标签上对它们进行评估,则它们将具有非常高的随机不确定性(意味着您需要大量测试用例)。如果您的预测主要是连续的(度量,例如后验概率),则可以使用针对相同类型问题的相关度量,但不使用部分案例,而是使用连续度量,请参见此处。这些也将更适合于检测预测中的细微差异。
(@FrankHarrell会告诉您您需要“适当的评分规则”,因此这是另一个要记住的搜索词。)
首先:所有命中是否同样重要,所有未命中是否同样重要?如果是这样,那么对您的null模型进行的评分没有问题,这没有错:这只是一个极好的解决方案。
如果您发现在预测1时具有良好的性能很重要,则可以改用F度量。基本上,它是召回率(实际1的哪些部分已被预测为1)和精度(预测的1的哪些部分实际上是1)的谐波均值。为了使模型在此度量上得分高,它需要:
它需要同时执行这两项操作。即使您的模型仅以几乎完美的方式完成了其中两个中的一个,但如果不满足其他要求,它的得分也会很低。 https://zh.wikipedia.org/wiki/F1_score
通常使用接收器工作特性(ROC)http://en.wikipedia.org/wiki/Receiver_operating_characteristic曲线和相关计算(即曲线下面积AUC)。基本上,您想象您的分类器给出了连续的响应(例如0到1之间),并且随着决策阈值在0到1之间变化,您绘制了灵敏度与误报率(1-特异性)的关系图。这些是专门为罕见事件(发现敌人)而设计的飞机?)。
当您处理高度不平衡的数据时,Precision-Recall曲线是一个非常好的工具,优于它在ROC曲线中更常见的表亲。
戴维斯等 等 已经表明,不能保证优化ROC曲线下面积的算法来优化PR曲线下面积。