确定估计事件概率的模型的准确性


12

我正在为一个具有两个结果a和b的事件建模。我创建了一个模型,该模型估计a或b发生的可能性(即模型将计算a发生的可能性为40%,b发生的可能性为60%)。

根据模型的估算,我在试验结果方面有大量记录。我想量化模型使用此数据的准确性-这有可能吗?


我可能错了,但我认为您对模型的训练和/或测试错误感兴趣。参见例如:cs.ucla.edu/~falaki/pub/classification.pdf
Stijn

1
@Stijn他虽然在预测可能性,而不是直接分类为a或b,所以我认为这些指标不是他要的。
Michael McGowan 2012年

6
您是否对模型最终在分类中的性能更感兴趣(在这种情况下,ROC和AUC类型的分析似乎最相关(en.wikipedia.org/wiki/Receiver_operating_characteristic)?概率预测为(即P(结果= A)= 60%确实意味着60%,还是仅仅结果= A比其他结果更有可能...
DavidR 2012年

1
听起来您想了解概率评分
Whuber

1
《猫王》(Elvis)是本期《决策分析》Decision Analysis)上的一篇文章,吸引了我注意概率评分。它似乎建立在有关该主题的大量文献上。(不过,除了摘要,我无权访问,因此,我无法对文章本身发表评论。)该期刊编辑的封面纸(可免费获得)提到了同一主题的许多以前的论文。
Whuber

Answers:


16

假设您的模型确实预测A的机会为40%,B的机会为60%。在某些情况下,您可能希望将其转换为将发生B的分类(因为它比A更有可能)。一旦转换为分类,每个预测都是对还是错,并且有许多有趣的方法可以对那些对与错的答案进行统计。一种是直接准确性(正确答案的百分比)。其他包括精度和召回率F量度。正如其他人提到的那样,您可能希望查看ROC曲线。此外,您的上下文可能会提供一个特定的成本矩阵,该矩阵会以与真实否定不同的方式奖励真实肯定,和/或以与错误否定不同的方式惩罚错误肯定。

但是,我认为这并不是您真正想要的。如果您说B发生的可能性为60%,而我说B发生的可能性为99%,则我们有非常不同的预测,即使它们都将在简单的分类系统中都映射到B。如果反而发生了A,那么您就错了,而我却错了,所以我希望我能得到比您更严厉的惩罚。当您的模型实际产生概率时,评分规则是对概率预测的性能进行的度量。具体来说,您可能想要一个合适的评分规则,这意味着该分数针对经过良好校准的结果进行了优化。

BS=1Nt=1N(ftot)2
ftot

当然,您选择的评分规则类型可能取决于您要预测的事件类型。但是,这应该为您提供一些进一步研究的想法。

我要加一个警告,无论您做什么,以这种方式评估模型时,建议您查看样本外数据(即未用于构建模型的数据)的指标。这可以通过交叉验证来完成。也许更简单地说,您可以在一个数据集上构建模型,然后在另一个数据集上进行评估(注意不要将来自样本外的推论溢出到样本内建模中)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.