3
如何选择最佳指标来测量校准?
我编程并进行测试驱动的开发。在更改代码后,我将运行测试。有时他们成功,有时他们失败。在我运行测试之前,我写下一个从0.01到0.99的数字,以表示我相信测试会成功。 我想知道我在预测测试成功还是失败方面是否有所进步。如果我可以跟踪我是否更擅长预测测试在星期一还是星期五成功,那也将是很好的。我想知道,如果我预测测试成功的能力与我跟踪的其他指标相关。 剩下的工作就是选择正确的指标。在超级预测中,Philip Tetlock建议使用Brier分数来衡量专家的校准水平。文献中提出的另一种度量是对数评分规则。还有其他可能的候选人。 如何确定要使用的指标?是否有理由赞成一种计分规则而不是其他计分规则?