背景:这里有一些很棒的问题/答案,如何校准可预测结果发生概率的模型。例如
- Brier分数,并将其分解为分辨率,不确定性和可靠性。
- 标定图和等渗回归。
这些方法通常需要对预测的概率使用分箱方法,以便通过取平均结果在分箱上使结果(0,1)的行为平滑。
问题: 但是,我找不到任何有关如何选择纸槽宽度的信息。
问题:如何选择最佳纸槽宽度?
尝试:正在使用的两种常见的料箱宽度似乎是:
- 等宽合并,例如10个合并,每个合并覆盖间隔[0,1]的10%。
- Tukey的分箱方法在这里讨论。
但是,如果有兴趣在预测概率最不正确的区间中找到间隔,那么这些垃圾箱的选择是否是最佳选择?
1
如果“ 1”的结果很少见,则值得考虑将其划分为等号“ 1”而不是等量样本的箱。这可以帮助在校准后保持模型的鉴别度(AUC)
—
ihadanny