Questions tagged «calibration»

3
可视化模型预测概率的校准
假设我有一个预测模型,该模型为每种情况下产生每个类别的概率。现在,我认识到,如果我想使用这些概率进行分类(精确度,召回率等),则有很多方法可以评估这种模型。我也认识到,ROC曲线及其下的区域可用于确定模型在各类之间的区分程度。这些不是我要问的。 我有兴趣评估模型的校准。 我知道,一个评分规则,如布来得分可以完成这个任务非常有用。没关系,我可能会沿这条线合并一些内容,但是我不确定这样的指标对外行人有多直观。我正在寻找更直观的东西。我希望解释结果的人能够看到模型预测某事发生的概率是70%的可能性是它会在约70%的时间实际发生,等等。 我听说过(但从未使用过)QQ图,起初我以为这是我想要的。但是,看来这确实是为了比较两个概率分布。那不是我直接拥有的。对于一堆实例,我有我的预测概率,然后是事件是否实际发生: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... 那么QQ情节真的是我想要的,还是我在寻找其他东西?如果我应该使用QQ图,将数据转换为概率分布的正确方法是什么? 我想我可以按预测的概率对两列进行排序,然后创建一些垃圾箱。这是我应该做的事情,还是我想念某个地方?我熟悉各种离散化技术,但是有没有一种具体的方法可以将离散化到这种情况下的垃圾箱中?

2
为什么要使用普拉特的缩放比例?
为了将置信度水平校准为监督学习中的概率(例如使用过采样的数据从SVM或决策树映射置信度),一种方法是使用Platt的定标(例如,从Boosting获取校准的概率)。 基本上,人们使用逻辑回归将映射到。因变量是真实标签,预测变量是未校准模型的置信度。我不理解的是使用目标变量而不是1或0。该方法需要创建一个新的“标签”:[−∞;∞][−∞;∞][-\infty;\infty][0;1][0;1][0;1] 为了避免过度拟合S型火车,使用了样本外模型。如果训练集中有正例和负例,则对于每个训练例,普拉特校准将使用目标值和y _-(分别为1和0),其中 y _ + = \ frac {N_ + +1} {N _ ++ 2}; \ quad \ quad y _- = \ frac {1} {N _- + 2} N+N+N_+N−N−N_-y+y+y_+y−y−y_-y+=N++1N++2;y−=1N−+2y+=N++1N++2;y−=1N−+2 y_+=\frac{N_++1}{N_++2};\quad\quad y_-=\frac{1}{N_-+2} 我不明白的是这个新目标是如何有用的。逻辑回归不只是将因变量视为二进制标签(与给出的标签无关)吗? 更新: 我发现,在SAS中,将依赖项从更改为其他值会还原为同一模型(使用)。也许是我的错误,或者是SAS缺乏通用性。我能够在R中更改模型。例如:1/01/01/0PROC GENMOD data(ToothGrowth) attach(ToothGrowth) # 1/0 coding dep <- ifelse(supp == "VC", 1, 0) …

1
多次插补后合并校准图
我想对多次插补后合并校准图/统计数据提出建议。在开发统计模型以预测未来事件的设置中(例如,使用医院记录中的数据预测医院出院后的存活或事件),人们可以想象有很多缺失的信息。多重插补是处理这种情况的一种方式,但是导致需要合并每个插补数据集的测试统计数据,并考虑到由于插补固有的不确定性而导致的其他可变性。 我知道有多个校准统计信息(hosmer-lemeshow,Harrell的Emax,估计的校准指数等),可能适用“常规” Rubin合并规则。 但是,这些统计信息通常是校准的总体度量,没有显示模型的特定未校准区域。因此,我宁愿看一下校准图。遗憾的是,我对如何“汇总”图表或背后的数据(每个人的预测概率和每个人的观察到的结果)一无所知,并且在生物医学文献(我熟悉的领域)中找不到很多东西,或在这里,在CrossValidated上。当然,查看每个插补数据集的标定图可能是一个答案,但是当创建许多插补集时(可能会很麻烦)。 因此,我想问一问是否存在可以在多次插补之后合并校准图的技术?

2
Scikit使用CalibratedClassifierCV校准分类器的正确方法
Scikit具有CalibratedClassifierCV,它使我们能够在特定的X,y对上校准模型。它还明确指出data for fitting the classifier and for calibrating it must be disjoint. 如果它们必须不相交,则对分类器进行以下训练是否合法? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) 我担心使用相同的训练集会违反disjoint data规则。另一种可能是设置验证集 my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) 这样做的缺点是要保留较少的数据用于训练。另外,如果CalibratedClassifierCV只适合于适合其他训练集的模型,为什么默认选项为cv=3,也适合基本估计量?交叉验证是否可以自行处理不相交规则? 问题:使用CalibratedClassifierCV的正确方法是什么?

2
在校准概率模型时如何选择最佳箱宽?
背景:这里有一些很棒的问题/答案,如何校准可预测结果发生概率的模型。例如 Brier分数,并将其分解为分辨率,不确定性和可靠性。 标定图和等渗回归。 这些方法通常需要对预测的概率使用分箱方法,以便通过取平均结果在分箱上使结果(0,1)的行为平滑。 问题: 但是,我找不到任何有关如何选择纸槽宽度的信息。 问题:如何选择最佳纸槽宽度? 尝试:正在使用的两种常见的料箱宽度似乎是: 等宽合并,例如10个合并,每个合并覆盖间隔[0,1]的10%。 Tukey的分箱方法在这里讨论。 但是,如果有兴趣在预测概率最不正确的区间中找到间隔,那么这些垃圾箱的选择是否是最佳选择?

3
如何选择最佳指标来测量校准?
我编程并进行测试驱动的开发。在更改代码后,我将运行测试。有时他们成功,有时他们失败。在我运行测试之前,我写下一个从0.01到0.99的数字,以表示我相信测试会成功。 我想知道我在预测测试成功还是失败方面是否有所进步。如果我可以跟踪我是否更擅长预测测试在星期一还是星期五成功,那也将是很好的。我想知道,如果我预测测试成功的能力与我跟踪的其他指标相关。 剩下的工作就是选择正确的指标。在超级预测中,Philip Tetlock建议使用Brier分数来衡量专家的校准水平。文献中提出的另一种度量是对数评分规则。还有其他可能的候选人。 如何确定要使用的指标?是否有理由赞成一种计分规则而不是其他计分规则?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.