统计和大数据 calibration

3

假设我有一个预测模型，该模型为每种情况下产生每个类别的概率。现在，我认识到，如果我想使用这些概率进行分类（精确度，召回率等），则有很多方法可以评估这种模型。我也认识到，ROC曲线及其下的区域可用于确定模型在各类之间的区分程度。这些不是我要问的。我有兴趣评估模型的校准。我知道，一个评分规则，如布来得分可以完成这个任务非常有用。没关系，我可能会沿这条线合并一些内容，但是我不确定这样的指标对外行人有多直观。我正在寻找更直观的东西。我希望解释结果的人能够看到模型预测某事发生的概率是70％的可能性是它会在约70％的时间实际发生，等等。我听说过（但从未使用过）QQ图，起初我以为这是我想要的。但是，看来这确实是为了比较两个概率分布。那不是我直接拥有的。对于一堆实例，我有我的预测概率，然后是事件是否实际发生： Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... 那么QQ情节真的是我想要的，还是我在寻找其他东西？如果我应该使用QQ图，将数据转换为概率分布的正确方法是什么？我想我可以按预测的概率对两列进行排序，然后创建一些垃圾箱。这是我应该做的事情，还是我想念某个地方？我熟悉各种离散化技术，但是有没有一种具体的方法可以将离散化到这种情况下的垃圾箱中？

23 data-visualization classification predictive-models binary-data calibration

2

为什么要使用普拉特的缩放比例？

为了将置信度水平校准为监督学习中的概率（例如使用过采样的数据从SVM或决策树映射置信度），一种方法是使用Platt的定标（例如，从Boosting获取校准的概率）。基本上，人们使用逻辑回归将映射到。因变量是真实标签，预测变量是未校准模型的置信度。我不理解的是使用目标变量而不是1或0。该方法需要创建一个新的“标签”：[−∞;∞][−∞;∞][-\infty;\infty][0;1][0;1][0;1] 为了避免过度拟合S型火车，使用了样本外模型。如果训练集中有正例和负例，则对于每个训练例，普拉特校准将使用目标值和y _-（分别为1和0），其中 y _ + = \ frac {N_ + +1} {N _ ++ 2}; \ quad \ quad y _- = \ frac {1} {N _- + 2} N+N+N_+N−N−N_-y+y+y_+y−y−y_-y+=N++1N++2;y−=1N−+2y+=N++1N++2;y−=1N−+2 y_+=\frac{N_++1}{N_++2};\quad\quad y_-=\frac{1}{N_-+2} 我不明白的是这个新目标是如何有用的。逻辑回归不只是将因变量视为二进制标签（与给出的标签无关）吗？更新：我发现，在SAS中，将依赖项从更改为其他值会还原为同一模型（使用）。也许是我的错误，或者是SAS缺乏通用性。我能够在R中更改模型。例如：1/01/01/0PROC GENMOD data(ToothGrowth) attach(ToothGrowth) # 1/0 coding dep <- ifelse(supp == "VC", 1, 0) …

17 logistic cross-validation calibration

1

多次插补后合并校准图

我想对多次插补后合并校准图/统计数据提出建议。在开发统计模型以预测未来事件的设置中（例如，使用医院记录中的数据预测医院出院后的存活或事件），人们可以想象有很多缺失的信息。多重插补是处理这种情况的一种方式，但是导致需要合并每个插补数据集的测试统计数据，并考虑到由于插补固有的不确定性而导致的其他可变性。我知道有多个校准统计信息（hosmer-lemeshow，Harrell的Emax，估计的校准指数等），可能适用“常规” Rubin合并规则。但是，这些统计信息通常是校准的总体度量，没有显示模型的特定未校准区域。因此，我宁愿看一下校准图。遗憾的是，我对如何“汇总”图表或背后的数据（每个人的预测概率和每个人的观察到的结果）一无所知，并且在生物医学文献（我熟悉的领域）中找不到很多东西，或在这里，在CrossValidated上。当然，查看每个插补数据集的标定图可能是一个答案，但是当创建许多插补集时（可能会很麻烦）。因此，我想问一问是否存在可以在多次插补之后合并校准图的技术？

15 data-visualization data-imputation multiple-imputation pooling calibration

2

Scikit使用CalibratedClassifierCV校准分类器的正确方法

Scikit具有CalibratedClassifierCV，它使我们能够在特定的X，y对上校准模型。它还明确指出data for fitting the classifier and for calibrating it must be disjoint. 如果它们必须不相交，则对分类器进行以下训练是否合法？ model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) 我担心使用相同的训练集会违反disjoint data规则。另一种可能是设置验证集 my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) 这样做的缺点是要保留较少的数据用于训练。另外，如果CalibratedClassifierCV只适合于适合其他训练集的模型，为什么默认选项为cv=3，也适合基本估计量？交叉验证是否可以自行处理不相交规则？问题：使用CalibratedClassifierCV的正确方法是什么？

15 cross-validation scikit-learn validation train calibration

2

在校准概率模型时如何选择最佳箱宽？

背景：这里有一些很棒的问题/答案，如何校准可预测结果发生概率的模型。例如 Brier分数，并将其分解为分辨率，不确定性和可靠性。标定图和等渗回归。这些方法通常需要对预测的概率使用分箱方法，以便通过取平均结果在分箱上使结果（0，1）的行为平滑。问题：但是，我找不到任何有关如何选择纸槽宽度的信息。问题：如何选择最佳纸槽宽度？尝试：正在使用的两种常见的料箱宽度似乎是：等宽合并，例如10个合并，每个合并覆盖间隔[0，1]的10％。 Tukey的分箱方法在这里讨论。但是，如果有兴趣在预测概率最不正确的区间中找到间隔，那么这些垃圾箱的选择是否是最佳选择？

12 probability predictive-models binary-data calibration scoring-rules

3

如何选择最佳指标来测量校准？

我编程并进行测试驱动的开发。在更改代码后，我将运行测试。有时他们成功，有时他们失败。在我运行测试之前，我写下一个从0.01到0.99的数字，以表示我相信测试会成功。我想知道我在预测测试成功还是失败方面是否有所进步。如果我可以跟踪我是否更擅长预测测试在星期一还是星期五成功，那也将是很好的。我想知道，如果我预测测试成功的能力与我跟踪的其他指标相关。剩下的工作就是选择正确的指标。在超级预测中，Philip Tetlock建议使用Brier分数来衡量专家的校准水平。文献中提出的另一种度量是对数评分规则。还有其他可能的候选人。如何确定要使用的指标？是否有理由赞成一种计分规则而不是其他计分规则？

10 forecasting decision-theory calibration scoring-rules

2

为什么对逻辑回归进行了良好的校准，以及如何破坏其校准？

在scikit学习有关概率校准的文档中，他们将逻辑回归与其他方法进行了比较，并指出随机森林的校准程度不如逻辑回归。为什么逻辑回归得到很好的校准？一个人怎么会破坏逻辑回归的标定（不是一个人愿意-只是作为一种练习）？

9 regression logistic calibration

Questions tagged «calibration»