统计和大数据 precision-recall

3

我了解它们之间的形式差异，我想知道的是何时使用一种相对于另一种更为相关。他们是否总是提供有关给定分类/检测系统性能的补充见解？例如，何时在纸上同时提供它们？而不只是一个？是否有其他替代（可能更现代）的描述符捕获分类系统的ROC和精确召回的相关方面？我对二进制和多类（例如一对一）案例的参数都感兴趣。

159 machine-learning roc precision-recall

3

您如何使用混淆矩阵计算精度和召回率？

我想知道如何针对多类分类问题使用混淆矩阵来计算精度和召回率。具体而言，只能将观察值分配给其最可能的类别/标签。我想计算：精度= TP /（TP + FP）召回率= TP /（TP + FN）针对每个类别，然后计算微观平均F测度。

92 machine-learning classification precision-recall multi-class

8

如何计算多类-多标签分类的精度/召回率？

我想知道如何计算多类多标签分类的精度和召回率，即多于两个标签且每个实例可以有多个标签的分类？

72 machine-learning classification precision-recall multi-class

9

如何解释F度量值？

我想知道如何解释f度量值的差异。我知道f量度是精确度和召回率之间的平衡平均值，但我想知道f量度的差异的实际含义。例如，如果分类器C1的精度为0.4，而另一个分类器C2的精度为0.8，则可以说C2与C1相比已正确地对测试示例的两倍进行了分类。但是，如果分类器C1的某个类别的F度量为0.4，而另一个分类器C2的F度量为0.8，那么对于两个分类器的性能差异，我们能说什么？我们可以说C2比C1正确分类了X个实例吗？

41 classification precision-recall

4

类不平衡下的精确召回曲线的优化

我有一个分类任务，其中有许多预测变量（其中一个是最有参考价值的），并且我正在使用MARS模型来构造我的分类器（我对任何简单的模型都感兴趣，并且使用glms进行说明是没关系）。现在，我在训练数据中存在巨大的班级失衡（每个正样本大约有2700个负样本）。与信息检索任务类似，我更关心预测排名最高的阳性测试样本。因此，Precision Recall曲线上的性能对我很重要。首先，我只是在训练数据上训练了模型，从而保持了班级的不平衡。我将训练有素的模型显示为红色，最重要的输入显示为蓝色。培训不平衡数据，评估不平衡数据：认为班级失衡会导致模型失败，因为学习排名最高的正样本是整个数据集的很小一部分，所以我对正训练点进行了升采样以获得平衡的训练数据集。当我在平衡训练集上绘制性能时，我会获得良好的性能。在PR和ROC曲线中，我训练有素的模型都比输入要好。训练（上采样的）平衡数据，还评估（上采样的）平衡数据：但是，如果我使用在平衡数据上训练的模型来预测原始的不平衡训练集，则PR曲线上的性能仍然很差。培训（上采样的）平衡数据，评估原始不平衡数据：所以我的问题是：是由于PR曲线的可视化显示我训练的模型（红色）的性能较差，而ROC曲线却由于类的不平衡而导致性能改善的原因吗？重采样/上采样/下采样方法能否解决此问题，从而迫使训练集中于高精度/低召回率区域？还有其他方法可以将培训集中在高精度/低召回率区域吗？

30 machine-learning roc precision-recall unbalanced-classes data-visualization

1

sklearn分类报告中的数字是什么意思？

下面是从sklearn的sklearn.metrics.classification_report文档中提取的示例。我不明白的是，为什么我认为班级是预测变量的标签，为什么每个班级都有f1-得分，精度和召回率值？我认为f1分数可以告诉您模型的整体准确性。另外，支持专栏告诉我们什么？我找不到任何相关信息。 print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

29 machine-learning python scikit-learn precision-recall

2

精确调用曲线（PR曲线的AUC）和平均精确度（AP）下的面积

平均精度（AP）是精度调用曲线（PR曲线的AUC）下的面积吗？编辑：这里有一些关于PR AUC和AP差异的评论。 AUC通过精度的梯形插值获得。另一种通常通常等效的指标是平均精度（AP），以info.ap返回。这是每次召回新的阳性样本时获得的精度平均值。如果精度是由常数段内插的，则它与AUC相同，并且是TREC最常使用的定义。 http://www.vlfeat.org/overview/plots-rank.html 此外，scikit-learn中的auc和average_precision_score结果不相同。这很奇怪，因为在文档中我们有：根据预测分数计算平均精度（AP）该分数对应于精度调用曲线下的面积。这是代码： # Compute Precision-Recall and plot curve precision, recall, thresholds = precision_recall_curve(y_test, clf.predict_proba(X_test)[:,1]) area = auc(recall, precision) print "Area Under PR Curve(AP): %0.2f" % area #should be same as AP? print 'AP', average_precision_score(y_test, y_pred, average='weighted') print 'AP', average_precision_score(y_test, y_pred, average='macro') print 'AP', …

27 scikit-learn precision-recall auc average-precision

1

F1 / Dice-Score vs IoU

我对F1分数，Dice分数和IoU（联合上方的交集）之间的差异感到困惑。到目前为止，我发现F1和Dice的含义相同（对吗？），IoU的公式与其他两个公式非常相似。 F1 /骰子：2TP2TP+FP+FN2TP2TP+FP+FN\frac{2TP}{2TP+FP+FN} IoU / Jaccard：TPTP+FP+FNTPTP+FP+FN\frac{TP}{TP+FP+FN} 除了F1赋予真实正数更高的权重之外，是否存在任何实际差异或其他值得注意的东西？有一种情况我会用一种而不用另一种吗？

24 terminology accuracy precision-recall

3

高度不平衡数据的分类/评估指标

我处理欺诈检测（类似信用评分）问题。因此，欺诈性观察与非欺诈性观察之间存在高度不平衡的关系。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html很好地概述了不同的分类指标。Precision and Recall或kappa两者似乎都是不错的选择：证明此类分类器结果的一种方法是将它们与基准分类器进行比较，并表明它们确实比随机机会预测好。据我了解，kappa由于考虑了随机机会，因此这可能是稍微更好的选择。从科恩用简单的英语写的kappa中，我了解到这kappa涉及信息获取的概念： [...] 80％的观测精度令人印象深刻，预期精度为75％，而预期精度为50％[...] 因此，我的问题是：假设kappa是更适合此问题的分类指标是正确的吗？简单地使用可以kappa防止不平衡对分类算法的负面影响吗？是否仍需要重新（向下/向上）采样或基于成本的学习（请参阅http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf）？

22 classification unbalanced-classes precision-recall cohens-kappa model-evaluation

4

边缘情况下精度和召回率的正确值是多少？

精度定义为： p = true positives / (true positives + false positives) 对不对，作为true positives和false positives做法0，精度接近1？召回相同的问题： r = true positives / (true positives + false negatives) 我目前正在实施统计测试，需要计算这些值，有时分母为0，我想知道在这种情况下应返回哪个值。 PS：请原谅，不恰当的标签，我想用recall，precision和limit，但我不能创造新的标签呢。

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

3

不平衡数据集上的ROC与精确召回曲线

我刚刚阅读完此讨论。他们认为，在不平衡数据集上，PR AUC比ROC AUC更好。例如，我们在测试数据集中有10个样本。9个样本为阳性，1个样本为阴性。我们有一个糟糕的模型，它预测一切都是积极的。因此，我们将得到一个度量，TP = 9，FP = 1，TN = 0，FN = 0。然后，Precision = 0.9，Recall = 1.0。精度和召回率都很高，但是分类器很差。另一方面，TPR ＝ TP /（TP + FN）＝ 1.0，FPR ＝ FP /（FP + TN）＝ 1.0。由于FPR很高，我们可以确定这不是一个很好的分类器。显然，在不平衡数据集上，ROC优于PR。有人可以解释为什么PR更好吗？

17 machine-learning model-selection roc unbalanced-classes precision-recall

3

对于不平衡数据，ROC曲线下的面积还是PR曲线下的面积？

我对使用哪种性能指标，ROC曲线下的面积（TPR与FPR的函数）或精确召回曲线下的面积（精度与召回的函数）之间的使用存在疑问。我的数据不平衡，即，否定实例的数量比肯定实例大得多。我正在使用weka的输出预测，示例是： inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 我正在使用pROC和ROCR r库。

16 r machine-learning roc precision-recall auc

5

增加训练数据对整个系统的准确性有什么影响？

有人可以为我总结一些可能的例子，在什么情况下增加培训数据可以改善整个系统？我们何时发现添加更多训练数据可能会过拟合数据，而对测试数据却没有很好的准确性？这是一个非常特殊的问题，但是如果您要针对特定情况回答特定问题，请这样做。

16 machine-learning classification dataset precision-recall

3

分母等于0时，精度和召回率的正确值是多少？

精度定义为： p =真阳性/（真阳性+假阳性）如果（真肯定+假肯定）= 0，那么精度的值是多少？它只是不确定的吗？召回相同的问题： r =真阳性/（真阳性+假阴性）在这种情况下，如果（真肯定+假否定）= 0，召回值是多少？ PS这个问题与问题非常相似，在极端情况下，精度和召回率的正确值是多少？。

16 precision-recall

4

梯度提升机的精度随着迭代次数的增加而降低

我正在通过caretR中的程序包尝试使用梯度增强机算法。使用一个小的大学录取数据集，我运行了以下代码： library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

Questions tagged «precision-recall»