Questions tagged «precision-recall»

P&R是一种衡量一组检索实例相关性的方法。精度是所有检索到的实例中正确实例的百分比。相关性是检索到的真实实例的百分比。P&R的谐波平均值是F1分数。P&R用于数据挖掘以评估分类器。

3
ROC与精度和召回曲线
我了解它们之间的形式差异,我想知道的是何时使用一种相对于另一种更为相关。 他们是否总是提供有关给定分类/检测系统性能的补充见解? 例如,何时在纸上同时提供它们?而不只是一个? 是否有其他替代(可能更现代)的描述符捕获分类系统的ROC和精确召回的相关方面? 我对二进制和多类(例如一对一)案例的参数都感兴趣。



9
如何解释F度量值?
我想知道如何解释f度量值的差异。我知道f量度是精确度和召回率之间的平衡平均值,但我想知道f量度的差异的实际含义。 例如,如果分类器C1的精度为0.4,而另一个分类器C2的精度为0.8,则可以说C2与C1相比已正确地对测试示例的两倍进行了分类。但是,如果分类器C1的某个类别的F度量为0.4,而另一个分类器C2的F度量为0.8,那么对于两个分类器的性能差异,我们能说什么?我们可以说C2比C1正确分类了X个实例吗?

4
类不平衡下的精确召回曲线的优化
我有一个分类任务,其中有许多预测变量(其中一个是最有参考价值的),并且我正在使用MARS模型来构造我的分类器(我对任何简单的模型都感兴趣,并且使用glms进行说明是没关系)。现在,我在训练数据中存在巨大的班级失衡(每个正样本大约有2700个负样本)。与信息检索任务类似,我更关心预测排名最高的阳性测试样本。因此,Precision Recall曲线上的性能对我很重要。 首先,我只是在训练数据上训练了模型,从而保持了班级的不平衡。我将训练有素的模型显示为红色,最重要的输入显示为蓝色。 培训不平衡数据,评估不平衡数据: 认为班级失衡会导致模型失败,因为学习排名最高的正样本是整个数据集的很小一部分,所以我对正训练点进行了升采样以获得平衡的训练数据集。当我在平衡训练集上绘制性能时,我会获得良好的性能。在PR和ROC曲线中,我训练有素的模型都比输入要好。 训练(上采样的)平衡数据,还评估(上采样的)平衡数据: 但是,如果我使用在平衡数据上训练的模型来预测原始的不平衡训练集,则PR曲线上的性能仍然很差。 培训(上采样的)平衡数据,评估原始不平衡数据: 所以我的问题是: 是由于PR曲线的可视化显示我训练的模型(红色)的性能较差,而ROC曲线却由于类的不平衡而导致性能改善的原因吗? 重采样/上采样/下采样方法能否解决此问题,从而迫使训练集中于高精度/低召回率区域? 还有其他方法可以将培训集中在高精度/低召回率区域吗?

1
sklearn分类报告中的数字是什么意思?
下面是从sklearn的sklearn.metrics.classification_report文档中提取的示例。 我不明白的是,为什么我认为班级是预测变量的标签,为什么每个班级都有f1-得分,精度和召回率值?我认为f1分数可以告诉您模型的整体准确性。另外,支持专栏告诉我们什么?我找不到任何相关信息。 print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

2
精确调用曲线(PR曲线的AUC)和平均精确度(AP)下的面积
平均精度(AP)是精度调用曲线(PR曲线的AUC)下的面积吗? 编辑: 这里有一些关于PR AUC和AP差异的评论。 AUC通过精度的梯形插值获得。另一种通常通常等效的指标是平均精度(AP),以info.ap返回。这是每次召回新的阳性样本时获得的精度平均值。如果精度是由常数段内插的,则它与AUC相同,并且是TREC最常使用的定义。 http://www.vlfeat.org/overview/plots-rank.html 此外,scikit-learn中的auc和average_precision_score结果不相同。这很奇怪,因为在文档中我们有: 根据预测分数计算平均精度(AP)该分数对应于精度调用曲线下的面积。 这是代码: # Compute Precision-Recall and plot curve precision, recall, thresholds = precision_recall_curve(y_test, clf.predict_proba(X_test)[:,1]) area = auc(recall, precision) print "Area Under PR Curve(AP): %0.2f" % area #should be same as AP? print 'AP', average_precision_score(y_test, y_pred, average='weighted') print 'AP', average_precision_score(y_test, y_pred, average='macro') print 'AP', …

1
F1 / Dice-Score vs IoU
我对F1分数,Dice分数和IoU(联合上方的交集)之间的差异感到困惑。到目前为止,我发现F1和Dice的含义相同(对吗?),IoU的公式与其他两个公式非常相似。 F1 /骰子:2TP2TP+FP+FN2TP2TP+FP+FN\frac{2TP}{2TP+FP+FN} IoU / Jaccard:TPTP+FP+FNTPTP+FP+FN\frac{TP}{TP+FP+FN} 除了F1赋予真实正数更高的权重之外,是否存在任何实际差异或其他值得注意的东西?有一种情况我会用一种而不用另一种吗?

3
高度不平衡数据的分类/评估指标
我处理欺诈检测(类似信用评分)问题。因此,欺诈性观察与非欺诈性观察之间存在高度不平衡的关系。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html很好地概述了不同的分类指标。Precision and Recall或kappa两者似乎都是不错的选择: 证明此类分类器结果的一种方法是将它们与基准分类器进行比较,并表明它们确实比随机机会预测好。 据我了解,kappa由于考虑了随机机会,因此这可能是稍微更好的选择。从科恩用简单的英语写的kappa中,我了解到这kappa涉及信息获取的概念: [...] 80%的观测精度令人印象深刻,预期精度为75%,而预期精度为50%[...] 因此,我的问题是: 假设kappa是更适合此问题的分类指标是正确的吗? 简单地使用可以kappa防止不平衡对分类算法的负面影响吗?是否仍需要重新(向下/向上)采样或基于成本的学习(请参阅http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf)?

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
不平衡数据集上的ROC与精确召回曲线
我刚刚阅读完此讨论。他们认为,在不平衡数据集上,PR AUC比ROC AUC更好。 例如,我们在测试数据集中有10个样本。9个样本为阳性,1个样本为阴性。我们有一个糟糕的模型,它预测一切都是积极的。因此,我们将得到一个度量,TP = 9,FP = 1,TN = 0,FN = 0。 然后,Precision = 0.9,Recall = 1.0。精度和召回率都很高,但是分类器很差。 另一方面,TPR = TP /(TP + FN)= 1.0,FPR = FP /(FP + TN)= 1.0。由于FPR很高,我们可以确定这不是一个很好的分类器。 显然,在不平衡数据集上,ROC优于PR。有人可以解释为什么PR更好吗?

3
对于不平衡数据,ROC曲线下的面积还是PR曲线下的面积?
我对使用哪种性能指标,ROC曲线下的面积(TPR与FPR的函数)或精确召回曲线下的面积(精度与召回的函数)之间的使用存在疑问。 我的数据不平衡,即,否定实例的数量比肯定实例大得多。 我正在使用weka的输出预测,示例是: inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 我正在使用pROC和ROCR r库。


3
分母等于0时,精度和召回率的正确值是多少?
精度定义为: p =真阳性/(真阳性+假阳性) 如果(真肯定+假肯定)= 0,那么精度的值是多少?它只是不确定的吗? 召回相同的问题: r =真阳性/(真阳性+假阴性) 在这种情况下,如果(真肯定+假否定)= 0,召回值是多少? PS这个问题与问题非常相似,在极端情况下,精度和召回率的正确值是多少?。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.