Questions tagged «precision-recall»

P&R是一种衡量一组检索实例相关性的方法。精度是所有检索到的实例中正确实例的百分比。相关性是检索到的真实实例的百分比。P&R的谐波平均值是F1分数。P&R用于数据挖掘以评估分类器。

3
在高度不平衡的环境中进行成本敏感型学习的建议
我有一个包含几百万行和约100列的数据集。我想检测数据集中大约1%的示例,它们属于一个普通类。我有一个最低限度的精度约束,但是由于成本非常不对称,所以我对任何特定的召回都不太热衷(只要我没有剩下10个正匹配项!) 在这种情况下,您会推荐哪些方法?(欢迎链接到论文,赞赏实现的链接)

2
功能数量的增加会导致准确性下降,但prec / recall会增加
我是机器学习的新手。目前,我正在使用Naive Bayes(NB)分类器,通过NLTK和python将小文本分为正,负或中性3类。 在进行了一些测试之后,使用由300,000个实例(16,924个正值,7,477个负值和275,599个中性值)组成的数据集,我发现当我增加特征数量时,精度下降,但是正负类的精度/召回率却上升。这是NB分类器的正常行为吗?我们可以说使用更多功能会更好吗? 一些数据: Features: 50 Accuracy: 0.88199 F_Measure Class Neutral 0.938299 F_Measure Class Positive 0.195742 F_Measure Class Negative 0.065596 Features: 500 Accuracy: 0.822573 F_Measure Class Neutral 0.904684 F_Measure Class Positive 0.223353 F_Measure Class Negative 0.134942 提前致谢... 编辑2011/11/26 我已经使用朴素贝叶斯分类器测试了3种不同的特征选择策略(MAXFREQ,FREQENT,MAXINFOGAIN)。首先是每类的准确性和F1度量: 然后,在将MAXINFOGAIN与前100个和前1000个功能一起使用时,我用增量训练集绘制了火车误差和测试误差: 因此,在我看来,尽管使用FREQENT可以获得最高的准确性,但是最好的分类器是使用MAXINFOGAIN的分类器,对吗?吗?使用前100个功能时,我们会产生偏差(测试错误接近训练错误),添加更多训练示例将无济于事。为了改善这一点,我们将需要更多功能。具有1000个功能,偏差会减少,但误差会增加...这样可以吗?我是否需要添加更多功能?我真的不知道该怎么解释... 再次感谢...

2
精确召回曲线中的“基线”是什么
我试图了解精度召回曲线,了解什么是精度和召回率,但我不了解的是“基准”值。我正在阅读此链接 https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ 并且我不理解“完美分类器的精确召回曲线”中显示的基线部分,它有什么作用?以及如何计算呢?我们选择的仅仅是基线吗?例如,我有具有诸如retweet,status_countetc之类的属性的twitter数据,Favorited如果被收藏,我的班级标签为1,如果未被收藏,我的班级标签为0,我在其上应用了朴素贝叶斯,现在我想绘制精确调用曲线,在这种情况下应如何设置基线?


4
在R中计算AUPR
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 8个月前关闭。 在ROC下很容易找到包装计算面积,但是有一个包装在精确召回曲线下计算面积吗?



1
如何减少误报的数量?
我正在尝试解决名为“ 行人检测”的任务,并且在两个类别的积极因素(人,负面因素)的背景上训练二进制clasifer。 我有数据集: 正数= 3752 负数= 3800 我使用 带有参数的train \ test split 80 \ 20%和RandomForestClassifier形式scikit-learn: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) 我得到分数:95.896757% 测试训练数据(完美运行): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 对测试数据进行测试: true positive: 742 false positive: 57 false negative: 5 true negative: 707 我的问题是如何减少误报(背景分类为人)的数量?另外,为什么我的误报错误多于误报错误? 我尝试使用class_weight参数,但有时性能会下降(如class_weight = {0:1,1:4}所示)。 …

2
如何比较两种排名算法?
我想比较两种排名算法。在这些算法中,客户在搜索中指定一些条件。根据客户的要求,这些算法应为数据库中的每个项目分配一个分数,并检索得分最高的项目。 我在该站点上阅读了与我的问题相关的不同主题,并在网上搜索。根据我的搜索,最相关的文章解释了一些用于比较排名算法的指标,这是:Brian McFee和Gert RG Lanckriet,Metric Learning to Rank,ICML 2010(https://bmcfee.github.io/papers/mlr .pdf)。我认为prec @ k,MAP,MRR和NDCG是可以使用的良好指标,但是我有一个问题: 我的算法对结果进行排序,因此结果列表中的第一项是得分最高的最佳项,第二项结果是第二高分,依此类推。我将搜索算法限制为例如找到5个最佳结果。结果是最热门的5个项目。因此,精度将为1。当我限制搜索以找到最佳结果时,它将找到最佳结果。同样,精度将为1。但是问题是,看到此结果的人无法接受。 我能做什么?我如何比较这些算法并显示一种算法优于另一种算法?

1
当PR只有一个值时,如何形成Precision-Recall曲线?
我有一个数据挖掘任务,负责制作基于内容的图像检索系统。我有5张动物的20张图像。因此,总共100张图片。 我的系统将10个最相关的图像返回到输入图像。现在,我需要使用Precision-Recall曲线评估系统的性能。但是,我不理解精确召回曲线的概念。假设我的系统返回了10张大猩猩图像,但其中只有4张是大猩猩。返回的其他6张图片是其他动物的图片。从而, 精度为4/10 = 0.4(返回的相关数)/(所有返回的数) 召回是4/20 = 0.2(返回的相关人员)/(所有相关人员) 所以我只有一个点<0.2,0.4>,没有曲线。如何绘制曲线(即一组点)?我应该更改返回的图像数量(在我的情况下固定为10)吗?




1
使用交叉验证时平均精度和召回率
我已经使用多个分类器对2类标签数据进行了分类,并且使用了5倍交叉验证。对于每一次折叠,我都计算了tp,tn,fp和fn。然后,我计算了每个测试的准确性,准确性,召回率和F分数。我的问题是,当我想对结果进行平均时,我对精度进行了平均,但我是否也可以对精度,查全率和F评分进行平均?还是这在数学上是错误的?PS在每个类中使用的数据集在每个类的实例数方面都非常均衡。 谢谢。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.