当PR只有一个值时,如何形成Precision-Recall曲线?


12

我有一个数据挖掘任务,负责制作基于内容的图像检索系统。我有5张动物的20张图像。因此,总共100张图片。

我的系统将10个最相关的图像返回到输入图像。现在,我需要使用Precision-Recall曲线评估系统的性能。但是,我不理解精确召回曲线的概念。假设我的系统返回了10张大猩猩图像,但其中只有4张是大猩猩。返回的其他6张图片是其他动物的图片。从而,

  • 精度为4/10 = 0.4(返回的相关数)/(所有返回的数)
  • 召回是4/20 = 0.2(返回的相关人员)/(所有相关人员)

所以我只有一个点<0.2,0.4>,没有曲线。如何绘制曲线(即一组点)?我应该更改返回的图像数量(在我的情况下固定为10)吗?


2
大多数模型会分配属于某个类的概率,而不是某个类本身的概率-否则您会从分类器中挤出一个。通过更改概率截止值得出曲线。如果提及使用的分类器,您可能会得到更详细的答案。
查尔斯2014年

我计算特征向量(颜色,纹理和形状)并获得每个特征向量的相似度分数,将它们求和以得出总相似度分数,然后对它们进行降序排序。前10个图像索引是最相关的。我可以从图像索引类指标,因为图像是有序的(20只大猩猩,长颈鹿20等),我希望我自己清楚,因为我不完全理解的概念分类/描述符等
杰夫

意识到我没有很好地阅读问题。以为您遇到了两类问题(大猩猩/无大猩猩)。随着更多的课程超越我,这可能会有所帮助:stats.stackexchange.com/questions/2151/…–
charles

Answers:


11

生成PR曲线类似于生成ROC曲线。要绘制此类图,您需要对测试集进行全面排名。要进行此排名,您需要一个分类器,该分类器输出决策值而不是二进制答案。决策值是对预测的置信度的度量,我们可以使用它对所有测试实例进行排名。例如,逻辑回归和SVM的决策值分别是到分离超平面的概率和(有符号)距离。

如果处置决策值,则可以在所述决策值上定义一组阈值。这些阈值是分类器的不同设置:例如,您可以控制保守程度。对于逻辑回归,默认阈值为但您可以遍历的整个范围。通常,将阈值选择为模型为测试集生成的唯一决策值。FX=0.501个

在每个阈值选择下,您的模型都会产生不同的预测(例如,不同数量的正向和负向预测)。这样,您将获得一组精度不同的元组,并在每个阈值处调用它们,例如一组元组。PR曲线是基于对绘制的。Ť一世P一世[R一世P一世[R一世

如果我正确理解您的评论,则您计算出的总相似度得分可以用作决策值。


这对我来说还不清楚,您能否通过类似于OP的动物图像检索情况的详细示例进行研究?
先生
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.